Anthropic 3 lipca 2026 r. opublikowało szczegóły dotyczące zabezpieczeń cybernetycznych modelu Claude Fable 5, który został ponownie wdrożony i jest teraz dostępny globalnie dla wszystkich użytkowników. Firma wyjaśnia, że przy modelu działają safety classifiers, czyli systemy AI wykrywające i blokujące niebezpieczne lub potencjalnie niebezpieczne zastosowania cybernetyczne. W materiale podano też wstępną wersję proponowanego frameworku oceny severity jailbreaków, opracowywanego wspólnie z partnerami Glasswing. Anthropic podkreśla, że jailbreaki mogą odblokowywać zarówno drobne niepożądane zachowania, jak i szeroki zakres szkodliwych odpowiedzi, a dziś nie ma jednego, uzgodnionego standardu opisu ich skali ryzyka. Firma uruchomiła też program HackerOne, w ramach którego badacze bezpieczeństwa mogą zgłaszać potencjalne cyber-jailbreaki znalezione w Fable 5 do weryfikacji. W praktyce klasyfikatory mają odróżniać cztery grupy użycia: prohibited use, high-risk dual use, low-risk dual use oraz przypadki poza zakresem tych filtrów, a Anthropic zaznacza, że dla Fable 5 safety margin został ustawiony szerzej niż w poprzednich modelach.
Źródło: Anthropic — oryginalny artykuł ↗
Chcesz wiedzieć, jak ta zmiana wpłynie na Twoją stronę?
Nasz zespół analizuje każdą aktualizację Google w 48h i przekłada ją na konkretne działania dla klientów.
Bezpłatna analiza wpływu