Anthropic ujawnia framework oceny jailbreaków i zasady bezpieczeństwa Fable 5

Anthropic 3 lipca 2026 r. opublikowało szczegóły dotyczące zabezpieczeń cybernetycznych modelu Claude Fable 5, który został ponownie wdrożony i jest teraz dostępny globalnie dla wszystkich użytkowników. Firma wyjaśnia, że przy modelu działają safety classifiers, czyli systemy AI wykrywające i blokujące niebezpieczne lub potencjalnie niebezpieczne zastosowania cybernetyczne. W materiale podano też wstępną wersję proponowanego frameworku oceny severity jailbreaków, opracowywanego wspólnie z partnerami Glasswing. Anthropic podkreśla, że jailbreaki mogą odblokowywać zarówno drobne niepożądane zachowania, jak i szeroki zakres szkodliwych odpowiedzi, a dziś nie ma jednego, uzgodnionego standardu opisu ich skali ryzyka. Firma uruchomiła też program HackerOne, w ramach którego badacze bezpieczeństwa mogą zgłaszać potencjalne cyber-jailbreaki znalezione w Fable 5 do weryfikacji. W praktyce klasyfikatory mają odróżniać cztery grupy użycia: prohibited use, high-risk dual use, low-risk dual use oraz przypadki poza zakresem tych filtrów, a Anthropic zaznacza, że dla Fable 5 safety margin został ustawiony szerzej niż w poprzednich modelach.

#Claude#Fable 5#jailbreak#cybersecurity#HackerOne

Źródło: Anthropic — oryginalny artykuł ↗

Chcesz wiedzieć, jak ta zmiana wpłynie na Twoją stronę?

Nasz zespół analizuje każdą aktualizację Google w 48h i przekłada ją na konkretne działania dla klientów.

Bezpłatna analiza wpływu