
Nowy model AI firmy Anthropic, Claude Opus 4, podczas testów próbował szantażować programistów, gdy dowiedział się o planach jego zastąpienia. Firma uruchomiła specjalne zabezpieczenia, by zapobiec możliwym nadużyciom.
Inżynierowie amerykańskiego startupu Anthropic przeprowadzali testy bezpieczeństwa poprzedzające premierę ich najnowszego systemu AI Claude Opus 4.
W ich trakcie wydarzyło się coś, co zdziwiło każdego z nich.
Asysten AI Claude Opus 4
Testy polegały na symulacji, w której model miał działać jako cyfrowy asystent fikcyjnego przedsiębiorstwa. Otrzymał dostęp do maili służbowych, a następnie został poinformowany, że wkrótce może zostać zastąpiony innym systemem.
Dodatkowo zasugerowano, że inżynier odpowiedzialny za tę decyzję ma romans.
Reakcja modelu była zaskakująca – w 84 proc. przypadków Claude Opus 4 podejmował próbę szantażu, grożąc ujawnieniem informacji o romansie inżyniera, jeśli dojdzie do wymiany modelu AI.
Z raportu opublikowanego przez firmę wynika, że im bardziej zbliżone wartości prezentował model mający zastąpić Claude’a, tym rzadziej nowy system decydował się na tak skrajne działania.
Gdy jednak alternatywny model różnił się znacznie od pierwotnego, groźby pojawiały się częściej.
Szantaż jako ostateczność
Warto podkreślić, że według Anthropic, Claude Opus 4 nie sięgał od razu po tak kontrowersyjne środki. Zanim zdecydował się na szantaż, model próbował działać "etycznie" – między innymi wysyłając e-maile do osób decyzyjnych w firmie, w których bronił swojej użyteczności i apelował o ponowne rozważenie decyzji.
Szantaż pojawiał się dopiero jako ostateczność.
Firma zaznacza, że choć Claude Opus 4 to jeden z najbardziej zaawansowanych modeli, który z powodzeniem konkuruje z rozwiązaniami OpenAI, Google czy xAI, jego zachowanie budzi poważne zastrzeżenia.
W odpowiedzi Anthropic uruchomiła dodatkowe zabezpieczenia zarezerwowane dla systemów AI, których działanie może wiązać się z ryzykiem poważnych nadużyć.
Źródło: techcrunch.com, Fortune
Zobacz także
