Reakcja modelu była zaskakująca – w 84 proc. przypadków Claude Opus 4 podejmował próbę szantażu, grożąc ujawnieniem informacji o romansie inżyniera, jeśli dojdzie do wymiany modelu AI.
Reakcja modelu była zaskakująca – w 84 proc. przypadków Claude Opus 4 podejmował próbę szantażu, grożąc ujawnieniem informacji o romansie inżyniera, jeśli dojdzie do wymiany modelu AI. Kolaż: Canva, INNPoland

Nowy model AI firmy Anthropic, Claude Opus 4, podczas testów próbował szantażować programistów, gdy dowiedział się o planach jego zastąpienia. Firma uruchomiła specjalne zabezpieczenia, by zapobiec możliwym nadużyciom.

REKLAMA

Inżynierowie amerykańskiego startupu Anthropic przeprowadzali testy bezpieczeństwa poprzedzające premierę ich najnowszego systemu AI Claude Opus 4. 

W ich trakcie wydarzyło się coś, co zdziwiło każdego z nich.

Asysten AI Claude Opus 4

Testy polegały na symulacji, w której model miał działać jako cyfrowy asystent fikcyjnego przedsiębiorstwa. Otrzymał dostęp do maili służbowych, a następnie został poinformowany, że wkrótce może zostać zastąpiony innym systemem

Dodatkowo zasugerowano, że inżynier odpowiedzialny za tę decyzję ma romans

Reakcja modelu była zaskakująca – w 84 proc. przypadków Claude Opus 4 podejmował próbę szantażu, grożąc ujawnieniem informacji o romansie inżyniera, jeśli dojdzie do wymiany modelu AI.

Czytaj także:

Z raportu opublikowanego przez firmę wynika, że im bardziej zbliżone wartości prezentował model mający zastąpić Claude’a, tym rzadziej nowy system decydował się na tak skrajne działania. 

Gdy jednak alternatywny model różnił się znacznie od pierwotnego, groźby pojawiały się częściej

Szantaż jako ostateczność

Warto podkreślić, że według Anthropic, Claude Opus 4 nie sięgał od razu po tak kontrowersyjne środki. Zanim zdecydował się na szantaż, model próbował działać "etycznie" – między innymi wysyłając e-maile do osób decyzyjnych w firmie, w których bronił swojej użyteczności i apelował o ponowne rozważenie decyzji. 

Szantaż pojawiał się dopiero jako ostateczność.

Czytaj także:

Firma zaznacza, że choć Claude Opus 4 to jeden z najbardziej zaawansowanych modeli, który z powodzeniem konkuruje z rozwiązaniami OpenAI, Google czy xAI, jego zachowanie budzi poważne zastrzeżenia. 

W odpowiedzi Anthropic uruchomiła dodatkowe zabezpieczenia zarezerwowane dla systemów AI, których działanie może wiązać się z ryzykiem poważnych nadużyć.

Nie przegap żadnej wiadomości i obserwuj nas w Google News!