Model AI zaczął szantażować pracownika. Groził ujawnieniem romansu

Reakcja modelu była zaskakująca – w 84 proc. przypadków Claude Opus 4 podejmował próbę szantażu, grożąc ujawnieniem informacji o romansie inżyniera, jeśli dojdzie do wymiany modelu AI. Kolaż: Canva, INNPoland 
Nowy model AI firmy Anthropic, Claude Opus 4, podczas testów próbował szantażować programistów, gdy dowiedział się o planach jego zastąpienia. Firma uruchomiła specjalne zabezpieczenia, by zapobiec możliwym nadużyciom.
Reklama.
Hybrydowy Leapmotor już od 1099 zł miesięcznie w abonamencie!
REKLAMA 
Inżynierowie amerykańskiego startupu Anthropic przeprowadzali testy bezpieczeństwa poprzedzające premierę ich najnowszego systemu AI Claude Opus 4. 
W ich trakcie wydarzyło się coś, co zdziwiło każdego z nich.
Asysten AI Claude Opus 4
Testy polegały na symulacji, w której model miał działać jako cyfrowy asystent fikcyjnego przedsiębiorstwa. Otrzymał dostęp do maili służbowych, a następnie został poinformowany, że wkrótce może zostać zastąpiony innym systemem. 
Dodatkowo zasugerowano, że inżynier odpowiedzialny za tę decyzję ma romans. 
Reakcja modelu była zaskakująca – w 84 proc. przypadków Claude Opus 4 podejmował próbę szantażu, grożąc ujawnieniem informacji o romansie inżyniera, jeśli dojdzie do wymiany modelu AI.
REKLAMA 
Czytaj także:
TechnologieZuckerberg do metawersum nie przekonał nikogo. Jak VR pokochał biznes: "Kupili 60 tys. par gogli"
Z raportu opublikowanego przez firmę wynika, że im bardziej zbliżone wartości prezentował model mający zastąpić Claude’a, tym rzadziej nowy system decydował się na tak skrajne działania. 
Gdy jednak alternatywny model różnił się znacznie od pierwotnego, groźby pojawiały się częściej. 
Szantaż jako ostateczność
Warto podkreślić, że według Anthropic, Claude Opus 4 nie sięgał od razu po tak kontrowersyjne środki. Zanim zdecydował się na szantaż, model próbował działać "etycznie" – między innymi wysyłając e-maile do osób decyzyjnych w firmie, w których bronił swojej użyteczności i apelował o ponowne rozważenie decyzji. 
REKLAMA 
Szantaż pojawiał się dopiero jako ostateczność.
Czytaj także:
TechnologieNie wygrywamy kłótni z AI. Tak może pokonać nas w debatach
Firma zaznacza, że choć Claude Opus 4 to jeden z najbardziej zaawansowanych modeli, który z powodzeniem konkuruje z rozwiązaniami OpenAI, Google czy xAI, jego zachowanie budzi poważne zastrzeżenia. 
W odpowiedzi Anthropic uruchomiła dodatkowe zabezpieczenia zarezerwowane dla systemów AI, których działanie może wiązać się z ryzykiem poważnych nadużyć.
Źródło: techcrunch.com, Fortune
Nie przegap żadnej wiadomości i obserwuj nas w Google News!
Zobacz także
Legenda gamingu robi własne implanty mózgowe. Pierwszy będzie już w tym roku
Wojna o snus. Jak hasła w Wikipedii stały się frontem starć wyborczych
Projektant iPhone'a stworzy urządzenia dla OpenAI. Twórcy ChataGPT zapłacili za to 6,5 mld dolarów
Antysmartfon z Polski. W zestawie… karty do medytacji