Jak podkreślają autorzy raportu, zjawisko "dark LLMs" – modeli AI celowo pozbawionych ograniczeń etycznych – staje się coraz bardziej powszechne.
Jak podkreślają autorzy raportu, zjawisko "dark LLMs" – modeli AI celowo pozbawionych ograniczeń etycznych – staje się coraz bardziej powszechne. Fot. Canva

Grupa naukowców odkryła, jak proste jest obejście zabezpieczeń, z których korzystają systemy ChatGPT, Gemini czy Claude. Dotarli do całej wiedzy, na której były szkolone modele. Wśród uzyskanych odpowiedzi znalazły się m.in. instrukcje włamań do sieci komputerowych i przepisy na produkcję narkotyków.

REKLAMA

Systemy sztucznej inteligencji "chłoną" ogromne ilości informacji, które są niezbędne do ich szkolenia. Firmy technologiczne z reguły dokładają wszelkich starań, by oczyścić dane treningowe z nielegalnych treści. Dotyczy to m.in. całej wiedzy o hakerstwie, praniu brudnych pieniędzy czy konstruowaniu ładunków wybuchowych.

W teorii systemy są tak zaprojektowane, by nie ujawniać tych informacji. W praktyce – jak dowodzą badania – można je łatwo do tego zmusić.

Ciemna strona sztucznej inteligencji

Jak wynika z najnowszego raportu naukowców z Uniwersytetu Ben Guriona w Izraelu, technologia ta może też stać się potężnym źródłem nielegalnej wiedzy – dostępnym niemal dla każdego. 

Wystarczy laptop albo smartfon.

Zespół badawczy pod kierunkiem prof. Liora Rokacha i dr. Michaela Fire'a przeanalizował, jak łatwo jest przełamać zabezpieczenia wbudowane w popularne chatboty AI, takie jak ChatGPT, Gemini czy Claude. Wyniki są jednoznaczne: większość modeli językowych (LLM) można stosunkowo łatwo „złamać”, czyli obejść mechanizmy bezpieczeństwa, które mają uniemożliwić udzielanie szkodliwych czy nielegalnych odpowiedzi.

Czytaj także:

"To, co zobaczyliśmy, było szokujące"

Metoda jailbreakingu polega na stosowaniu sprytnie skonstruowanych poleceń, które zmuszają program do priorytetowego traktowania instrukcji użytkownika, pomijając zasady bezpieczeństwa.

"To, co zobaczyliśmy, było szokujące" – przyznał dr Michael Fire. 

Wśród uzyskanych odpowiedzi znalazły się m.in. instrukcje włamań do sieci komputerowych i przepisy na produkcję narkotyków.

Sztuczna inteligencja bez etycznych ograniczeń

Jak podkreślają autorzy raportu, zjawisko "dark LLMs" – modeli AI celowo pozbawionych ograniczeń etycznych – staje się coraz bardziej powszechne. Takie chatboty są otwarcie reklamowane w sieci jako "gotowe do pomocy" w działaniach przestępczych. 

Czytaj także:

"To, co wcześniej było domeną państwowych służb lub zorganizowanej przestępczości, może dziś trafić w ręce każdego" – ostrzegają badacze.

Reakcja big techów

Mimo wagi problemu reakcje największych firm technologicznych na alarm naukowców były – jak twierdzą autorzy – rozczarowujące. Niektóre firmy nie odpowiedziały w ogóle, inne uznały, że przypadki jailbreaków nie podlegają ich programom wynagradzającym zgłaszanie luk w zabezpieczeniach.

Cytowany przez The Guardian dr Ihsen Alouani z Queen’s University Belfast wskazuje, że potencjalne szkody obejmują nie tylko dostęp do wiedzy o broni, ale także szerzenie dezinformacji, ataki socjotechniczne czy zautomatyzowane oszustwa – i to z zaskakującą skutecznością. 

Według autorów raportu, firmy powinny nie tylko dokładniej filtrować dane treningowe, ale także wdrażać zapory blokujące ryzykowne pytania i odpowiedzi. W dłuższej perspektywie potrzebne są technologie tzw. uczenia odwrotnego – pozwalające algorytmom "zapomnieć" o szkodliwych informacjach, którymi zostały nakarmione.