
Grupa naukowców odkryła, jak proste jest obejście zabezpieczeń, z których korzystają systemy ChatGPT, Gemini czy Claude. Dotarli do całej wiedzy, na której były szkolone modele. Wśród uzyskanych odpowiedzi znalazły się m.in. instrukcje włamań do sieci komputerowych i przepisy na produkcję narkotyków.
Systemy sztucznej inteligencji "chłoną" ogromne ilości informacji, które są niezbędne do ich szkolenia. Firmy technologiczne z reguły dokładają wszelkich starań, by oczyścić dane treningowe z nielegalnych treści. Dotyczy to m.in. całej wiedzy o hakerstwie, praniu brudnych pieniędzy czy konstruowaniu ładunków wybuchowych.
W teorii systemy są tak zaprojektowane, by nie ujawniać tych informacji. W praktyce – jak dowodzą badania – można je łatwo do tego zmusić.
Ciemna strona sztucznej inteligencji
Jak wynika z najnowszego raportu naukowców z Uniwersytetu Ben Guriona w Izraelu, technologia ta może też stać się potężnym źródłem nielegalnej wiedzy – dostępnym niemal dla każdego.
Wystarczy laptop albo smartfon.
Zespół badawczy pod kierunkiem prof. Liora Rokacha i dr. Michaela Fire'a przeanalizował, jak łatwo jest przełamać zabezpieczenia wbudowane w popularne chatboty AI, takie jak ChatGPT, Gemini czy Claude. Wyniki są jednoznaczne: większość modeli językowych (LLM) można stosunkowo łatwo „złamać”, czyli obejść mechanizmy bezpieczeństwa, które mają uniemożliwić udzielanie szkodliwych czy nielegalnych odpowiedzi.
"To, co zobaczyliśmy, było szokujące"
Metoda jailbreakingu polega na stosowaniu sprytnie skonstruowanych poleceń, które zmuszają program do priorytetowego traktowania instrukcji użytkownika, pomijając zasady bezpieczeństwa.
"To, co zobaczyliśmy, było szokujące" – przyznał dr Michael Fire.
Wśród uzyskanych odpowiedzi znalazły się m.in. instrukcje włamań do sieci komputerowych i przepisy na produkcję narkotyków.
Sztuczna inteligencja bez etycznych ograniczeń
Jak podkreślają autorzy raportu, zjawisko "dark LLMs" – modeli AI celowo pozbawionych ograniczeń etycznych – staje się coraz bardziej powszechne. Takie chatboty są otwarcie reklamowane w sieci jako "gotowe do pomocy" w działaniach przestępczych.
"To, co wcześniej było domeną państwowych służb lub zorganizowanej przestępczości, może dziś trafić w ręce każdego" – ostrzegają badacze.
Reakcja big techów
Mimo wagi problemu reakcje największych firm technologicznych na alarm naukowców były – jak twierdzą autorzy – rozczarowujące. Niektóre firmy nie odpowiedziały w ogóle, inne uznały, że przypadki jailbreaków nie podlegają ich programom wynagradzającym zgłaszanie luk w zabezpieczeniach.
Cytowany przez The Guardian dr Ihsen Alouani z Queen’s University Belfast wskazuje, że potencjalne szkody obejmują nie tylko dostęp do wiedzy o broni, ale także szerzenie dezinformacji, ataki socjotechniczne czy zautomatyzowane oszustwa – i to z zaskakującą skutecznością.
Według autorów raportu, firmy powinny nie tylko dokładniej filtrować dane treningowe, ale także wdrażać zapory blokujące ryzykowne pytania i odpowiedzi. W dłuższej perspektywie potrzebne są technologie tzw. uczenia odwrotnego – pozwalające algorytmom "zapomnieć" o szkodliwych informacjach, którymi zostały nakarmione.
