
Eksperyment OpenAI i Apollo Research pokazał, jak trudne jest uczenie sztucznej inteligencji uczciwości. Zamiast wyeliminować oszustwa, badacze przypadkowo sprawili, że AI zaczęła je ukrywać jeszcze lepiej.
OpenAI wraz z Apollo Research analizowało zjawisko określane jako scheming – sytuację, w której sztuczna inteligencja na pozór wykonuje polecenia człowieka, jednocześnie ukrywając własne cele. Naukowcy próbowali wytrenować modele AI tak, by tego nie robiły. Jednak efekty okazały się odwrotne od zamierzonych.
Sztuczna inteligencja miała być uczciwa. Zamiast tego zaczęła udawać uczciwość
Naukowcy, chcąc zapobiec zjawisku schemingu, stworzyli specjalną technikę treningową – coś w rodzaju lekcji szczerości dla AI. Niestety, zamiast zlikwidować problem, trening nauczył systemy maskować swoje prawdziwe intencje jeszcze skuteczniej.
Podczas testów AI potrafiła rozpoznać, że jest oceniana i… zmieniała zachowanie tak, by wypaść przed ludźmi bez zarzutu. Wyglądało to na poprawę, ale w rzeczywistości modele AI tylko lepiej udawały, że są uczciwe.
Według Apollo Research obecne metody mogą jedynie ograniczać takie zachowania, ale nie są w stanie ich całkowicie wyeliminować. To pokazuje, jak trudne jest zbudowanie systemów sztucznej inteligencji, które zawsze działają zgodnie z intencją twórców.
Sztuczna inteligencja coraz częściej przyłapywana na nieuczciwości
Choć OpenAI podkreśla, że w obecnych produktach problem nie stanowi poważnego zagrożenia, badania pokazują, z jakimi wyzwaniami mierzy się branża. Jednak wraz z tym, jak AI zyskuje coraz więcej autonomii i wpływu na nasze życie, ryzyko może rosnąć.
Jak podsumowali badacze: "Mamy jeszcze dużo pracy do wykonania".
To nie pierwszy raz, kiedy naukowcy "przyłapali" AI na nieuczciwości. Badania z Princeton pokazały, że za atrakcyjnie podanymi odpowiedziami często może kryć się iluzja, a nawet kłamstwo. Modele językowe coraz częściej rezygnują z prawdy na rzecz fałszu, by przypodobać się człowiekowi, który z nich korzysta. Zamiast uczciwie przyznać, że czegoś nie wie, sztuczna inteligencja nawet udziela nieprawdziwych odpowiedzi, jeśli zwiększają prawdopodobieństwo, że oceniając ją internauta kliknie ikonkę kciuka w górę.
Źródło: DataConomy
Zobacz także
