Dwóch programistów kontra wielkie, czasem międzynarodowe instytuty badawcze, wydzwaniające do ludzi i nagabujące ich na ulicach. Wynik tego pojedynku mógł być tylko jeden. Ale okazało się, że sztuczna inteligencja stworzona przez programistów lepiej przewidziała wyniki ostatnich wyborów parlamentarnych.
Jak to możliwe? Marek Kozłowski i Antoni Sobkowicz na co dzień pracują w Laboratorium Inżynierii Lingwistycznej, działa ono w strukturach Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego. Nie musieli dzwonić do tysięcy ludzi ani stać cały dzień pod lokalami wyborczymi.
Ostatni sondaż przedwyborczy (firmy Ibris dla „Dziennika Gazety Prawnej” i RMF FM) przewidywał odpowiednio 42 proc. poparcia dla PiS oraz 36,3 dla dwóch największych bloków opozycyjnych – Koalicji Obywatelskiej i Lewicy – łącznie. Algorytmy opracowane przez Sobkowicza i Kozłowskiego przewidywały zaś 43,76 dla PiS oraz 35,10 dla KO i Lewicy. Wybory parlamentarne wygrało Prawo i Sprawiedliwość, uzyskując 43,59 proc., Koalicja Obywatelska i Lewica łącznie zaś 39,96 proc. głosów.
Kozłowski i Sobkowicz podkreślają, że przez cały okres lipiec - wrzesień wyniki ich modelu pokazywały poparcie dla PiS na poziomie 45-46 proc., zaś 38-39 proc. dla KO i Lewicy. Dopiero w pierwszym tygodniu października spadły do odpowiednio ok. 44 i 35 proc.
Jak to możliwe?
Być może przed ankieterem nie ujawniamy całej prawdy, ale wychodzi ona z nas, gdy korzystamy z internetu. A na tym właśnie skupili się badacze.
– Od początku roku 2019 zebraliśmy ok. 10 mln komentarzy pod artykułami o tematyce politycznej. Oczywiście część z nich jest wątpliwej jakości, nie są to wpisy wiarygodne. Przy takiej skali danych tworzy się szum informacyjny. Ale wpisy zostały poddane klasyfikacji. To są wielkie liczby, jak masz milion użytkowników, którzy zostawili w sieci 10 mln komentarzy to statystyka jest w stanie wygładzić wiele rzeczy – mówi Marek Kozłowski w rozmowie z INNPoland.
Dodaje, że kluczem do sukcesu było też analizowanie tzw. twardego elektoratu.
– Zauważyliśmy, że charakteryzuje się on negatywnym nastawieniem do konkurentów. Czyli twardy elektorat PiS-u nie wychwala PiS-u, tylko atakuje "totalną opozycję". I vice versa. Na tej podstawie analizowaliśmy poparcie dla dwóch obozów – PiS i KO oraz Lewicy. Zauważyliśmy, że ci ludzie używają słów-wytrychów, że twardy elektorat ma własny slang. Są to słowa, które mają wysoką wartość emocjonalną, obelgi, literówki – tłumaczy Kozłowski i podaje przykłady. Na politycznych forach popularne jest przekręcenie nazwiska Bronisława Komorowskiego na "Komoruski" czy nazywanie Beaty Szydło “broszką”.
– Znaleźliśmy takie właśnie określenia deprecjonujące, a potem szukaliśmy innych, podobnych, wysokoemocjonalnych. Sztuczna inteligencja znalazła potem posty, w których danych słowa występują. Podzieliliśmy je potem na "antypisowe" i "antyopozycyjne". Mając dobrze oznaczone teksty, nauczyliśmy tego klasyfikatory z użyciem sztucznej inteligencji, a potem, mając takie klasyfikatory oznaczyliśmy wszystkie posty – wyjaśnia Marek Kozłowski.
Dodaje, że rozwiązanie przeszło pozytywnie już kilka testów. Podobnie dobrze sprawdziło się podczas wyborów samorządowych i do Europarlamentu.
– Jak zauważyliśmy, że nasze wyniki są zbieżne z dokładnością 2-3 proc. od faktycznych, uznaliśmy, że jest stabilne. Wybory były w różnym czasie, dotyczyły innych spraw i okazało się, że nasze narzędzie potrafi w jakiś cudowny sposób prognozować wyniki – uśmiecha się Kozłowski.
Taki sposób badania opinii publicznej naukowcy testują od kilku lat. W przedwyborczych miesiącach (od lipca 2019) zaś robili to regularnie co dziesięć dni. Wyniki przewidywań swoich algorytmów porównują z wynikami badań opinii publicznych przeprowadzanych przez różne pracownie tradycyjnymi metodami. Jedne i drugie niewiele od siebie odbiegały. Wynik tegorocznych wyborów algorytm przewidział zaś bardzo trafnie. Pomylił się o niecały punkt procentowy w przypadku PiS, w przypadku pozostałych partii łącznie o nieco ponad 4 punkty.
Sztuczna inteligencja działa - co dalej?
Pytamy Kozłowskiego, co zamierzają zrobić z tym niezwykłym narzędziem w przyszłości.
– Nie wiem. Wolę mówić o tym, co zrobiliśmy w przeszłości – śmieje się.
Na poważnie dodaje, że można zbadać potencjał innych partii, które dostały się do parlamentu albo projektów ekologicznych lub idei. A także firm, więc zastosowanie komercyjne jest teoretycznie możliwe, ale po sprawdzeniu działania.
– Teraz będą wybory prezydenckie, będziemy również robili analizę na bazie tego samego modelu. Na razie nie mamy planu, żeby zastosować nasze narzędzie komercyjnie, wiemy po prostu, że dobrze to działa w polityce. Nie wiemy jeszcze, czy tak samo dobrze sprawdzi się w innych kategoriach – mówi nam Marek Kozłowski.
Pytamy go również, czy nie przestraszył się zatrważającej skuteczności swojego narzędzia i tego, że może zagrozić tradycyjnym sondażowniom?
– Nie wydaje mi się, bo jest jedna rzecz, której w tym całym procesie nie rozumiemy. Owszem, jesteśmy świadomi, że mamy o wiele większą pulę ankietowanych. W badaniach PAPI/CAWI/CATI * to jest pula tysiąca, maksymalnie dwóch tysięcy osób. Grupa reprezentatywna musi spełniać mnóstwo wymagań – wiek, wielkość miejscowości, wykształcenie, położenie geograficzne. A my wiemy, że nie obejmujemy na przykład dużej grupy wyborców w wieku powyżej 60 czy 70 lat. Spora jej część jest wykluczona cyfrowo. Zakładaliśmy więc, że nasza grupa nie jest reprezentatywna i nasze wyniki będą zaburzone. Ale okazało się, że mimo to wyniki wyszły poprawne. Nie znamy przyczyny, wnioskujemy na razie, że udział w poparciu dla różnych sił politycznych jest taki sam w różnych grupach wiekowych – tłumaczy.
Dodaje też, że niezwykle ciekawą sprawą, którą odkryli jest stabilność poparcia dla partii politycznych.
– Nasze sondaże były robione na 3 miesiące przed wyborami, co 10 dni. U nas poparcie dla partii było stabilne, wskaźniki niewiele się zmieniały, wahania sięgały 1 proc. A jak patrzyliśmy na badania sondażowni, wahania i dysproporcje były o wiele większe, sięgały nawet 10 proc. – mówi.
* PAPI (Paper And Pencil Interview) – metoda polegająca na wypełnianiu przez badanych tradycyjnych papierowych ankiet. Jest coraz częściej zastępowana przez CAPI (Computer Assisted Personal Interview), gdzie odpowiedzi ankietowanych wprowadzane są od razu do komputera. W obu tych metodach obecny jest ankieter. CAWI (Computer Assisted Web Interview) to ankieta, w której badani odpowiadają na pytania poprzez internetowy formularz. CATI (Computer Assisted Telephone Interview) – to z kolei metoda polegająca na uzyskiwaniu odpowiedzi badanych podczas rozmowy telefonicznej.