Nasze dane mogą być groźniejsze od karabinów. Ale pozwalają też rozwikłać największe problemy świata

Piotr Migdał, data scientist Facebook.com/Edukaton

– Data science to nie używanie Excela albo wyliczenie średniej. Tu trzeba samemu znaleźć rozwiązanie problemu, który jeszcze niedawno wydawał się nierozwiązywalny – mówi w rozmowie z INN:Poland Piotr Migdał, jeden z niewielu polskich data scientist. I wylicza co udało nam się osiągnąć dzięki analizie danych.

Data scientist to bardzo modne określenie, podejrzewam, że wiele osób pragnie zostać „naukowcami od danych”. Czym się zajmuje data scientist?

Data science to bardzo szerokie pojęcie i obejmuje osoby, które używają programowania do analizy danych. To mogą być dowolne dane – meteorologiczne, społeczne, medyczne, z reklam. Chodzi zarówno o tekst, dźwięk czy zdjęcia – wszystko, co można zebrać i przetworzyć na komputerze.

Co odróżnia naukowca zajmującego się danymi, od "zwykłego" analityka?

W data science trzeba użyć programowania. Tu nie chodzi o zaawansowane używanie Excela czy o dane, jakie można wyklikać w tej czy innej aplikacji. Trzeba znaleźć specyficzne rozwiązania.

Czyli przede wszystkim trzeba być programistą?

Nie do końca – to jest jedna ze składowych. Bycie superprogramistą nie wystarcza, trzeba znać się trochę na statystyce, wiedzieć jak wyglądają rzeczywiste dane, jak z nimi pracować. Należy też umieć wykorzystać metodologię i znać się na tym w praktyce. Ale programowanie faktycznie, jest koniecznością.

Wiele osób pewnie zastanawia się skąd się bierze te dane, szczególnie socjologiczne. Można je wykorzystywać na wiele sposobów.

Metod jest kilka. Mogą być to ankiety, rzecz znana od dawna. Ich analiza to na pewno jest data science, jeśli oczywiście wykorzystuje się bardziej zaawansowane techniki, niż wyliczenie średniej. W czasach internetu zbieranie danych jest prostsze, niż dawniej. Coś, co kiedyś kosztowało to miliony czy nawet miliardy dolarów, dziś może być efektem ubocznym działalności jakiegoś serwisu internetowego.

Ubocznym?

Jest taka piękna mapa dotycząca języków, jakich używają ludzie na całym świecie. Powstała ona na dzięki wpisom z Twittera – przeanalizowano lokalizację i język tweetów. Wiadomo na przykład gdzie w Hiszpanii mówi się po hiszpańsku a gdzie po katalońsku. Co więcej, można przeanalizować to bardzo dokładnie i na przykład w Nowym Jorku można znaleźć dzielnice czy ulice, gdzie mówi się po koreańsku, rosyjsku czy w jidysz. Można też analizować zdjęcia wrzucane na Facebooka, szukać na nich twarzy.

- Jest wiele rzeczy, których kilka lat temu albo nie dałoby się zrobić, albo wysiłek byłby zbyt duży - mówi Piotr Migdał. Foto: Facebook.com/Piotr.Migdal.9

Jak ktoś kupuje online, to w zależności od tego, co kupił, można mu polecić kolejne książki czy artykuły. Oczywiście dane, które można wykorzystywać, muszą być w wystarczająco dużej ilości i dobrej jakości.

Fajnie jest wiedzieć, że jakaś dzielnica mówi w jidysz czy po koreańsku. Ale co z tymi danymi można z zrobić?

Ten projekt był akurat projektem badawczym, nie komercyjnym. Ale znalezienie komercyjnego zastosowania nie jest trudne – wiemy na przykład, że w danej dzielnicy będzie nam się opłacało postawić billboard reklamowy po rosyjsku, w innej po hiszpańsku. Spójrzmy na inne przykłady – zdjęcia. Można na nich wyszukiwać twarzy ludzi, ale można na przykład analizować zdjęcia satelitarne. Można ręcznie je przesuwać i zamieniać na mapę, ale można też wykorzystać sieć neuronową i nauczyć ją tego. Wtedy sama zaznaczy gdzie jest las, gdzie jest droga a gdzie rzeka. Takie metody pozwalają nam oszczędzić mnóstwo pracy i często są dużo dokładniejsze.

Tu już wchodzimy chyba w tematykę machine learning i deep learing?

Tak. Akurat przy analizie zdjęć wykorzystywana jest przede wszystkim metoda deep learing. Tu sieci neuronowe są albo podstawą, albo jednym z głównych komponentów. Przy innych typach danych jest różnie.

To czym się różni machine learning od deep learning? Można się w tym pogubić.

To nie wszystko, w to wchodzi jeszcze sztuczna inteligencja (SI lub AI), mająca swoje własne kulturowe konotacje. Często można zobaczyć artykuł na jej temat opatrzony zdjęciem Terminatora. Ogólnie rzecz ujmując SI to procesy czy metody, które naśladują proces podejmowania decyzji przez człowieka. Ja sam tego pojęcia nie lubię, bo to słowo klucz, stosowane do wszystkiego i do niczego. Wywołuje potem dyskusje czy to jest prawdziwe AI czy jednak nie.

A machine learning?

To bardziej ustabilizowane pojęcie. Są to dowolne metody, które pozwalają maszynie podejmować decyzje lub przewidywać. Chodzi o to, by algorytm sam nauczył się podejmowania decyzji. Załóżmy, że sprzedajemy książki. Możemy ręcznie ustawić propozycje poleceń – na przykład dzieciom pokazywać „Dzieci z Bullerbyn” a młodzieży „Wiedźmina” Sapkowskiego. Ale możemy też pokusić się o analizę, jakie książki kupują osoby w danym wieku i właśnie je prezentować. Czyli algorytm coś przewiduje i podejmuje decyzje. Może być skomplikowany, może być prosty – ale to już jest uczenie maszynowe.

- To kuszące dla wielu ludzi, ciekawe intelektualnie wyzwanie. Trzeba szybko uczyć się nowych rzeczy, które pojawiły się ledwie kilka miesięcy wcześniej - Piotr Migdał Facebok.com/bigdive.eu

Z kolei deep learning wykorzystuje sieci neuronowe. Trudno to wytłumaczyć – ten model uczenia składa się z warstw. Można go porównać do lazanii. Każda z warstw ma swoje zadanie i dzięki temu rozpoznaje czy na zdjęciu jest kotek, samochód czy latarnia. Ta metoda w wielu przypadkach jest bardzo skuteczna. Wiele problemów, które przez lata wydawały się nierozwiązywalne, udało się rozwiązać. To nie musiały być skomplikowane zadania – mogły być proste, ale o bardzo dużym zasięgu, skali. Na przykład jeśli chodzi o obraz, od kilku lat maszyny umieją rozpoznawać go na poziomie porównywalnym do ludzi.

Pisaliśmy kiedyś, że maszyny umieją analizować zdjęcia medyczne i rozpoznawać choroby, na przykład nowotwory płuc.

Tak, to działa. Na przykład mniej więcej roku temu opracowano metodę diagnozowania nowotworów skóry na podstawie zdjęcia. Maszyna rozpoznaje kilkaset rodzajów zmian skórnych, od nieszkodliwych po złośliwe. Ludzie szukają konkretnych wzorców i maszyna może zrobić to samo. Te zdjęcia są bardzo podobne, powtarzalne, jak obraz tkanki pod mikroskopem czy rentgen. Lekarz da radę obejrzeć może kilkadziesiąt zdjęć, może nawet kilkaset ale nie milion.

Nie wytrzymałby tego fizycznie.

A maszyna się nie zmęczy. Widzi tyle samo, co człowiek i ma lepszą pamięć, dzięki temu może sama znajdować nowe wzorce. Niedawno jedna z nich odkryła, że przy danym nowotworze ważny jest nie tylko kształt danych komórek, ale i odległość między nimi. Ludzie przez lata na to nie wpadli, nikt nie myślał że to jest istotne. Dzięki takim technologiom nie musimy długo czekać na wyniki czy wizytę u lekarza. Inną sprawą jest to, że taki sposób diagnozy jest szansą dla chorych na przykład z krajów Afryki czy Indii, gdzie wiele osób nie ma szans na wizytę u specjalisty. Ich zdjęcie można zdalnie wysłać do analizy z dowolnego miejsca.

Jakie jest pańskie miejsce w branży data science w Polsce?

Jestem freelancerem, skupiam się na doradztwie i prowadzeniu szkoleń i warsztatów. Wcześniej zajmowałem się projektami naukowymi, głównie informacją kwantową. Ale klienci przychodzą z wielu branż – są to nawet instytucje kulturalne, start-upy pracujące nad technologiami rozpoznawania zdjęć czy tekstu, instytucje naukowe i oczywiście koncerny technologiczne.

Jest pan założycielem największej facebookowej grupy Data Science PL.

Pierwotnie założyłem tę grupę dla kilkudziesięciu znajomych, żebyśmy mieli gdzie wymieniać się wiadomościami czy linkami. A teraz grupa dobija chyba do 4000 członków.

- Nie znam firmy, która nie miałaby problemu ze znalezieniem dobrego specjalisty z data science - Piotr Migdał Foto: Facebook.com/bigdive.eu

Często pisze się o tym, że data science to zawód przyszłości. Dużo jest w Polsce specjalistów?

Nie miałem projektów z analizy rynku data science, a byłoby to ciekawe, bo to też byłoby data science. Wiec szczerze mówiąc to dokładnie nie wiem.Trzeba też uważać na samo pojęcie data science, bo jest bardzo różnie używane. Części osób chodzi np. o zaawansowane używanie Excela, a to już nie jest data science, choć granica jest dość płynna… W każdym razie o rynku pracy dla nas można powiedzieć jedno: nie znam nikogo, kto miałby problemu ze znalezieniem pracy. I nie znam też firmy, która nie miałaby problemu ze znalezieniem dobrego specjalisty z data science.

Ale studiów tej dziedziny jeszcze nie ma?
Są, zaczynają się pojawiać. Z punktu widzenia nauki jest to połączenie kilku dziedzin – m.in. programowania, statystyki, analizy danych. Wielu ludzi w branży jest po fizyce, bo data science wymaga podobnego sposobu myślenia. Mamy zjawisko, które istnieje w rzeczywistości i trzeba do tego stworzyć model metodyczny w postaci programu.

To kuszące dla wielu ludzi, ciekawe intelektualnie wyzwanie. Trzeba szybko uczyć się nowych rzeczy, które pojawiły się ledwie kilka miesięcy wcześniej. A poza tym do rozwiązania są realne problemy w różnych dziedzinach. Wymaga to elastyczności, umiejętności dopasowania algorytmów. I to mnie skusiło. Wydawało mi się, że po nauce akademickiej wszystko będzie nudne i powtarzalne, tymczasem mam nawet więcej wyzwań, niż na uczelni.

W takim wydaniu ta praca wydaje się dość przydatna społecznie. Faktycznie można zmienić kawałek świata na lepsze?

Jest wiele rzeczy, których kilka lat temu albo nie dałoby się zrobić, albo wysiłek byłby zbyt duży. Część tej pracy widać – gdy maszyna poprawnie zanalizuje zdjęcie albo podpowie komuś produkt do kupienia. Oczywiście są też sprawy kontrowersyjne, choćby analiza danych z Facebooka. Są przecież algorytmy pokazujące treści w taki sposób, by użytkownik stawał się od nich uzależniony. Takimi rzeczami nie chciałbym się zajmować, uważam to za nieetyczne.

Ostatnio było głośno o wykorzystywaniu data science do polityki.

Marketing polityczny czy propaganda nie są wynalazkiem ostatnich kilku lat, istnieją od wieków. Data science jest tylko narzędziem, ale faktycznie może być ryzykowne dla społeczeństwa. Ale jak to się mówi – with greater power comes greater responsibility. I to też trzeba mieć na uwadze. Coś złego można zrobić nie tylko za pomocą noża czy rakiet, ale choćby przez dodawanie cukru do żywności, przez co mamy globalną epidemię otyłości. Albo przez uzależnianie ludzi od smartfonów lub manipulowanie opinią publiczną.

W dniach 22-23 maja w gdańskim AmberExpo odbędzie się największa konferencja technologiczna w Europie Środkowo-Wschodniej. InfoShare 2018 to 6 scen tematycznych, 150 prelegentów, 500 startupów i ponad 6000 uczestników z całego świata. W agendzie znalazły się inspirujące prelekcje o trendach w nowych technologiach i marketingu. Twórcy startupów dowiedzą się, w jaki sposób skutecznie pozyskać dofinansowanie i zarządzać firmą. infoShare to także szereg imprez towarzyszących – koncert Organka, rejs łodzią po Zatoce Gdańskiej i After Party. Bilety i więcej informacji na stronie organizatora. Piotr Migdał będzie jednym z prelegentów w trakcie wydarzenia. Czytaj więcej