Uczenie maszynowe zaprowadza nowe porządki w świecie reklamy internetowej
Piotr Prajsnar
17 marca 2016, 09:51·7 minut czytania
Publikacja artykułu: 17 marca 2016, 09:51W tym roku to właśnie machine learning ma być na ustach mediów technologicznych. Tak przynajmniej twierdzi Gartner w swoim raporcie „Hype Cycle for Emerging Technologies”, traktowanym powszechnie jako wyznacznik medialnego cyklu życia nowych technologii. Podobną prognozę wysnuwa Shawn DuBravac, główny ekonomista i szef działu badań w Consumer Electronics Association (CEA), który zwiastuje nadejście „drugiej epoki cyfrowej”. Jej katalizatorem ma być właśnie uczenie maszynowe. Czym jest i gdzie możemy się na nie natknąć już obecnie?
Ucz się maszyno, ucz
O machine learning świat zaczął mówić kilka lat temu, ale dyskusja przeszła w zasadzie bez echa, ponieważ branża IT nie dysponowała wówczas wyspecjalizowaną infrastrukturą danych ani narzędziami pozwalającymi zarządzać zasobami cyfrowymi na tyle swobodnie, by w pełni wykorzystać potencjał maszynowego uczenia.
Mimo upływu zaledwie kilku lat technologiczny krajobraz zmienił się diametralnie. Doszło do eksplozji Big Data w Sieci. Dane generowane są dziś w zawrotnym tempie i w niespotykanych dotąd ilościach. W ciągu sekundy globalna Sieć powiększa się o około 30 GB danych. To mniej więcej tyle, ile „ważył” cały Internet 20 lat temu.
W czasach, gdy Internet jeszcze raczkował, raptem 6 proc. materiałów światowej kultury było zdigitalizowanych. Dziś cyfryzacja wkracza w zasadzie w każdy element naszej kultury. W ciągu sekundy Internauci pobierają z Sieci ponad 800 aplikacji, przeprowadzają ponad 1 885 rozmów na Skype, wrzucają 2 760 fotek na Instagram oraz 10 205 tweetów na Twittera. W sekundę dokonują ponad 108 tys. odsłon na YouTube i wpisują blisko 51 tys. wyszukiwań w Google. To jest skala Big Data w Sieci. W ciągu kwadransa Internet rozrasta się średnio o 20 biliardów bitów danych. Analogową równowartością tej liczby byłyby wszystkie dzieła składające się na kanon literatury światowej.
Bez cienia przesady możemy więc określić nasze czasy mianem „epoki danych”. W ciągu doby dociera do nas potencjalnie tyle treści, ile nasi dziadkowie konsumowali średnio przez całe swoje życie. Obecnie Internet według Oracle liczy już ponad 8 ZB danych, ale do 2020 roku powiększy się do 45 ZB, zaś na jednego mieszkańca Ziemi – jak szacuje IDC – przypadnie tym samym ponad 5 GB danych. Internet rozwija się w szalonym tempie, z roku na rok powiększając swoją objętość średnio o 40 proc.
Dlatego nie powinno nikogo dziwić, że w ankiecie TimesJobs Job Outlook Survey, eksperci rynku IT określili miniony rok 2015 mianem „roku Big Data”. To właśnie ten gigantyczny zasób cyfrowej wiedzy jest paliwem dla maszyn, które bez niego nie mogłyby myśleć. Dopiero od czasu rewolucji Big Data możemy mówić o uczeniu maszynowym.
Myliłby się jednak ten, kto przymiotnik „Big” w Big Data utożsamiałby wyłącznie z gigantyczną ilością danych. Oznacza on głównie to, co możemy z tymi danymi realnie zrobić. A dzięki zaawansowanej analityce internetowej i badaczom danych – możemy zdziałać już naprawdę dużo.
Dzieci Turinga
Uczenie maszynowe nie jest nowym zjawiskiem. To technologia powracająca, z całkiem bogatą przeszłością. Jej korzenie sięgają tzw. maszyny Turinga (lata ’30 XX wieku), uchodzącej za protoplastę dzisiejszych komputerów.
Na czym polega fenomen maszynowego uczenia? W skrócie rzecz ujmując: chodzi o nauczenie komputerów myślenia zbliżonego do tego, jakim dysponuje człowiek. „Mózgiem” maszyny będą algorytmy zasilane szeregiem różnorodnych danych (patrz: Big Data). Dzięki nim komputer będzie w stanie podjąć najbardziej optymalną (czytaj: najbardziej racjonalną) decyzję sam z siebie, bez konieczności nadzorowania całego „procesu myślowego” przez człowieka.
Żeby dane miały jakikolwiek sens, muszą trafić na warsztat badaczy i analityków. Data scientists to pracownicy sektora gospodarki cyfrowej, kluczowej gałęzi w ekonomii społeczeństw postindustrialnych, w których główną rolę odgrywa informacja. W swoim zawodzie łączą kompetencje programisty, matematyka i behawiorysty. Odpowiadają za pozyskiwanie, analizowanie, segmentowanie i interpretowanie informacji, jakie internauci pozostawiają po sobie w Sieci.
Odcyfrują te hieroglify naszych czasów: rozpoznają w nich powtarzające się wzorce, odnajdą powiązania między poszczególnymi elementami rozrzuconych informacji, skonstruują algorytmy, które wprawią myślenie maszyny (komputera czy aplikacji) w ruch. Dlatego bez cienia przesady można powiedzieć, że to właśnie badacze i analitycy danych (data scientists oraz data miners) są współczesnymi „dziećmi Turinga”, projektującym własne „myślące maszyny”, które uczą się z ich algorytmów.
Druga epoka cyfrowa
W kontekście powrotu machine learning do medialnych łask mówi się dzisiaj o „drugiej epoce cyfrowej”. Pierwszą otwiera oczywiście pojawienie się i popularyzacja Internetu. Odkrycie przez nas potencjału Big Data oraz uczenia maszynowego będzie stanowiło bilet do nowej epoki.
Najbliższym zwykłemu użytkownikowi Sieci przykładem zastosowania uczenia maszynowego w Sieci jest wykorzystanie danych w reklamie internetowej. Dane pozwalają „posprzątać Internet” z reklamowego śmietnika. Obecnie internaucie wyświetla się średnio 1 707 masowych bannerów reklamowych w ciągu miesiąca. Z reguły nie zapamiętuje żadnego z nich. Powód? Reklama kierowana do wszystkich – to reklama kierowana do nikogo.
Tymczasem dzięki inteligentnym aplikacjom czy platformom, które za pomocą specjalnych algorytmów, analizowania profili zachowań użytkowników w Sieci – potrafią przewidywać przyszłe zachowania użytkownika oraz uczyć się ich i dopasowywać do nich. Dzięki temu maszynowe uczenie automatyzuje branżę reklamy internetowej, wyświetlając dopasowane i spersonalizowane reklamy tylko tym użytkownikom, którzy mogą się nimi zainteresować. Czytaj: mogą w nie kliknąć.
Dobrym przykładem maszynowego uczenia w reklamie internetowej (a konkretnie: w sektorze e-commerce) jest dzisiaj system rekomendowania produktów na witrynach Amazon. Zna on historię zakupową internauty oraz jego obecne zainteresowania, dzięki czemu z wysokim prawdopodobieństwem potrafi przewidzieć, jaki kolejny towar będzie zamierzał kupić. Opracowanie takich systemów wymaga jednak zespołu wysokiej klasy specjalistów Big Data oraz wielu lat wytężonej pracy nad konstrukcją odpowiednich algorytmów ewolucyjnych.
W Polsce przykładem zastosowania machine learning w reklamie internetowej jest platforma DMP behavioralengine.com, która dziennie przetwarza ponad 5 TB danych, monitoruje 0,5 mln witryn, blisko 70 mln urządzeń i 20 mln realnych użytkowników. Oznacza to, że zaprogramowana przez warszawskich programistów z Cloud Technologies „myśląca maszyna” zna zachowania i preferencje praktycznie każdego polskiego internauty. A dzięki zastosowanym w niej algorytmom ewolucyjnym – potrafi sama dopasować reklamę do konkretnego internauty. To takie rozwiązania sprawiają, że Internet przestaje być przypadkowym zlepkiem masowych, irytujących reklam i zaczyna bardziej odpowiadać naszym gustom.
Machina biznesowa
To właśnie rozwiązania z zakresu maszynowego uczenia oraz analityki danych w najbliższych latach odmienią nie tylko reklamę internetową, ale biznes w ogóle. Pozwolą skuteczniej i szybciej monetyzować informacje posiadane przez firmę, optymalizować kampanie reklamowe i minimalizować ryzyko utopienia kapitału, a także podnosząc efektywność biznesowych procesów.
Gartner twierdzi, że do 2020 roku aż 80 proc. procesów biznesowych uda się zmodernizować właśnie dzięki wykorzystaniu zaawansowanej analityki danych. Z kolei w ciągu najbliższych dwóch lat 7 na 10 przedsiębiorstw zamierza zwiększyć wydatki na analizę dużych zbiorów danych. Dlatego tak wielki nacisk biznes kładzie dzisiaj na rozwój nowej dyscypliny w naukach ścisłych, jaką jest cognitive computing, czyli całokształt działań skoncentrowanych wokół automatyzacji i autonomizacji pracy komputerów, zdolnych do samodzielnego uczenia się i koordynowania swojej pracy. Inteligentne maszyny dostarczą przedsiębiorstwom cennych danych, pozwalając nie tylko na bieżącą korektę strategii biznesowej, lecz również na przewidywanie przyszłości z większą dozą dokładności niż kiedykolwiek przedtem.
Niebawem na łamach magazynu Science pojawi się artykuł Ruslana Salakhutdinova, profesora informatyki na Uniwersytecie w Toronto oraz Joshuy Tenenbauma, profesora wydziału kognitywistyki i nauk o mózgu oraz „ośrodka badań nad mózgiem, umysłem i maszynami” z Massachusetts Institute of Technology (MIT). W tej pionierskiej pracy Salakhtudinov oraz Tenenbaum zaprezentują opracowany przez siebie algorytm, którego implementacja pozwoli maszynom nie tylko na uczenie się, lecz również na szybsze wyciąganie wniosków oraz na… kreatywność.
Komputer napotykający na nowe zagadnienie sprawdzi najpierw, czy miał już do czynienia z podobną sytuacją wcześniej, a następnie – bazując na swoich „doświadczeniach” – wyciągnie wnioski z minionych procesów i dopasuje swoje postępowanie do aktualnej sytuacji. Prościej rzecz ujmując: maszyna „odrobi lekcje” i przestanie popełniać te same błędy. Ważniejszy jest jednak fakt, że będzie również w stanie generować zupełnie nowe informacje, czyli wymyślać/wytwarzać racjonalne scenariusze, których wcześniej nie miała w swojej pamięci, czyli „myśleć perspektywicznie”.
Cybernetyczna przyszłość: człowiek 2.0
Według raportu Global TMT Predictions autorstwa Deloitte, w ciągu najbliższego roku wzrośnie o jedną czwartą liczba producentów oprogramowania dla przedsiębiorców, wykorzystujących w swych produktach techniki kognitywne (cognitive computing). Mowa o takich technikach jak np.: komputerowe rozpoznawanie obrazu, przetwarzanie języka naturalnego albo techniki uczące się, czyli właśnie machine learning. czyli pozwalające komputerom wnioskować, planować, przewidywać i uczyć się. Światowi giganci doskonale wiedzą, że machine learning to (bliska) przyszłość. IDC twierdzi, że rynek aplikacji wykorzystujących analitykę predyktywną, wliczając w to uczenie maszynowe, będzie rósł 65 proc. szybciej, niż rynek aplikacji, które nie posiadają takiej funkcjonalności.
Dlatego Google pod koniec 2015 roku ogłosił technologię TensorFlow, bazującą właśnie na maszynowym uczeniu, którą wykorzystuje w swojej wyszukiwarce obrazów, w funkcji rozpoznawania mowy oraz wykorzystywanym w e-mailach algorytmie Smart Reply. Pozwala on na analizę treści przychodzącego do użytkownika maila, a następnie sugeruje mu trzy warianty gotowych, automatycznych odpowiedzi. Każda z nich jest utrzymana w podobnym stylu, w jakim zredagowano oryginalną wiadomość.
Z kolei Microsoft pracuje nad bardziej zaawansowaną aplikacją. Będzie ona łączyć funkcje komunikatora, chatbota, doradcy użytkownika oraz wyszukiwarki. Mowa o aplikacji Cortana, która działa już na kilku rynkach na świecie, a gigant z Redmond przewiduje również jej debiut w Polsce. Dzięki Cortanie zamiast wpisywać zapytania w oknie przeglądarki – użytkownik będzie mógł je zadać w ramach „rozmowy” z maszyną. Cortana będzie „cyfrową asystentką” użytkownika: zapamięta jego gusta i preferencje, przypomni mu o spotkaniach i podpowie mu, co warto dzisiaj zobaczyć. Będzie uczyć się jego nawyków.
Wreszcie – Yahoo!, które ogłosiło stworzenie największego na świecie samo-uczącego się zbioru danych o internautach. „Ucząca się maszyna” Yahoo „waży” aktualnie 13,5 TB danych (oczywiście obowiązkowo zaszyfrowanych i anonimowych) i obejmuje 20 milionów użytkowników. Być może to rozwiązanie pomoże tej firmie odbudować swoje siły.
Wszystkie wspomniane w tym tekście działania, liczby oraz deklaracje – składać się mogą na jedną diagnozę: o ile poprzedni rok był więc „rokiem Big Data”, o tyle ten może okazać się „rokiem machine learning”.
Piotr Prajsnar – prezes Cloud Technologies, największej hurtowni Big Data w tej części Europy, specjalizującej się w analityce i monetyzacji danych. Absolwent Szkoły Głównej Handlowej i Polsko-Japońskiej Wyższej Szkoły Technik Komputerowych. Doświadczenie zdobywał w Microsoft. Jest jednym z prekursorów zawodu badacza danych (Big Data scientist) w Polsce. Prezentuje innowacyjne podejście do zagadnień Big Data marketingu. Zajmuje się wynajdowaniem zastosowań dla analityki danych oraz maszynowego uczenia w biznesie. Finalista konkursu EY „Przedsiębiorca Roku 2015” oraz plebiscytu „Polacy z Werwą”. W rankingu Deloitte Technology Fast 50 CEE jego spółka zajęła 6. pozycję w kategorii Rising Stars. Spółka Piotra Prajsnara jest też rynkowym liderem w segmencie technologii służących przetwarzaniu wielkich zbiorów danych w chmurze obliczeniowej. Obecnie to najszybciej rosnąca spółka na NewConnect, z powodzeniem działająca na rynkach międzynarodowych.
Cloud Technologies to warszawska spółka z segmentu nowych technologii. Zajmuje się Big Data marketingiem i monetyzacją danych. To największa hurtownia Big Data w tej części Europy i najszybciej rozwijająca się spółka na NewConnect. Spółka opracowała innowacyjne narzędzia analityczne, w zasięgu których znajduje się praktycznie każdy polski internauta. Dane Cloud Technologies pozwalają marketerom na personalizację kampanii reklamowych w Sieci oraz rozbudowywanie rozwiązań klasy BI w firmach.