Data Scientist – detektyw danych, czyli czy Sherlock Holmes może nam pomóc w analizie danych?
Paweł Jarosz
04 lipca 2016, 16:47·3 minuty czytania
Publikacja artykułu: 04 lipca 2016, 16:47Analiza danych dla biznesu
Kilka lat temu było głośno o zawodzie Data Scientist. Został on uznany za najseksowniejszy zawód XXI wieku (
Data Scientist: The Sexiest Job of the 21st Century), a Data Science (nauka o danych) dziedziną która może spowodować ogromny postęp w rozwoju firm i organizacji. Wiele zachodnich firm zrozumiało to wyzwanie i podjęło działania w celu optymalizacji swojej działalności poprzez wdrożenie najnowszych osiągnięć w nauce o danych. Data Science pozwala na nowe spojrzenie na niemal KAŻDY obszar działalności. Marketing, zarządzanie, sprzedaż, produkcja itd. - w każdej tej części działalności generowane są olbrzymie zbiory danych. I w każdym z tych obszarów możemy wznieść się ponad to co oferuje nam ludzkie oko i spróbować odnaleźć trendy, ciekawe zależności, wskazówki czy wręcz przewidywać przyszłość.
Jak to zrobić? Jak się powinno spojrzeć na projekty Data Science? Chciałbym zaproponować na porównanie pracy Data Scientist'a z detektywem – spróbujmy powołać się na wielkiego Sherlocka Holmes'a i zobaczyć co on sądzi na temat swoich projektów i czy można wykorzystać te wskazówki w projektach związanych z danymi.
Nie ma nic nowego pod słońcem. Wszystko wydarzyło się już kiedyś w przeszłości.
Źródło: Arthur Conan Doyle, Studium w szkarłacie
Celem projektów Data Science jest odnalezienie relacji między przeszłością, a przyszłością w naszej biznesowej rzeczywistości. Dane, które firma posiada są obrazem, opisem przeszłości. Można w nich odnaleźć sporo wskazówek, dotyczących tego, jakie podjąć decyzje w bieżącej działalności firmy (przyszłość). Dzięki takim narzędziom jak uczenie maszynowe proces ten można częściowo zautomatyzować i dzięki temu uzyskać niezwykle istotne informacje, dotyczące np. zachowań klientów, związków pomiędzy procesami, wpływu reklamy na sprzedaż itd. Pozwala nam to spojrzeć w przyszłość i podjąć decyzje nie tylko opierając się na doświadczeniu i intuicji, ale również na stworzonych modelach.
Koncepcje muszą być tak szerokie jak natura, jeżeli mają ją ogarnąć.
Źródło: Arthur Conan Doyle, Studium w szkarłacie
Kluczowym słowem przy tematyce Data Science jest kontekst. Dane z działalności firmy zawsze osadzone są w jakiejś rzeczywistości (zachowanie gospodarki, konkurencja, wydarzenia w świecie rzeczywistym – np. sportowe). Dlatego należy być bardzo ostrożnym w wyciąganiu szybkich wniosków z małego fragmentu danych. Zawsze należy analizować je w odpowiednim kontekście z uwzględnieniem w miarę możliwości szerokiego horyzontu.
Podstawowym błędem jest podawanie teorii, zanim uzyska się dane. Niepostrzeżenie zaczyna się dostosowywać fakty, by zgadzały się z teoriami, zamiast próbować stworzyć teorię, która byłaby zgodna z faktami.
Źródło: Arthur Conan Doyle, Skandal w Bohemii
W projektach Data Science należy odłożyć na bok emocje, uprzedzenia, czy poglądy. W pierwszej kolejności zawsze spróbujemy znaleźć odpowiedź w faktach i na tej podstawie próbując budować model. A nie odwrotnie. Często łatwo wpaść w pułapkę przedwcześnie przyjętych założeń. Niech to dane nas prowadzą odkrywając przed nami historię.
Zatem, czy w poszukiwaniu odpowiedniego polskiego tłumaczenia określenia „Data Scientist” nie należałoby nazwać go po prostu Detektywem danych?
Chciałbym z radością powitać wszystkich na gościnnych stronach INNPoland. Od dziś będę starał się tutaj przybliżać możliwości stosowania nauki o danych (Data Science) w biznesie. Zapraszam.