Polska niedługo uwolni dane publiczne. Przedsiębiorcy uzyskają dostęp do wielu zbiorów danych gromadzonych przez takie instytucje jak GUS, dane z Systemu Rejestrów Publicznych, ewidencji warszawskiego metra i nie tylko. - Udostępnimy informacje, które można wykorzystać do celów komercyjnych - mówi w rozmowie INN:Poland Adam Sobczak, pełnomocnik ds. architektury informatycznej państwa w Centralnym Ośrodku Informatyki. Co to oznacza? Wzrost PKB nawet o 4 proc. Dla porównania w Londynie na danych z samej komunikacji miejskiej powstało ok 500 aplikacji, które obsługuje aż 5 tys. osób.
Adam Sobczak, który będzie jednym z gości poświęconego nowej gospodarce kongresu Impact'16: 4.0 Economy, który odbędzie się 15 i 16 czerwca w Krakowie gdzie weźmie udział w panelu "E-country", wyjaśnia, jakie dane zostaną uwolnione i komu będą udostępniane. Odpowiada też na wątpliwości związane z ustawą wprowadzającą te zmiany.
Ustawa o ponownym wykorzystywaniu informacji sektora publicznego wejdzie w życie w czwartek 16 czerwca. Jakie korzyści płyną z tego dla obywateli?
Odpowiem przykładem. W Wielkiej Brytanii, w samym Londynie, na danych płynących z data feed z całego systemu komunikacji miejskiej, metra, autobusów etc., powstało 500 aplikacji. W firmach, które wykorzystują dane z tego jedynego źródła, pracuje aż 5 tys. ludzi. Ten fenomen zauważył w swoim raporcie nawet Bank Światowy.
Czy tylko w Londynie prywatne firmy mogą korzystać z publicznie dostępnych danych? I skąd w ogóle wiadomo, jak je wykorzystać?
W Nowym Jorku na danych z samego metra zostało zbudowanych 60 aplikacji, które wykorzystują je w najróżniejszy sposób. Mówię o programach, które faktycznie są popularne, nie o takich, które mają marginalne znaczenie. Dane z metra mogą służyć na przykład e–commercowi do planowania promocji. Gdy wiemy, kiedy jest największy ruch, kiedy przyjeżdża najwięcej wagonów, to możemy dopasować do tego działania.
W Polsce mamy aplikację Yanosik, której obecnie używa 100 tysięcy osób. I teraz Yanosik swój model biznesowy chce oprzeć na sprzedaży danych na temat ruchu pojazdów. Do czego to można wykorzystać? Można na przykład zestawić dane z Yanosika z lokalizacjami marketów. W ten sposób dowiemy się, który sklep i w jakich godzinach jakie ma obłożenie.
A jakie dane zostaną w Polsce uwolnione? Co to w ogóle oznacza, że uwolnimy dane?
W Polsce mamy mnóstwo danych, niektóre z nich są świetnej jakości. Są to dane gromadzone przez instytucje na potrzeby funkcjonowania administracji: dane statystyczne, przestrzenne, meteorologiczne dotyczące ochrony środowiska, infrastruktury. Ważnym źródłem danych są rejestry państwowe. To są bazy, które opisują ludność, dane związane z dokumentami, dowodami osobistymi, prawem jazdy. Zacznijmy od bazy PESEL, którą wszyscy znają. Jest kompleksowa i może być dobrym punktem odniesienia, referencji.
Bardzo ważne jest to, że je uwolnimy, to znaczy: będą one dostępne, za darmo, w formie cyfrowej, gotowe do wykorzystania. Jeżeli mówimy jednak o powstaniu nowych aplikacji, które są użyteczne dla ludzi, dadzą nam wszystkim nowy poziom usług, to bardzo ważna jest forma udostępniania danych, czyli dostęp do nich przez API. Mamy aplikację, która na bieżąco pozwala innym aplikacjom komunikować się z tą bazą danych, wszystkie aktualizacje są wprowadzane na bieżąco, automatycznie. Czyli, jak coś zmienimy, dodamy, zmodyfikujemy rekord to aplikacja oparta na tych danych korzysta online ze zmienionego zbioru. Nie musimy tego dodatkowo komunikować klientom...
Listami poleconymi
Mogę poopowiadać, gdzie trzeba pisać listy polecone, żeby przesłali dane na płycie CD (śmiech). Są takie miejsca. Ale tu dzięki API nic nie musielibyśmy robić, odbiorcy mają na bieżąco najświeższe dane. Wysyłają zapytania i od razu mają odpowiedź, co więcej – chodzi nie tylko o poszczególne dane, ale też o statystyki.
Co to jest baza referencyjna?
Jeśli chcemy świadczyć usługi dla obywateli polskich, to musimy znaleźć jakiś rejestr tych ludzi. Chociażby żeby ich uwierzytelniać, identyfikować. Baza PESEL jest jedyną bazą, która jest kompleksowa, to znaczy zawiera informacje o wszystkich obywatelach Polski. Co więcej, to nie jest ujęcie statyczne, tylko ma bardzo wydajny system uzupełniania i modyfikacji. Oczywiście ta baza ma swoje mankamenty, bo technologiczna jakość systemu obsługującego bazy danych w sektorze publicznym odbiega często od tych w sektorze prywatnym. Ale ona jest i tak najlepsza, na bieżąco aktualizowana, na stabilnym środowisku. Ilość pól, które zawiera, jest nieco skąpa, dlatego jest druga baza opisująca ludność.
Mamy też centralną bazę urzędów stanu cywilnego (BUSC). Czyli – kilkanaście sekund po tym, gdy urzędnik wpisze na swojej klawiaturze, narodziny, ślub, pogrzeb, rozwód, każde takie wydarzenie ląduje w bazie, zostaje zarejestrowane w Urzędzie Stanu Cywilnego.
Czym one między sobą się różną?
Moduł BUSC zawiera kompleksowe informacje o obywatelach. Na przykład, baza PESEL nie zawiera relacji między wpisami z wyjątkiem relacji małżeńskiej. Nowa baza BUSC zawiera taką funkcjonalność, te relacje można śledzić.
Jest jeszcze Rejestr Dowodów Osobistych, Centralna Ewidencja Pojazdów i Kierowców. Tam mamy na przykład historię pojazdów, tak więc na tych danych zaczęły już powstawać usługi. Polecam wejść na stronę obywatel.gov.pl i tam zobaczymy pewne usługi, które zbudował już sektor publiczny na tych bazach. Wreszcie – dochodzimy do kolejnej bardzo interesującego zasobu, czyli danych Głównego Urzędu Statystycznego.
Weszłam tam akurat ostatnio i ilość informacji mnie pokonała. Nic nie znalazłam
Proszę mnie nie kusić o komentarz, bo odbiegniemy od tematu. Ja na temat każdej z tych baz mogę opowiadać godzinami. Dalej mamy bardzo duży i szalenie cenny z punktu widzenia przedsiębiorców zbiór danych, czylibazę Głównego Geodety Kraju. Ona zawiera punkty adresowe, ale też mapy, informacje o budynkach. Tam jest sfera ewidencyjna, czyli kto ma jaką działkę i na co ona jest przeznaczona, jest baza dotycząca budynków i są całe podkłady mapowe, które kupujemy jako administracja polska. Geoportal, to jest portal, który udostępnia świetne zdjęcia lotnicze, bardzo dokładne.
A Geoportal nie jest płatny? Czy za „udostępnione dane” można będzie pobierać opłaty?
Dla przeciętnego użytkownika dostęp jest bezpłatny, natomiast dostęp do danych na potrzeby komercyjne jest bardzo utrudniony. Jest regulacja, która weszła w życie w ubiegłym roku i nakłada opłaty licencyjne, co jest w ogóle patologią.
To są dane publiczne, które zostały za publiczne pieniądze zgromadzone i co do zasady, powinny być publicznie dostępne. Natomiast, jest szczegółowa regulacja, która mówi o tym, że za te dane są pobierane pieniądze. I to nie za koszty udostępnienia, tylko za korzystanie z nich. Czyli, mamy taką sytuację, że polska administracja wytworzyła dane za pieniądze publiczne i dalej na nich zarabia. Pobiera opłaty nie tylko od przedsiębiorstw, ale i od innych organów administracji.
Jak duże są zyski z tych opłat licencyjnych?
Oczywiście, że to są duże pieniądze. Same przedsiębiorstwa energetyczne płacą za te dane dziesiątki miliony złotych rocznie.
W takim razie, czy polski budżet stać na rezygnację z tych opłat?
Tak, ponieważ uwolnienie tych danych przyniesie dużo większe zyski, więc i wpływy do budżetu. Mamy oficjalne szacunki Unii Europejskiej, że samo uwolnienie danych przynosi 0,5 proc. PKB. W 2020 roku ma to być 75 mld euro z PKB, zbudowanego w oparciu o dostęp do danych publicznych. Żadnych wielkich inwestycji, po prostu otwarcie danych. ą jeszcze inne, bardziej entuzjastyczne szacunki, McKinsey mówi że to jest 4 proc. PKB. Czyli jeśli uwolnimy dane, to nasza gospodarka przyśpieszy o 4 proc. PKB.
Na czym te dane są oparte?
Można zbadać, ile firm czy aplikacji powstało, a potem zbadać, ile te firmy zatrudniają osób. Bada to Komisja Europejska, firmy doradcze. To są szacunki, dlatego są nieco rozbieżne, między 0,5 a 4 proc. PKB, tylko dzięki otwarciu danych.
No właśnie, kiedy one w ogóle są otwarte?
To jest dobre pytanie, bo nie mamy tej definicji. Czy one są otwarte, kiedy można je pobrać, czy wtedy, gdy są w formie cyfrowej, czy są otwarte, gdy jest do nich dostęp przez API?
Czy jeśli mieć dostęp do danych, muszę przyjść z pendrivem do biblioteki, to one są otwarte, czy nie?
Według mojej definicji, nie. Tylko dostęp ciągły przez API do zbioru danych pozwala na budowanie aplikacji najwyższego rzędu. Znaczna większość danych jest wciąż zamknięta. Zwykły obywatel ciągle ma pod górę.
Dlaczego Pan tak się upiera przy dostępie właśnie przez API?
Dane mają największą wartość w momencie wytworzenia. Potem ich wartość maleje. Oczywiście, w zależności od rynku. A dzięki API moja aplikacja komunikuje się z inną aplikacją, na bieżąco.
Mój przekaz jest prosty: dane są, mamy technologie, żeby je wykorzystywać, są ludzie, którzy na nie czekają. I mamy tylko bariery mentalne, nie ma technologicznych. Pozwólmy firmom działać i złammy tabu prywatności, bo i tak mając smartphone, udostępniamy swoje prywatne dane. Mówimy o dostępie do wszystkich danych, z wyłączeniem tych danych, które pozwalają na zidentyfikowanie danej osoby.
Ale czy my będziemy potrafili te otwarte dane wykorzystać?
Tak, zdecydowanie. Polska ma ten potencjał, wszystko jest gotowe. Przedsiębiorcy czekają, organizacje pozarządowe walczą o ten dostęp. Teoretycznie ten dostęp do danych publicznych był już wcześniej, ale wszystko rozbija się o formę. Wysyła się prośbę o dostęp do danych publicznych, rusza postępowanie, może trwać np. rok. A jak finalnie te dane zostaną udostępnione, to nie przez to API.
Z Pana słów można wyczuć wielki opór administracji przed dzieleniem się tymi danymi. Jak nie można jawnie, to można chociaż utrudnić dostęp, kazać czekać
Myślę, że te dane dla każdego z ich właścicieli, to są jego aktywa, własność. Stąd mentalna blokada przed dzieleniem się nimi, otwarciem zbiorów. Ponieważ jeżeli te dane udostępni, to straci jakiś monopol. Jak ktoś sprawdzi te dane, to może znajdzie jakieś błędy? Ktoś je będzie oceniał?
Faktycznie ryzykowne. Ale nic innego nie stoi na przeszkodzie?
Tak naprawdę my walczymy tylko z tym, bo nie ma absolutnie żadnych barier ekonomicznych. Przedsiębiorstwa się rwą do tych danych. Jest taka koalicja organizacji pozarządowych, Fundament.ngo, które się połączyły, jednym z ich celów jest właśnie otwarcie dostępu do danych.
Są też ludzie, którzy przychodzą do COI i mówią – pomóżcie nam, walczymy o dostęp do danych już 7 miesięcy i dalej jesteśmy na etapie wymieniania pism.
Jeśli tylko złamiemy tę barierę, to do dużej części tych baz danych, o których mówiliśmy, są już gotowe pomysły na aplikacje, pozwalające na dostęp do nich i tworzenie usług dla obywateli.
Gdy państwowe zasoby danych zostaną otwarte, będą obsługiwać dziennie nie kilka, a kilkadziesiąt milionów zapytań. Czy infrastruktura informatyczna sobie z tym poradzi??
Nie ma problemu, można skalować środowisko. Znaczna część znanych mi zasobów jest hostowana na serwerach wirtualnych. Zwiększenie wydajności ani nie kosztuje dużo, ani nie jest trudne. Dołożenie kolejnych klocków to jest oczywiście jakiś koszt, ale zupełnie niewspółmierny do zysków.
Może pan wymienić pięć baz danych, które dają największe nadzieje przedsiębiorcom?
Tak, System Rejestrów Państwowych, - (m.in. z bazą PESEL, Bazę Urzędów Stanu cywilnego). Zasoby GUS. Dalej, Główny Geodeta Kraju ma kilkanaście systemów, od bardzo dokładnych zdjęć lotniczych po działki ewidencyjne. Mamy dostęp do ksiąg wieczystych, centralną ewidencję i informacja działalności gospodarczej.
Są też bazy meteorologiczne. Tu mam ciekawy przykład firmy amerykańskiej. Climat Corporation jest warta ok. miliarda dolarów i działa tylko na publicznych danych meteorologicznych. Ta firma wprowadziła bardzo innowacyjny system ubezpieczeń dla rolników. Tylko w oparciu o publiczne dane szacują skalę, wielkość szkody, nie prowadzą w ogóle badań w terenie – i wypłaca odszkodowania rolnikom. Firma wie gdzie była trasa tornado, wie gdzie jest działka, wie na jakie uprawy była dana polisa i w ten sposób oblicza wypłatę.
Jest inna firma, warta 200 mln dolarów, robi algorytmy oparte o system AIS. To jest system bezpieczeństwa statków, każdy duży statek wysyła informacje o swojej lokalizacji. Ta firma gromadzi dane o tankowcach, one najczęściej nie stoją w portach, tyko się przemieszczają. I firma widzi, kiedy one zaczynają się ruszać, na przykład płyną w stronę Chin. I wtedy wysyła dane traderom, którzy w Nowym Jorku grają na rynku commodity – „O, chyba Chiny coś kupiły”. Na tej podstawie oni grają na giełdzie.
Dlaczego wprowadzamy te zmiany dopiero teraz?
Żyjemy w takim czasie, gdzie po pierwsze, mamy wystarczającą moc obliczeniową komputerów, żeby te dane przechowywać, udostępniać, analizować. To jest przełom. Po drugie, coraz więcej tych danych powstaje, mamy też dane generowane przez urządzenia. Ten trend, internet ot things, dane generują tankowce, autobusy, lodówki. To są ogromne ilości danych. Każda turbina wiatrowa ma w sobie komputer, wie na przykład bardzo precyzyjnie, z jaką siłą i z jakiego kierunku wieje wiatr. Te informacje możemy wykorzystywać dalej.
W Stanach pewna firma ubezpieczeniowa zaproponowała kierowcom zniżki, w zamian za udostępnienie danych na temat stylu jazdy. Byli monitorowani na bieżąco i jeśli jeździli przepisowo, dostawali zniżki. Z jednej strony, świetnie, można zaoszczędzić, ale z drugiej, to rzeczywistość rodem z powieści Georga Orwella.
Oczywiście, ale my w tej rzeczywistości żyjemy od dawna. Każdy kto ma smartphona. Od dawna godzimy się na to, dostawca telefonów zawsze wie, gdzie jesteśmy, czy się ruszamy, czy wypoczywamy.
Przełom polega na tym, że mamy powszechnie dostępną technologię, która łączy te cząstkowe dane i wyciąga wnioski. To są modele predykcyjne, obarczone jakimiś błędami, ale i tak ich precyzja jest bardzo wysoka. Na przykład, są aplikacje, które oceniają wartość mieszkań, bez zaglądania do nich.
Niepokoi mnie brak prywatności w tym systemie. Kto będzie miał dostęp do tych danych? Dane z rejestrów państwowych to bardzo prywatna sfera. Takie rzeczy też będzie można analizować, zaglądać nam do domu?
Albo decydujemy się na to, że oddajemy naszą prywatność, a my jesteśmy bardziej bezpieczni, nasza gospodarka się lepiej rozwija. Albo możemy pójść w drugą stronę, anarchii, mamy pełną wolność, natomiast nasze bezpieczeństwo i poziom usług jest zagrożone. To jest kwestia filozofii, którą polityka później wciela w życie.
Ale co z tymi relacjami między PESELami?
Nikt nie mówi o otwarciu tej bazy. Chodzi jedynie agregowanie danych. Udostępnienie przez API, w taki sposób, by był bezpieczny, ale użyteczny dla przedsiębiorców. Na przykład, informowanie, na bieżąco, ile dzieci się rodzi. Można sobie wyobrazić aplikację, gdzie na bieżąco są podawane dane o narodzinach, w formie mapy czy wykresów.
Z takich danych przedsiębiorcy mogą ocenić, gdzie warto założyć przedszkole czy uruchomić plac zabaw dla dzieci. Podobnie mogą z nich korzystać szpitale, by szacować liczbę potrzebnego personelu, szkoły etc. Nie udostępniajmy danych dotyczących danej osoby, tylko ogólne, zagregowane.
Czy może pan uspokoić obywatela, który przekazuje jakieś swoje dane do urzędu, że np. informacja o jego rozwodzie czy liczbie dzieci nie będzie publicznie dostępna? Co to znaczy agregowanie danych?
Są państwa, w których nawet roczne zarobki człowieka są publikowane. Kwestia polityki. W Polsce to nie jest możliwe, ze względu na przepisy, ale także opór ludzi, mentalność. I my dostosowujemy system do ustawy o ochronie danych osobowych. Udostępniamy informacje, które można wykorzystać do celów komercyjnych, ale chcę wyraźnie podkreślić - w sposób, który chroni prywatność użytkowników. To są dane zbiorcze, nie informujemy, że pani urodziło się dziecko, tylko, że na przykład w Warszawie urodziło się ostatnio tyle a tyle dzieci.
Chodzi o formę udostępnienia i tego, co można udostępnić. Liczbę urodzin w gminie można udostępnić. Ale że się urodził Jan Kowalski, to już nie.
Mówiliśmy o mapach i księgach wieczystych. A jak może skorzystać z uwolnionych danych branża kreatywna?
Nie mówiłem jeszcze o danych zgromadzonych przez państwową telewizję, radio, studia filmowe. Tam też są ogromne zasoby, które można przez takie kanały, jak Narodowe Archiwum Cyfrowe, udostępniać. Mamy Bibliotekę Narodową. Jest taka aplikacja Polona, świetny przykład wykorzystania zbiorów, można w niej oglądać dokumenty historyczne, grafikę. Ja w niej oglądałem oryginał dokumentu Kopernika.
Firmy wdrażają rozwiązania latami, ale start–upy wdrażają je tygodniami. Jeżeli da im się tylko możliwość, to oni siądą, w coworkingu czy akademiku i napiszą aplikacje, w takich krótkich sprintach pracy. Zmiana to jest proces, ale rozpocznie się właśnie teraz.
Na koniec chciałbym podać statystykę obrazującą stan „otwarcia” danych w Polsce. Na portalu udostępniającym polskie dane - danepubliczne.gov.pl jest dostępnych na dzień dzisiejszy 358 zbiorów danych na odpowiedniku amerykańskim data.gov 182 580.
Dziękuję za rozmowę