Big data vs. open data

Katarzyna Mikołajczyk

25 listopada 2015

Przeczytasz w 3 minuty

Określenie "big data" (ang. wielkie dane) pojawia się coraz częściej w raportach i analizach. Niestety często mówiąc o „dużych danych” autor na myśli tylko te duże objętościowo. A to nie jest wystarczające kryterium. Najłatwiej sprawdzić czy mamy do czynienia ze źródłem „dużych danych”, jeśli posiada ono 5 podstawowych cech:
  • dużą objętość (volume) – czyli dane zajmują ogromną ilość miejsca w pamięci urządzeń elektronicznych.
  • dużą zmienność (velocity) – czyli dane charakteryzuje duża dynamika i są one przetwarzane w czasie zbliżonym do rzeczywistego.
  • dużą różnorodność (variety) – różnorodność źródeł danych, z dopuszczeniem, że część danych jest nieustrukturyzowana.
  • wartość (value) – dane są wartościowym źródłem informacji, nawet jeśli są w formie nieustrukturyzowanej.
  • wiarygodność (veracity) – źródła danych są wiarygodne, co jest ogromnym wyzwaniem przy dużej objętości, zmienności i różnorodności źródeł.
Skąd się biorą takie dane? Każde urządzenie z którego korzystamy, a które zbiera informacje jest źródłem takich danych, które ktoś może analizować. Zaczynając od:
  • telefonu (nasza lokalizacja, liczba pobranych danych analizowana przez operatora),
  • komputera (odwiedzane strony, wyszukiwane hasła w wyszukiwarkach gromadzone przez firmy),
  • karty płatniczej (liczba zakupów, miejsca zakupów dostępne dla naszego banku),
  • sklepowego monitoringu (ścieżki poruszania się w sklepie wykorzystywane przez specjalistów od marketingu),
Ale także gminy mogą dostęp do „big data”:
  • miejski monitoring (analiza prędkości pojazdów, kierunku ruchu, natężenia ruchu, liczby pieszych),
  • konto bankowe gminy (przepływy finansowe),
  • dane administracyjne (decyzje, zezwolenia, zaświadczenia),
  • lokalizacja pojazdów komunikacji zbiorowej,
  • zużycie energii przez miejskie latarnie,
  • liczba osób korzystających z miejskiego internetu,
  • zapełnienie strefy płatnego parkowania (liczba zajętych/wolnych miejsc parkingowych),
  • liczba i rodzaj komentarzy pozostawianych na portalach społecznościowych dotyczących miasta.
Odpowiednio zebrane (ustrukturalizowane) i przeanalizowane dane są cennym źródłem informacji nie tylko dla specjalistów od marketingu (na podstawie naszego zachowania w sklepie mogą zaplanować rozmieszczenie nowych produktów; na podstawie odwiedzanych przez nas stron mogą zaproponować nam w reklamach produkt, który prawdopodobnie nas zainteresuje), ale mogą także stanowić doskonałą podstawę do zarządzania miastem. Na podstawie samych tylko danych odnośnie przemieszczania się mieszkańców można ustalić czy zaplanowane ciągi komunikacyjne spełniają ich oczekiwania, czy strefa płatnego parkowania jest optymalna i czy spełnia swoje funkcje w zakresie rotacji pojazdów, jakie trasy są najbardziej zakorkowane oraz jakie trasy są najczęściej wybierane jako objazdy. „Big data” =/= „open data” Duże dane to nie to samo co otwarte dane. Duże dane mogą być otwarte (np. lokalizacja pojazdów komunikacji zbiorowej, informacje o stopniu zanieczyszczenia powietrza), ale jednocześnie otwarte dane nie muszą być „big” (np. rozkład jazdy komunikacji zbiorowej, wykaz szkół, struktura własnościowa podmiotów). Tekst powstał na podstawie Blog.Gartner.com oraz raportu Ministerstwa Administracji i Cyfryzacji pt „Społeczeństwo informacyjne w liczbach 2015”