Reuse: Dane publiczne, a rewolucja cyfrowa

Krzysztof Madejski

24 grudnia 2014

Przeczytasz w 9 minut

Prowadzone obecnie przez Ministerstwo Administracji i Cyfryzacji konsultacje Projektu Założeń Projektu Ustawy o Ponownym Wykorzystaniu Informacji Sektora Publicznego (potocznie zwanego “projektem ustawy o reuse”) skłaniają do podsumowania 13 lat obowiązywania i realizacji ustawy o dostępie do informacji publicznej. Ministerstwo tonąc w morzu uwag zgłaszanych do projektu robi co może, aby przygotować ustawę w wyznaczonym do tego przez unijną dyrektywę terminie. Gdzieś w tym wirze gubi się jednak idea bazowej dyrektywy stanowiącej fundament instytucji ponownego wykorzystywania informacji publicznej. Choć projekt założeń został udoskonalony między innymi dzięki uwzględnieniu pierwszej tury uwag konsultacyjnych, nadal uderza brak całościowej wizji, którą projektowana ustawa będzie realizować. Aby tę wizję stworzyć należałoby przede wszystkim przeanalizować jak sprawdzają się w praktyce przepisy obowiązującej od 12 lat ustawy o dostępie do informacji publicznej, szczególnie te dotyczące instytucji ponownego wykorzystywania.   Analiza Doświadczenie Fundacji ePaństwo w pozyskiwaniu i przetwarzaniu informacji publicznej [IP] jasno wskazuje na to, że jednym z podstawowych problemów jest udostępnianie IP w formatach, które nie pozwalają na ich łatwe komputerowe przetwarzanie. Świadomie lub nie Rozporządzenie Rady Ministrów w sprawie Krajowych Ram Interoperacyjności pozostawiło furtki, których najlepszym reprezentantem jest format PDF. Odkładając na bok kontrowersje związane z otwartością tego formatu, należy sobie jasno powiedzieć: w pdf można wkleić wszystko, ale bardzo ciężko jest coś z niego wyekstrahować. Za przykład weźmy wyimaginowany raport na temat analizy transportowej miasta. Raport taki, udostępniany w formacie pdf, będzie zapewne zawierał tekst, statystyczne dane tabelaryczne, wykresy, zdjęcia oraz rozkłady jazdy. Nie wdając się w szczegóły powiemy tylko, że wyciągnięcie z takiego raportu jego składowych informacji jest co najmniej bardzo trudne lub w pewnych przypadkach niemożliwe bez ręcznego przepisywania (spróbujcie skopiować tekst z tej ustawy). Jak powinien być udostępniony taki raport, aby nadawał się do ponownego przetwarzania? Oprócz dokumentu w formacie prezentacyjnym pdf powinny zostać udostępnione następujące dane, potencjalnie dla wygody udostępniania skumulowane w jeden plik jako archiwum zip:
  • tekst - w postaci tekstowej edytowalnej
  • zagregowane dane tabelaryczne i wykresy - w postaci arkuszy kalkulacyjnych; dodatkowo powinny zostać udostępnione dane źródłowe, na których podstawie agregacje zostały sporządzone
  • zdjęcia - w postaci plików graficznych
  • rozkłady jazdy - w standardzie do tego właściwym; obecne trendy wskazują na format GTFS
Dodając do powyższych technicznych kwestii nieznajomość instytucji reuse wśród odbiorców i niejasności jej definicji nawet wśród prawników, rysuje się dość smutny obraz niewykorzystanego potencjału tej instytucji udostępniania. Na szczęście teraz możemy to zmienić!   Wizja Kształt obecnego projektu sugeruje, że powstanie ustawa regulująca przede wszystkim udostępnianie treści przez instytucje kultury. Czy regulowanym przez odrębne ustawy instytucjom kultury jest jednak potrzebna jeszcze ta? Zgłaszanych jest wiele wątpliwości co do sensowności odrębnej ustawy i utrzymania instytucji ponownego wykorzystania, zamiast znowelizowania ustawy o dostępie do informacji publicznej. Patrząc jednak pragmatycznie na terminy i zaawansowanie prac nad projektem ustawy widać, że jest nieuniknione stworzenie odrębnej ustawy. Należy, więc zadać sobie pytanie co powinna mieć ona na celu poza oczywistą koniecznością rozszerzenia obowiązywania na instytucje kultury. Stoimy na stanowisku, że głównym celem projektowanej ustawy powinno być udoskonalenie instytucji ponownego wykorzystania informacji publicznej przez wszystkie instytucje publiczne z naciskiem na jej praktyczną technologiczną realizację. Wprowadzenie zapisów pozwalających na regularne udostępnianie informacji w odpowiedzi na jeden wniosek to krok w dobrą stronę. Oprócz tego wysiłki należałoby położyć na działania poza legislacyjne wspierające tworzenie systemów informatycznych pozwalających na proaktywne udostępnianie informacji sektora publicznego [ISP] bez konieczności przeprowadzania procedury wnioskowej. Zaglądając do dyrektywy, która opisuje ponowne wykorzystywanie informacji publicznej, a także do testu regulacyjnego projektowanej obecnie ustawy znajdziemy odwołanie do wartości takich jak jawność, wydajniejsza administracja oraz wzrost konkurencyjności i innowacyjności gospodarki europejskiej. Jawność jest stosunkowo skutecznie zapewniana przez ustawę o dostępie do informacji publicznej (nie licząc przypadku Sądu Najwyższego i kilku innych alarmujących wyjątków). Nie osiągniemy jednak celów związanych z wydajniejszą administracją i gospodarką korzystającą z IP nie kładąc nacisku na techniczne aspekty udostępniania informacji.   Narzędzia Jakich narzędzi powinniśmy użyć do osiągnięcia tego celu? Warto zacząć od nowelizacji Rozporządzenia Rady Ministrów w sprawie Krajowych Ram Interoperacyjności (zwane dalej Rozporządzeniem), które powinno stać się katalogiem otwartym wyznaczającym minimalne standardy dla otwartych formatów danych bez wymieniania ich wszystkich. Dlaczego? Przede wszystkim rozporządzenie nie ma szans nadążać za zmianami technologicznym. Istniejące zamknięte standardy się otwierają, nowe się pojawiają, ogólne są wypierane na rzecz bardziej szczegółowych. Prawo zawsze będzie w tym względzie do tyłu i dlatego potrzebujemy bardziej dynamicznych narzędzi do wyznaczania obowiązujących standardów. Należy także pogodzić zachęty do stosowania dominujących ogólnoświatowych standardów z przyzwoleniem na udostępnianie informacji, która już jest opracowana w starszych lub własnych formatach i standardach spełniających warunki otwartości. Należałoby zastanowić się nad usunięciem ogólnych formatów służących do prezentacji i publikacji treści (takich jak pdf, czy mniej word) lub zastrzec ich wykorzystanie do udostępniania sformatowanego tekstu. Jeżeli zdecydowalibyśmy się na taki krok należałoby zadbać, aby te formaty były dozwolone jako sposoby udostępniania informacji przez instytucję dostępu do informacji publicznej. Finalnie dla wszystkich podmiotów objętych ustawą powinien zostać wprowadzony obowiązek corocznego publikowania listy wszystkich posiadanych zbiorów danych. Taka inwentaryzacja będzie stanowiła fundament do usprawnienia zarówno wewnętrznego funkcjonowania podmiotów, jak i współpracy horyzontalnej pomiędzy instytucjami publicznymi, nie mówiąc o szerszym popycie na dane wśród odbiorców. Oczywiście wymagane będą przepisy przejściowe wymuszające na początku publikowanie tylko częściowej listy, np. tych danych które już znajdują się w postaci elektronicznej. Powyższe drobne zmiany legislacyjne muszą być uzupełnione o ważniejsze działania poza legislacyjne. Jako narzędzie do dynamicznego zarządzania standardami proponujemy powołanie tematycznych grup roboczych mających na celu stworzenie rekomendacji istniejących standardów danych dla danego obszaru. Grupy takie składałyby się z interesariuszy (dostawców udostępniających dane i odbiorców danych), a byłyby koordynowane przez MAC jako niezależnego mediatora. Rozporządzenie mogłyby sugerować stosowanie się do konkretnych rekomendacji jeżeli zostały one opublikowane przez grupy robocze. Niech muzea, które niedługo będą zobowiązane do udostępniania informacji posłużą tu za przykład. Choć w Rozporządzeniu wymienione są konkretne formaty plików graficznych to wyobrażamy sobie sytuację, w której na prośbę o udostępnienie skanu obrazu zamiast źródłowego skanu w najwyższej rozdzielczości muzeum udostępnia grafikę ze strony internetowej, której jakość pozwala najwyżej na zrobienie sobie zakładki do książki, a nie porządnej reprodukcji. Inaczej trochę sytuacja wygląda w przypadku udostępnianie trójwymiarowych skanów rzeźb. Dla nich w Rozporządzaniu nie znajdzie się żaden odpowiedni format, a istniejące przepisy wymagają opublikowania danych w przynajmniej jednym z wybranych formatów (problem “zamkniętego katalogu”). Łatwo sobie wyobrazić odpowiedź na złożony wniosek o reuse - “z powodu uwarunkowań prawnych nie jesteśmy w stanie udostępnić informacji, o którą prosi wnioskodawca”. Albo, co podpowiada doświadczenie, wyląduje ona zaszyta w pdf. Gdyby istniała grupa robocza debatująca o formatach dla udostępniania skanów trójwymiarowych to by zapewne zarekomendowała udostępnianie źródłowych danych ze skanu, czyli chmury punktów oraz opracowanego na jej podstawie modelu składającego się z siatki trójkątów. Oba zbiory informacji oczywiście w formacie otwartym, a nie zamkniętym pozwalającym na otworzenie modelu tylko w oprogramowaniu jednej firmy. Choć powyższe przykłady są negatywne to nie zakładamy złej woli dostawców danych. Przeciwnie, wierzymy, że przejrzyste i uzasadnione rekomendacje będą stanowiły kompas wskazujący kierunek dla osób odpowiedzialnych za udostępnianie danych chcących to zrobić jak najlepiej. Oprócz powyższego wsparcia merytorycznego dla instytucji na których spoczną nowe obowiązki nie bez znaczenia jest też wsparcie edukacyjne i finansowe. Tym bardziej cieszy, że w teście regulacyjnym projektowanej ustawie zostały określone plany stworzenia podręcznika na temat reuse oraz komplementarnego do ustawy dofinansowania w ramach POPC [Programu Operacyjnego Polska Cyfrowa]. Sugerujemy, aby tworzony podręcznik był adresowany do wszystkich instytucji publicznych, z wyszczególnionym rozdziałem adresującym sprawy specyficzne dla instytucji kultury. Tak skonstruowana instytucja ponownego wykorzystania informacji sektora publicznego ma szansę zapewnić najwyższy standard w jakości dostępu do danych pozwalając na przeprowadzanie analiz oraz łatwą agregację i integrację danych. Wtedy instytucja dostępu do informacji publicznej [DIP] pozostanie trybem realizującym przede wszystkim konstytucyjną zasadę jawności pozwalającą obywatelom na wgląd w interesujące ich dane i w jej przypadku pdf mógłby być nawet zalecanym formatem prezentacji danych, jako mocno osadzony w realiach urzędowych oraz pozwalający na łatwą agregację informacji. Wierzymy, że kiedyś obie ustawy zostaną zebrane w jedną precyzyjną i zrozumiałą ustawę, która będzie miała dwa podstawowe cele: zapewnienie sprawnego udostępniania informacji publicznych tak by mogły być łatwo odczytane przez odbiorcę bez potrzeby zakupu specjalnego oprogramowania, oraz udostępnianie informacji w sposób najlepszy do przetwarzania maszynowego. Mówiąc o ponownym przetwarzaniu wspomnieliśmy o otwartych formatach, powszechnych standardach i udostępnianiu informacji przez dedykowane do tego systemy informatyczne. Nie padło tylko słowo klucz. Otwarte dane Cel wszystkich działań wspierających ponowne przetwarzanie zostanie osiągnięty, gdy wszystkie informacje sektora publicznego (rozumianego jak najszerzej) będą udostępnione jako otwarte dane. Cel ten został jasno określony poprzez wpisanie implementowanej dyrektywy w Open Data Package [także przystępna notka prasowa]. Otwarte dane, czyli dane:
  • w otwartych formatach
  • oparte na standardach (rekomendowanych międzynarodowych lub stworzonych ogólnopolskich jeżeli są to informacje zależne od polskiego porządku prawnego)
  • udostępniane bez określania warunków ponownego wykorzystania lub na warunkach minimalnych (np. ogólna adnotacja promująca wykorzystanie danych publicznych)
  • dostępne na żądanie, bez uzasadnienia celu, w systemach informatycznych serwujących 24/7 najaktualniejsze dane
  Jeżeli przy okazji implementacji tej dyrektywy nie wprowadzimy zmian sprawiających, że instytucja ponownego wykorzystywania zacznie działać w praktyce to stwierdzenia, że “wraz z rewolucją cyfrową istotnie wzrosła wartość tego źródła [informacji sektora publicznego]” zostaną tylko pobożnymi życzeniami, a wartość informacji sektora publicznego pozostanie na poziomie nie rewolucji cyfrowej, a rewolucji Gutenberga. Z drobną poprawką na efektywniejsze laserowe prasy drukarskie.    

Krzysztof Madejski