Crackowanie PDFów dla przejrzystości finansów publicznych

Jan Żankowski

Jan Żankowski

20 kwietnia 2016

Przeczytasz w minutę

W dniu wczorajszym podczas cotygodniowego spotkania Koduj dla Polski zaprezentowaliśmy nasze nowatorskie narzędzie wspomagajace crackowanie PDFów. PDF to format plików szeroko stosowany m.in. przez administrację publiczną do prezentacji wszelkiego typu dokumentów. Pomimo, że najpowszechniej wykorzystuje się jego otwartą wersję, to został on zaprojektowany do prezentacji danych w postaci zrozumiałej i przyjemnej dla ludzi. Czasem istnieje jednak potrzeba maszynowej analizy danych zawartych w plikach PDF, co jest trudne, zwłaszcza w przypadku tabel osadzanych dokumentach. Podczas hacknightu zaprezentowaliśmy narzędzia (firm trzecich oraz własne), które zastosowaliśmy do ekstrakcji danych tabelarycznych z plików PDF obrazujących strukturę polskiego budżetu narodowego. Niebewem udostępnimy narzędzie publicznie, tak, aby każdy zainteresowany mógł z niego swobodnie korzystać.   baner

Projekt jest realizowany w ramach programu Obywatele dla Demokracji, finansowanego z Funduszy EOG.