W ramach naszej pracy z dokumentami publikowanymi przez administrację publiczną napotykamy pewne problemy dotyczące konwersji plików PDF do innych formatów, np. do XML, HTML, itp. Wiemy, że niektórym udała się sztuka sprytnej konwersji. Przykładem jest Scribd, który po napisaniu własnego narzędzia postanowił na jego podstawie stworzyć komercyjny produkt.
W projektach Fundacji ePaństwo wykorzystujemy dziś
pdf2xml. Jest to konwerter open-source, oparty na bibliotece
Xpdf.
Aby usprawnić prace nad dokumentami administracji publicznej w Polsce, aby móc je łatwiej ponownie wykorzystywać (re-use), w tym konwertować do formatów ustrukturalizowanych, chcielibyśmy kiedyś włączyć sie w prace nad stworzeniem dobrego narzędzia do tego typu operacji.
Ale jeśli chcielibyście włączyć się w tego typu prace i usprawnić istniejące już narzędzia - chętnie wykorzystamy w projektach Fundacji efekt takich działań.