Prístupy extrakcie textu z PDF dokumentov

František Forgáč

Abstrakt


Extrahovanie textov z PDF dokumentov je neľahký proces, nakoľko ide o „layout-based“ formát, ktorý neobsahuje sémantické informácie o častiach textu. V tejto práci popíšeme problémy extrahovania textu z PDF, ktoré sa počas tohto procesu môžu vyskytnúť. Porovnáme existujúce nástroje a techniky na extrahovanie na základe niekoľkých kritérií (dostupnosť, výstupný formát, presnosť) a následne predstavíme nami zvolený postup, ktorý bude postavený na jednom z existujúcich nástrojov. Na experimenty využijeme 50 študentských prác, z ktorých je vytvorený aj referenčný extrahovaný text. Popíšeme výhody a nevýhody nami zvoleného prístupu a pokúsime sa identifikovať zvyšné kroky, ktoré sú nevyhnutné na dosiahnutie čo najvyššej kvality extrahovania textov z formátu PDF.



Back to list of accepted papers