Protected: Zoekinterface for SGD
Enter your password to view comments
Enter your password to view commentsVoor de tweede batch kamerstukken die beschikbaar zijn bij de SGD lijkt er een nieuw OCR programma gebruikt. Dit heeft voor- en nadelen. Iets wat opvalt bij het herkennen van sprekers is dat in stukjes tekst die vet gedrukt zijn alle letters vaak worden gescheiden door spaties. Maar dit gebeurt ook niet altijd!. Hier staan wat voorbeelden op basis van de volgende files:
De file SG_HAN0000114252.xml is met behulp van het programma pdftohtml -xml verkregen uit de file SG_HAN0000114252.pdf.
Het is niet zo heel moeilijk deze OCR-foutjes te verbeteren, althans wat betreft de namen. De file SG_HAN0000114252MASHUP.xml is onze XML versie van de PDF waarin de foutjes verbeterd zijn. Dit is de file die op www.polidocs.nl getoond wordt.
| lees verder…
Robert Jan de Groot heeft een data-extractie script ontwikkeld om allerlei gegevens uit de Kamervragen expliciet te maken in XML. Het script neemt een KVR.pdf bestand uit Parlando, samen met de daarbij behorende metadata, en zet het om naar 1 XML-bestand. Volledig automatisch worden onder andere de volgende stappen gedaan:
Als voorbeeld is hier een PDF file met een vraag over “De Groene Draeck” samen met de XML-versie. | lees verder…