Protected: Zoekinterface for SGD

Geplaatst op 21-04-2010 door Maarten Marx | Political Mashup | tags: | comment image Enter your password to view comments.

This content is password protected. To view it please enter your password below:

SGD OCR perikelen deel 2

Geplaatst op 11-06-2008 door Maarten Marx | data | tags: , | comment image Geen reacties »

Voor de tweede batch kamerstukken die beschikbaar zijn bij de SGD lijkt er een nieuw OCR programma gebruikt. Dit heeft voor- en nadelen. Iets wat opvalt bij het herkennen van sprekers is dat in stukjes tekst die vet gedrukt zijn alle letters vaak worden gescheiden door spaties. Maar dit gebeurt ook niet altijd!. Hier staan wat voorbeelden op basis van de volgende files:
De file SG_HAN0000114252.xml is met behulp van het programma pdftohtml -xml verkregen uit de file SG_HAN0000114252.pdf.
Het is niet zo heel moeilijk deze OCR-foutjes te verbeteren, althans wat betreft de namen. De file SG_HAN0000114252MASHUP.xml is onze XML versie van de PDF waarin de foutjes verbeterd zijn. Dit is de file die op www.polidocs.nl getoond wordt.
| lees verder…

Data-extractie uit Kamervragen binnen SGD

Geplaatst op 21-05-2008 door Maarten Marx | data | tags: , | comment image Geen reacties »

Robert Jan de Groot heeft een data-extractie script ontwikkeld om allerlei gegevens uit de Kamervragen expliciet te maken in XML. Het script neemt een KVR.pdf bestand uit Parlando, samen met de daarbij behorende metadata, en zet het om naar 1 XML-bestand. Volledig automatisch worden onder andere de volgende stappen gedaan:

  • data worden herkend en omgezet naar standaard MySQL date-formaat
  • vrager, antwoorder, het onderwerp van de vraag worden herkend en als attributen in de XML weergegeven
  • de vragen en antwoorden worden genummerd in de XML. Het is dus duidelijk welk antwoord bij welke vraag hoort
  • voetnoten worden herkend. De aangehaalde bron in voetnoten wordt geextraheerd.
  • allerlei metadata van de PDF file wordt herkend en opgeslagen (pagina-nummer, vet-nummer, ISSN, etc)

Als voorbeeld is hier een PDF file met een vraag over “De Groene Draeck” samen met de XML-versie. | lees verder…