Data-extractie uit Kamervragen binnen SGD

Geplaatst op 21-05-2008 door Maarten Marx | data | tags: , | comment image Geen reacties »

Robert Jan de Groot heeft een data-extractie script ontwikkeld om allerlei gegevens uit de Kamervragen expliciet te maken in XML. Het script neemt een KVR.pdf bestand uit Parlando, samen met de daarbij behorende metadata, en zet het om naar 1 XML-bestand. Volledig automatisch worden onder andere de volgende stappen gedaan:

  • data worden herkend en omgezet naar standaard MySQL date-formaat
  • vrager, antwoorder, het onderwerp van de vraag worden herkend en als attributen in de XML weergegeven
  • de vragen en antwoorden worden genummerd in de XML. Het is dus duidelijk welk antwoord bij welke vraag hoort
  • voetnoten worden herkend. De aangehaalde bron in voetnoten wordt geextraheerd.
  • allerlei metadata van de PDF file wordt herkend en opgeslagen (pagina-nummer, vet-nummer, ISSN, etc)

Als voorbeeld is hier een PDF file met een vraag over “De Groene Draeck” samen met de XML-versie.

Kamervragen in StatenGeneraalDigitaal

We waren benieuwd hoe robuust het script was voor veranderingen en hebben het ook gedraaid op Kamervragen uit het SGD corpus. Deze zijn naar PDF geconverteerd door middel van OCR, en hebben een drie-koloms in plaats van twee-koloms opmaak. De OCR-foutjes zorgen er voor dat sommige reguliere expressies niet meer goed gaan (bijv: haakjes worden nogal eens als een “b” herkent), maar wat kleine aanpassingen gaven toch al een redelijk mooi resultaat.

Als voorbeeld is hier een PDF file over “de boycot van een bedrijf door het gemeentebestuur van Arnhem” en onze XML-versie daarvan.

Reageer

Je moet ingelogd zijn om te kunnen reageren.