Help, er wordt naar me verwezen.

Geplaatst op 09-09-2008 door Maarten Marx | Political Mashup, data | tags: | Geen reacties »

De meeste Kamervragen verwijzen in een voetnoot naar een bron die de aanleiding tot de Kamervraag beschrijft. Vaak zijn dat artikelen in dagbladen. Hier zijn een aantal voorbeelden:

KVR30913.xml: 1 De Telegraaf, 29 januari 2008.
KVR30917.xml: 1 De slag om de Domstad, blz. 80, 81 en 102.
KVR30918.xml: 1 De Limburger, 5 januari 2008.
KVR30921.xml: 1 Internetsite Elsevier, gedateerd 2 januari 2008.
KVR30923.xml: 1 De Pers, 17 december 2007.
KVR30926.xml: 1 http://english.hotnews.ro
KVR30929.xml: 1 Aanhangsel Handelingen, vergaderjaar 2007–2008, nr. 1167.

Een flink deel van de Kamervragen worden binnen een paar dagen na het verschijnen van het bericht gesteld. Het bericht heeft dus nog nieuwswaarde en zou nog gelezen kunnen worden op het internet.

Het is dan aardig om bij het oorspronkelijke bericht aan te geven dat het aanleiding was tot het stellen van een Kamervraag, met een hyperlink naar die vraag. Andersom zou de webversie van de Kamervraag door middel van een hyperlink direct kunnen verwijzen naar het artikel.

Om deze verbanden tot stand te brengen zouden de Kamervragen hun bronvermeldingen moeten voorzien van een URL naar het betreffende artikel. De andere kant op is wat lastiger. Eigenlijk zou elk artikel elke avond moeten nagaan of er die dag een Kamervraag op basis van haar gesteld is. En zo ja, dan past het artikel zich aan. Trots meldt het dat het aanleiding was tot Kamervragen over …, gesteld door …, zie http://…

| lees verder…

Data-extractie uit Kamervragen binnen SGD

Geplaatst op 21-05-2008 door Maarten Marx | data | tags: , | Geen reacties »

Robert Jan de Groot heeft een data-extractie script ontwikkeld om allerlei gegevens uit de Kamervragen expliciet te maken in XML. Het script neemt een KVR.pdf bestand uit Parlando, samen met de daarbij behorende metadata, en zet het om naar 1 XML-bestand. Volledig automatisch worden onder andere de volgende stappen gedaan:

  • data worden herkend en omgezet naar standaard MySQL date-formaat
  • vrager, antwoorder, het onderwerp van de vraag worden herkend en als attributen in de XML weergegeven
  • de vragen en antwoorden worden genummerd in de XML. Het is dus duidelijk welk antwoord bij welke vraag hoort
  • voetnoten worden herkend. De aangehaalde bron in voetnoten wordt geextraheerd.
  • allerlei metadata van de PDF file wordt herkend en opgeslagen (pagina-nummer, vet-nummer, ISSN, etc)

Als voorbeeld is hier een PDF file met een vraag over “De Groene Draeck” samen met de XML-versie. | lees verder…