Politieke toespraken

Geplaatst op 23-05-2008 door Maarten Marx | Political Mashup | tags: | comment image Geen reacties »

Door middel van twee projecten is ILPS bezig met toespraken

  • Op de Troonrede zoekmachine kan je diachronisch zoeken en vergelijken in de troonredes.
  • ISLA TV is een zoekmachine in videos van wetenschappelijke voordrachten die video, audio en slides combineert. Het archief wordt doorzoekbaar gemaakt door middel van spraakherkenning en de tekst op de slides. De zoekmachine geeft entry points in videos terug. Je hoeft dus niet de hele video af te kijken. | lees verder…

Data-extractie uit Kamervragen binnen SGD

Geplaatst op 21-05-2008 door Maarten Marx | data | tags: , | comment image Geen reacties »

Robert Jan de Groot heeft een data-extractie script ontwikkeld om allerlei gegevens uit de Kamervragen expliciet te maken in XML. Het script neemt een KVR.pdf bestand uit Parlando, samen met de daarbij behorende metadata, en zet het om naar 1 XML-bestand. Volledig automatisch worden onder andere de volgende stappen gedaan:

  • data worden herkend en omgezet naar standaard MySQL date-formaat
  • vrager, antwoorder, het onderwerp van de vraag worden herkend en als attributen in de XML weergegeven
  • de vragen en antwoorden worden genummerd in de XML. Het is dus duidelijk welk antwoord bij welke vraag hoort
  • voetnoten worden herkend. De aangehaalde bron in voetnoten wordt geextraheerd.
  • allerlei metadata van de PDF file wordt herkend en opgeslagen (pagina-nummer, vet-nummer, ISSN, etc)

Als voorbeeld is hier een PDF file met een vraag over “De Groene Draeck” samen met de XML-versie. | lees verder…

Verwijzingen in kamervragen naar het nieuws

Geplaatst op 19-05-2008 door Maarten Marx | data | | comment image Geen reacties »

In Kamervragen wordt er regelmatig in de eerste vraag verwezen naar een artikel in de media. De verwijzingen zijn niet zo heel erg precies, maar waarschijnlijk is er wel voldoende informatie om automatisch met zeer grote precisie en recall het bewuste artikel terug te kunnen vinden in een nieuwsdatabase als Lexis-Nexis, Google news, of EMM Newsexplorer. De informatiebehoefte die we hier willen vervullen staat bekend als known item search.

Hier volgen twee voorbeelden:

KVR31902.pdf bevat de volgende informatie:

Kent u het bericht "Europese varkenshouders roepen om einde GGO-verbod"?1
(1) Agrarisch Dagblad, 28 maart 2008.

De metadata toegevoegd door de griffie bevat deze informatie: | lees verder…

Bronverwijzingen in Kamervragen

Geplaatst op 09-05-2008 door Maarten Marx | data | | comment image Geen reacties »

Kamervragen verwijzen naar allerlei bronnen: nieuws op tv, in de krant, op internet; naar andere kamerstukken, van alles.
We maken hier een steekproef van 344 Kamervragen gepubliceerd op Parlando tussen 26/02/2008 en 08/05/2008 beschikbaar. Het eerste veld verwijst naar de filenaam waarin de vraag gepubliceerd is, het tweede veld bevat de verwijzing zoals we die in de voetnoten kunnen vinden. De file bevat extractie foutjes. Data file

Verbonden Bronnen: Kamervraag-nieuwsartikel-reacties daarop

Geplaatst op 09-05-2008 door Maarten Marx | Political Mashup | | comment image Geen reacties »

In de kamervraag kvr31000.pdf wordt via een URL verwezen naar het volgende artikel in de Telegraaf, waar weer 163 reacties op verschenen zijn. Het is trouwens zo dat als we de URL volgen die genoemd wordt in de Handelingen, we slechts een print versie van het artikel te zien krijgen, en al die mooie reacties missen. Een mooi voorbeeld van verbonden bronnen: kamerstukken–nieuws–reacties. Een copie van het Telegraaf artikel gemaakt op 9 Mei staat in deze zip file. Jammer genoeg heeft de Kamervraag geen permalink, en moeten we die hier copieren.

Via Twingly wordt deze blogpost weer getoond bij het Telegraaf artikel.

Trouwens, de gegeven links zijn na verloop van tijd niet altijd even zinvol: zo linkt deze kamervraag naar een mooi overzichtsmenu, maar waar nou precies naar verwezen wordt blijft een raadsel.