Visualisatie van de debatstructuur

Geplaatst op 11-06-2008 door Maarten Marx | data | tags: | 3 reacties »

Nu de Handelingen mooi beschikbaar zijn in XML leek het doenlijk om te proberen om de structuur van een debat te visualiseren. We wilden een abstractie maken van een debat die in de meeste gevallen op 1 regel past. We hebben als visualisatie analogie de bekende hartpuls-grafiek genomen. Bij ons is dan elke puls een spreker, en de sterkte van de uitslag wordt bepaald door de lengte van de “spreekbeurt”. | lees verder…

Data deduplicatie

Geplaatst op 04-06-2008 door Maarten Marx | data | tags: , , | 1 reactie »

Binnen Handelingen die beschikbaar zijn via Parlando en KB-SGD worden dezelfde entiteiten (personen, partijen) vaak op verschillende manieren gespeld. Dit maakt het natuurlijk erg moeilijk om alle gegevens van 1 entiteit netjes bij elkaar te zetten. De verschillende spellingswijzen komen door

  • OCR-foutjes (data voor 1995)
  • type-fouten
  • veranderende namen en wisselende conventies | lees verder…

Data-extractie uit Kamervragen binnen SGD

Geplaatst op 21-05-2008 door Maarten Marx | data | tags: , | Geen reacties »

Robert Jan de Groot heeft een data-extractie script ontwikkeld om allerlei gegevens uit de Kamervragen expliciet te maken in XML. Het script neemt een KVR.pdf bestand uit Parlando, samen met de daarbij behorende metadata, en zet het om naar 1 XML-bestand. Volledig automatisch worden onder andere de volgende stappen gedaan:

  • data worden herkend en omgezet naar standaard MySQL date-formaat
  • vrager, antwoorder, het onderwerp van de vraag worden herkend en als attributen in de XML weergegeven
  • de vragen en antwoorden worden genummerd in de XML. Het is dus duidelijk welk antwoord bij welke vraag hoort
  • voetnoten worden herkend. De aangehaalde bron in voetnoten wordt geextraheerd.
  • allerlei metadata van de PDF file wordt herkend en opgeslagen (pagina-nummer, vet-nummer, ISSN, etc)

Als voorbeeld is hier een PDF file met een vraag over “De Groene Draeck” samen met de XML-versie. | lees verder…

Verwijzingen in kamervragen naar het nieuws

Geplaatst op 19-05-2008 door Maarten Marx | data | | Geen reacties »

In Kamervragen wordt er regelmatig in de eerste vraag verwezen naar een artikel in de media. De verwijzingen zijn niet zo heel erg precies, maar waarschijnlijk is er wel voldoende informatie om automatisch met zeer grote precisie en recall het bewuste artikel terug te kunnen vinden in een nieuwsdatabase als Lexis-Nexis, Google news, of EMM Newsexplorer. De informatiebehoefte die we hier willen vervullen staat bekend als known item search.

Hier volgen twee voorbeelden:

KVR31902.pdf bevat de volgende informatie:

Kent u het bericht "Europese varkenshouders roepen om einde GGO-verbod"?1
(1) Agrarisch Dagblad, 28 maart 2008.

De metadata toegevoegd door de griffie bevat deze informatie: | lees verder…

Bronverwijzingen in Kamervragen

Geplaatst op 09-05-2008 door Maarten Marx | data | | 3 reacties »

Kamervragen verwijzen naar allerlei bronnen: nieuws op tv, in de krant, op internet; naar andere kamerstukken, van alles.
We maken hier een steekproef van 344 Kamervragen gepubliceerd op Parlando tussen 26/02/2008 en 08/05/2008 beschikbaar. Het eerste veld verwijst naar de filenaam waarin de vraag gepubliceerd is, het tweede veld bevat de verwijzing zoals we die in de voetnoten kunnen vinden. De file bevat extractie foutjes. Data file

Peilend.nl Reacties op het nieuws

Geplaatst op 14-04-2008 door Maarten Marx | data | | Geen reacties »

Sinds November 2006 vergaart peilend.nl de reacties van het publiek op nieuwsartikelen uit online nieuwsbronnen en laat zien waarop veel gereageerd wordt en hoe. Populaire onderwerpen zijn de islam, ziektes, voetbal en individuele politici. Reacties op het nieuws zijn user-generated content, materiaal op het web wat daar geplaatst is door gewone gebruikers. Als databron kunnen ze gebruikt worden om real-time de impact van een gebeurtenis vast te stellen, maar ook terugblikkend om trends en veranderingen in de publieke opinie te meten.

Peilend.nl biedt de mogelijkheid heel gerichte vragen te stellen. Het antwoord op “geef de top 20 van de stellingen uit de NRC die het meest commentaar opleverden”, laat een scala van onderwerpen zien met als duidelijke winnaar Moet de islam deel worden van de Nederlandse cultuur?. | lees verder…

Reacties op Geert Wilders

Geplaatst op 04-04-2008 door Maarten Marx | data | | Geen reacties »

ILPS maakt een dataset beschikbaar over entiteiten (personen, organisaties, locaties, soms begrippen) die worden genoemd in reacties op online nieuwsartikelen over Geert Wilders. De nieuwsartikelen komen uit de periode april 2007 tot februari 2008 en uit de online versies van AD, NRC, Telegraaf en Trouw.

In de data wordt beschreven welke entiteiten genoemd worden in welke reacties en in welke artikelen, en welke reacties bij welke artikelen horen. | lees verder…

latere stukken »