Helderziende kamerleden

Geplaatst op 20-06-2008 door Marina Lacroix | resultaten | tags: , , | comment image Geen reacties »

In de data die we met de Political Mashup hebben verzameld over de tijd die zit tussen de dag dat een kamervraag is gesteld en de dag waarop het bericht waarnaar de noot behorende bij die vraag verwijst is verschenen, doet zich wat interessants voor. Regeren is vooruitzien, maar we stuiten hier op kamerleden met een wel héél vooruitziende blik. Vrijwel iedere partij stelt zo nu en dan een vraag waarin naar een bron wordt verwezen die een dag of 350 later pas zal verschijnen. Vermoedelijk klopt er dus iets niet in de dataverzameling. | lees verder…

Knettergek in de Tweede Kamer

Geplaatst op 17-06-2008 door Maarten Marx | resultaten | tags: | comment image Geen reacties »

De berichtgeving deed geloven dat met Wilders de term knettergek een intrede in de Tweede Kamer heeft gedaan. Nu de Handelingen en Kamervragen digitaal doorzoekbaar zijn vanuit één plek (over de periode 1984-heden) is het gemakkelijk om hier eens nader naar te kijken.

We vinden 31 plekken waarin knettergek wordt gebruikt: 2 maal schriftelijk in een Kamervraag (2007, 2008, beide van Wilders) en 29 uitspraken in de Tweede Kamer (waarvan 1 door een regeringslid, staatssecretaris Wijn). | lees verder…

Duplicaten in de Polidocs data

Geplaatst op 17-06-2008 door Maarten Marx | data | | comment image Geen reacties »

Zowel bij de kamervragen als in de handelingen kan het voorkomen dat “hetzelfde” document meerdere malen in de resultatenlijst van PoliDocs voorkomt. Ook zijn moties zowel in de Handelingen (als ze worden voorgelezen in de Kamer), als apart in de Moties te vinden.

Dit zijn kinderziektes die wel op te lossen zijn, maar niet helemaal uit te bannen. Dit komt voornamelijk omdat de betekenis van “hetzelfde” niet altijd, ja, …hetzelfde is. Wat voor een mens hetzelfde is, is het vaak niet voor een machine. | lees verder…

De pagina waarnaar u op zoek bent kan helaas niet worden gevonden

Geplaatst op 16-06-2008 door Marina Lacroix | resultaten | tags: | comment image Geen reacties »

Het zou ontzettend handig kunnen zijn: het oog van een kamerlid valt op een bericht in de krant, naar aanleiding daarvan stelt ze een vraag aan een minister en iedereen die wil heeft vervolgens in een mum van tijd de bron van de vraag voor zich liggen. Kranten zijn tegenwoordig immers grotendeels digitaal beschikbaar. Hetzelfde geldt voor oude tv-uitzendingen en radioprogramma’s. Kamerleden blijken inderdaad regelmatig aan het surfen te gaan, maar veel levert het niet op, daarvoor is het internet te vluchtig.

We bekeken 239 kamervragen die in de afgelopen drie maanden zijn verzameld. Daarvan bevatten er 65 een verwijzing naar een website. Ondanks dat het om vrij recente vragen gaat, bleek 51% van de webadressen bij controle een foutmelding op te leveren. Nog eens 11% leidde wel naar een webpagina, maar dat is dan de homepage van de site en niet de pagina waar een bepaald artikel op staat. | lees verder…

Wat lezen onze volksvertegenwoordigers bij het ontbijt?

Geplaatst op 13-06-2008 door Marina Lacroix | resultaten | tags: , , | comment image Geen reacties »

Wij zijn benieuwd naar de manier waarop nieuws en politiek elkaar onderling beïnvloeden. Publiceren bepaalde kranten vaker dan andere over onderwerpen die aanleiding geven tot een debat in de Kamer? En hebben politici vandaag de dag nog aantoonbaar een lievelingskrant?

In veel kamervragen wordt verwezen naar een nieuwsbron, bijvoorbeeld een televisie-uitzending, of een artikel in een krant. Deze bronnen worden als zodanig herkend door de Political Mashup en dat maakt het eenvoudig er allerlei vragen over te stellen. We lieten de Political Mashup voor elke partij het percentage vragen tellen dat refereerde aan een stuk in De Telegraaf. In de resultaten is duidelijk te zien dat linkse partijen vele malen minder naar de krant van wakker Nederland verwijzen dan rechtse partijen, die voor tot een derde van hun vragen inspiratie uit De Telegraaf haalden. | lees verder…

SGD OCR perikelen deel 2

Geplaatst op 11-06-2008 door Maarten Marx | data | tags: , | comment image Geen reacties »

Voor de tweede batch kamerstukken die beschikbaar zijn bij de SGD lijkt er een nieuw OCR programma gebruikt. Dit heeft voor- en nadelen. Iets wat opvalt bij het herkennen van sprekers is dat in stukjes tekst die vet gedrukt zijn alle letters vaak worden gescheiden door spaties. Maar dit gebeurt ook niet altijd!. Hier staan wat voorbeelden op basis van de volgende files:
De file SG_HAN0000114252.xml is met behulp van het programma pdftohtml -xml verkregen uit de file SG_HAN0000114252.pdf.
Het is niet zo heel moeilijk deze OCR-foutjes te verbeteren, althans wat betreft de namen. De file SG_HAN0000114252MASHUP.xml is onze XML versie van de PDF waarin de foutjes verbeterd zijn. Dit is de file die op www.polidocs.nl getoond wordt.
| lees verder…

Visualisatie van de debatstructuur

Geplaatst op 11-06-2008 door Maarten Marx | data | tags: | comment image Geen reacties »

Nu de Handelingen mooi beschikbaar zijn in XML leek het doenlijk om te proberen om de structuur van een debat te visualiseren. We wilden een abstractie maken van een debat die in de meeste gevallen op 1 regel past. We hebben als visualisatie analogie de bekende hartpuls-grafiek genomen. Bij ons is dan elke puls een spreker, en de sterkte van de uitslag wordt bepaald door de lengte van de “spreekbeurt”. | lees verder…

Data deduplicatie

Geplaatst op 04-06-2008 door Maarten Marx | data | tags: , , | comment image Geen reacties »

Binnen Handelingen die beschikbaar zijn via Parlando en KB-SGD worden dezelfde entiteiten (personen, partijen) vaak op verschillende manieren gespeld. Dit maakt het natuurlijk erg moeilijk om alle gegevens van 1 entiteit netjes bij elkaar te zetten. De verschillende spellingswijzen komen door

  • OCR-foutjes (data voor 1995)
  • type-fouten
  • veranderende namen en wisselende conventies | lees verder…