Bestand met Nederlandse Kamervragen

Geplaatst op 07-03-2012 door Maarten Marx | data, parliament | tags: | comment image Geen reacties »

Vier destijds eerstejaars Informatiekunde studenten aan de Universiteit van Amsterdam hebben een project gedaan over de Nederlandse Kamervragen. Het idee was om een overzicht te bieden van alle Kamervragen gesteld sinds 1975. Het project verwaterde door verschillende redenen en is toen door ze stopgezet.

Er is blijkbaar toch nog vraag naar de data, en Bart de Goede heeft een bestand beschikbaar gemaakt. Het gaat om de Kamervragen sinds 1995, het deel wat beschikbaar was op destijds Parlando, en nu op https://zoek.officielebekendmakingen.nl
. Dit archief kampt met volledigheidsproblemen, en ook was het in de tijd van Parlando zeer moeilijk om een kopie van de data bij Parlando te maken. Er kunnen dus Kamervragen missen.

De belangrijkste toevoeging van de studenten, Bart de Goede, Lisa Koeman, Haska Steltenpohl en Justin van Wees, is de normalisatie van namen en de verbinding met de biografie database van het Parlementair Documentatie Centrum (PDC). Omdat verschillende schrijfwijzes van een naam er niet meer toe doen, en ambiguiteit (J. van Dijk van de SP versus JJ van Dijk van het CDA) is uitgesloten door de naamsnormalisatie is het erg eenvoudig om alle vragen per steller te groeperen.

Korte beschrijving van de dataset

Bijgevoegd vind je een zip met daarin twee files; kamervragen.csv en kamervragen.xls. Je zou ze allebei in Excel moeten kunnen openen; mocht dat niet zo zijn, laat me iets weten.

De tabel heeft acht kolommen en zo’n 35.000 rijen; alle kamervragen uit onze database na 1995; nogmaals, ik durf geen uitspraken te doen over de volledigheid van die database. De kolommen bevatten de volgende gegevens:

kamervraag_id: dit is een unieke identifier voor een kamervraag. Omdat een kamervraag door meerdere personen gesteld kan worden, kunnen die meer dan eens voorkomen; een rij voor elke (geïdentificeerde) ondertekenaar in de vraag.
datum: dit is de datum waarop de vraag gesteld is, niet beantwoord
vrager_pdc_id: dit is een unieke identifier voor een persoon
vrager_naam: om het een en ander leesbaar te houden (:-)), de achternaam van de vraagsteller
vrager_partij: de partij waartoe de vraagsteller op moment van vragen toe behoorde
antwoorder_pdc_id: unieke identifier voor de antwoorder
antwoorder: een iets leesbaarder formaat voor de antwoorder
antwoorder_partij: partij waartoe de antwoorder op moment van antwoorden toe behoorde

Voor zover ik kan zien zijn de vraagstellers en ‘hun’ partijen compleet, maar dat geldt zeker niet voor de antwoorders. De data is gebaseerd op de vragen, en vraag 2070816350 (rij 25 in de spreadsheet) wordt gesteld aan antwoorder 02202, die de minister van Justitie is. Echter, persoon 02202 is Nebahat Albayrak, toen de staatssecretaris van Justitie. Het komt dus voor dat vragen door iemand anders beantwoord worden dan degene aan wie ze gesteld wordt. Ook is niet voor ieder antwoord de persoon ge├»dentificeerd. Je zou kunnen proberen de datum van de vraag aan de functie van de persoon te koppelen, en zo de persoon achterhalen.

De identifiers voor personen komen bij PDC vandaan, en als je een identifier zou willen controleren (zoals in het voorbeeld Albayrak), kan je de identiteit van de persoon achterhalen door de onderstaande link in je browser te plakken, en de laatste vijf cijfers te vervangen door het pdc_id van de persoon in kwestie.
http://www.parlement.com/9291000/bio/02202

Reageer

Je moet ingelogd zijn om te kunnen reageren.