Wie zegt wat en wanneer in het Nederlandse Parlement?

Geplaatst op 25-03-2011 door Maarten Marx | data, parliament | tags: | comment image Geen reacties »

PoliticalMashup heeft een database beschikbaar gemaakt met daarin alle woorden gezegd door elke politicus in het Nederlandse parlement in de periode 1814-2010. Per politicus zijn per dag al zijn of haar uitgesproken teksten beschikbaar.
Het gaat om mensen die of in het Nederlandse Parlement of in de regering hebben gezeten. Dit zijn allemaal mensen die voorkomen op parlement.com.
De gegevens zijn gehaald uit de Handelingen in XML formaat zoals die gemaakt zijn door PoliticalMashup.
De data is beschikbaar op http://data.politicalmashup.nl/politici/nl_words/.

Data formaat

De data is als volgt opgeslagen. Voor elke persoon is er een file XXXXX.tsv, waarbij XXXXX het nummer is waaronder die persoon bij parlement.com bekend is.
Als voorbeeld geven we 00060, het nummer van Marcus Bakker. Zijn biografie is te vinden op http://www.parlement.com/9291000/biof/00060. Via deze URL is elk nummer te koppelen aan een biografie.

Elk persoon heeeft een tab separated value (tsv) file. Dit is een formaat dat eenvoudig in spreadsheet programmas als Excel of OpenOffice te importeren is. De file bestaat uit vier kolommen:

  • PDC nummer
  • Datum in ISO formaat jjjj-mm-dd
  • Hyperlink naar de bron
  • Alle tekst gesproken door de persoon op de aangegeven dag

De eerste regel van 00060.tsv heeft de volgende vier waardes:

Mijnheer de Voorzitter! Het is met grote vreugde en voldoening, dat mijn fractiegenoten en ik gisteren de berichten over de radio hebben gehoord, die mededeelden, dat de Franse, Engelse en IsraĆ«lische Regeringen hebben moeten bukken voor de vredelievende krachten in de wereld en binnen enkele weken hun troepen uit Egypte terug zullen trekken. Het geweeklaag van sommige leiders van de bourgeoisie en ook van de P.v.d.A., die zulke vurige voorstanders van het Portsaidse fosforvuurwerk waren, heeft deze vreugde bepaald niet verminderd. […]

In totaal bevat 00060.tsv 1190 regels (dus teksten van 1190 dagen) met in totaal 1.6 miljoen woorden en is 9.8MB groot.

Voor de oude data is http://www.parlement.com/9291000/biof/00738 de winnaar met meer dan 3.5 miljoen woorden. Op de nieuwe data is dat http://www.parlement.com/9291000/biof/02207 met bijna 1.7 miljoen woorden.
Maar er zijn natuurlijk politici die zowel in het digitale als het geOCRde tijdperk actief waren, zoals, 02682. Tellen we de woorden uit zijn beide bestanden bij elkaar op dan komen we op bijna 4.5 miljoen!

Grootte van de collectie

De collectie bestaat uit twee delen: 1995-2010 en 1814-1995. Het verschil bestaat uit de periode waaruit de teksten komen en daarmee de bron. Het moderne materiaal was digitaal beschikbaar. De teksten zijn dus digitaal overgenomen. Het oudere matariaal is ingescand in het statengeneraaldigitaal.nl project en bevat dus OCR-foutjes.

De totale collectie is 4.1GB groot, bevat teksten van 3356 personen, met in totaal bijna 600 miljoen woorden.

1814-1995 1995-2010
Grootte 3.5G 597M
Aantal personen 2601 755
Aantal woorden 585.148.999 100.316.552
Aantal regels 307.218 89.598

Onderscheid tussen de twee delen van de collectie

Er is één verschil tussen de twee delen van de collectie. Na 1995 bevat elke regel in een file alle woorden gezegd door één persoon in één debat gehouden op de aangegeven dag. Er kunnen dus meerdere regels zijn met dezelfde datum. Voor 1995 komt dit niet voor.
Voor beide delen geldt dat als een debat op meerdere dagen wordt gehouden, de teksten over die dagen verspreid zijn.

Een persoon kan in beide periodes politiek actief zijn geweest. Dan heeft die politicus twee bestanden met dezelfde naam, in elke periode een. Een voorbeeld is 02682, Bas van der Vlies.

Reageer

Je moet ingelogd zijn om te kunnen reageren.