Heel veel woorden uit het Parlement

Geplaatst op 11-10-2012 door Maarten Marx | parliament, trivia | tags: | comment image Geen reacties »

Politici zijn erg creatief in hun taalgebruik. Een leuke vraag is dus

Hoeveel verschillende woorden zijn er uitgesproken in de Tweede Kamer sinds 1814?

Het jaar 1814 is gekozen omdat er vanaf dat moment zogenaamde Handelingen der Staten Generaal beschikbaar zijn.
Het antwoord is een gigantisch aantal: 2.773.826. Echter dit wordt nogal vertekend omdat de teksten zijn ingescand en de letters automatisch zijn herkend (OCR). Dit levert nogal wat fouten op. Maar kijken we naar het aantal woorden dat minstens 2 keer voorkomt, dan hebben we er nog steeds heel erg veel: 992.291, bijna 1 miljoen.
Deze woorden zijn allemaal te vinden met de politieke ngram viewer die PoliticalMashup en Dispectu BV samen hebben ontwikkeld.
| lees verder…

XPadje: allitererende volksvertegenvoordigers

Geplaatst op 28-12-2010 door Maarten Marx | trivia, XPath | tags: | comment image Geen reacties »

Vele vreemde volksvertegenwoordigers proberen te allitereren. In de wandelgangen schijnen geruchten te gaan dat volksvertegenwoordigers meer allitereren dan gewone stervelingen. NRC Next vroeg ons dit uit te zoeken, en een “Heerlijk Helder Heineken” query te schrijven.

In eerste instantie hebben we gezocht naar stukjes tekst met minstens drie woorden beginnend met dezelfde letter, maar dat leverde te veel hits op. In de resultaten hieronder zijn dus alleen de alliteraties van minstens 4 woorden meegenomen.
Hier zijn een aantal van de langste (6):

documenteren dan degenen die denken dat
dat de doelstellingen die door de
de draden die door dit debat
dat degenen die daar de directie
wij willen wel weten waarop we
van voorwaartse verrekening van verliezen van
dat deel daarvan dat door de

| lees verder…

Kerstgedachte in de Handelingen

Geplaatst op 20-12-2010 door Maarten Marx | parliament, trivia | | comment image Geen reacties »

Met Kerst denkt men aan …, nou ja, eh, liefde, en kerstbomen en wild natuurlijk.
Wij waren benieuwd wat voor associaties nou bij die begrippen opkomen als politici het daar in de Tweede Kamer over hebben. Om dit te bepalen hebben we wat simpele taaltechnologie toegepast.
We hebben eerst alle voorkomens van de begrippen in de Handelingen opgezocht met onze Handelingen zoekmachine. Daarna hebben we de 4-5 woorden links en rechts van het zoekwoord uit de Handelingen gevist en die allemaal achter elkaar geplakt. Tenslotte is dat in Wordle gestopt.

Een van de meest opvallende woorden is wel tikkeltje.
Hieronder de resultaten. Klikken op de wolk brengt je naar een grotere versie.

Zalig Kerstmis.

Wordle: liefde30metliefde Wordle: wild30

Verzameling maidenspeeches

Geplaatst op 13-10-2010 door Maarten Marx | onderwijs, research, trivia, Uncategorized | | comment image Geen reacties »

Binnen het PoliticalMashup project hebben we een verzameling maidenspeeches uit de Eerste en Tweede Kamer aangelegd. Volgens Wikipedia:

A maiden speech is the first speech given by a newly-elected member of a legislature or parliament.

In de Notulen van januari 1995 tot en met de zomer van 2010 hebben we 280 maidenspeeches gevonden.

Het plaatje hieronder bevat een speciale woordenwolk van alle maidenspeeches van één partij. De worden in de wolk zijn gekozen omdat ze heel erg het speciale van maidenspeeches van deze partij in vergelijking met die van andere partijen uitdrukken. De wolk is gemaakt door Rianne Kaptein en gebaseerd op haar werk samen met Jaap Kamps en Djoerd Hiemstra over woordenwolken.

Enig idee tot welke partij de sprekers van deze maidenspeeches behoren?

| lees verder…

Twitter en de verkiezingen

Geplaatst op 27-05-2010 door Bart de Goede | Political Mashup, trivia | tags: , , , | comment image Geen reacties »

PoliticalMashup verzamelt onder meer tweets die over de politiek gaan. In navolging van de Volkskrant heeft ook PoliticalMashup geteld hoe vaak er getweet is op de dag van  de debatten van 23 en 26 mei. De cijfers:

Cijfers 23 mei 26 mei
Aantal tweets over de hele dag 36.571 50.997
Tweets gedurende het debat 4.812 8.857
Unieke gebruikers 10.142 16.362
RTLdebat/Carredebat genoemd 12.375 14.762

Het gaat hierbij om de aantallen tweets over de politiek (tweets waarin partijnamen of lijsttrekkernamen voorkomen). Het kan dus zijn dat het aantal keer dat ‘rtldebat’ genoemd is, lager uitvalt, omdat mensen wel over het debat getweet hebben, maar zonder  een partij of lijsttrekker te noemen.

De grafiek geeft weer hoeveel tweets met een bepaald trefwoord zijn gedaan op een bepaalde datum. Interessant om op te merken is dat bij de tweede piek (die het Carrédebat weergeeft) veel meer partijen en personen ‘meegetrokken worden’, waarschijnlijk omdat aan dat debat meer lijsttrekkers hebben meegedaan dan aan het lijsttrekkersdebat van 23 mei.

Aantal tweets per trefwoord, door de tijd heen.

In tegenstelling tot bijvoorbeeld Stemr.nl, wordt gekeken of de tweet in kwestie de naam van een partij of lijsttrekker bevat. Stemr heeft ervoor gekozen om enkel op hashtags van de afkortingen van politieke partijen (bijvoorbeeld #pvda) te filteren. Door niet uit te gaan van een hashtag (en meer trefwoorden te gebruiken), zijn we in staat veel meer data te verzamelen (enkele duizenden tweets per dag, tegenover een paar honderd). Vooralsnog gaan we echter alleen maar uit van aantallen, en beoordelen we niet op sentiment, zoals Stemr wel doet.

Fox Annual Event 2010 Photo and Program

Geplaatst op 26-04-2010 door Maarten Marx | Political Mashup, trivia | tags: | comment image Geen reacties »

The Annual Fox Event in 2010 takes place in Amsterdam from May 10 until May 12.


| lees verder…

What leads to applause?

Geplaatst op 14-04-2010 door Maarten Marx | trivia | tags: | comment image Geen reacties »

People keep on asking us what the use is of all that parliamentary data in XML. Easy! There are so many applications. Consider the following: one can learn how to write good speeches.
Everyone wants to receive applause, so we created a query which collects all paragraphs after which the audience starts to applaud. These must contain important words!
As we did not want too much data, we choose a speaker who gets lots of applause: Mr Barosso. 46% of his speeches in the European Parliament receive applause.

The query we sent to our database is easy:

(: all paragraphs of speeches by Barroso immediately preceding 
       applause concatenated into a string : )
string-join(
   collection('/db/euparliament/data/EN')
     //speech[contains(@speaker,"Barroso")]  (: only speeches by Barroso : )
       //p[contains(.,"(Applause)")]                (: find paragraphs containing Applause : )
         /preceding-sibling::p[1],                    (: get the preceding paragraph : )
   ' '
             )

The result, when summarized using Wordle, is rather dissapointing….just a bunch of modal verbs and words referring to his audience…..
Or maybe that is the secret of getting applause?

Wetenschap in kunstwerk

Geplaatst op 03-04-2010 door Maarten Marx | trivia | tags: | comment image Geen reacties »

Een heel oud artikel van Maarten Marx en Carlos Areces is gebruikt in een kunstwerk dat op dit moment ten toon wordt gesteld in New York.

| lees verder…

De lengte van een gemiddelde Kamerdag

Geplaatst op 22-04-2009 door Maarten Marx | trivia | tags: , | comment image Geen reacties »

We wilden de volgende vraag beantwoorden:

Hoeveel woorden worden er gemiddeld op een hele dag in een vergadering van de Tweede Kamer gezegd?

We hebben daarvoor 6 jaar aan verslagen bij StatenGeneraalDigitaal opgehaald, van 1980 tot en met 1985. Dit zijn 843 vergaderdagen in totaal, gemiddeld 140 per jaar. Deze files nemen 13.6 GigaByte in beslag. Je kan dus net geen half jaar kwijt op een standaard 1GB USB stick.

In totaal bevatten al deze verslagen bijna 43 millioen woorden. Er staan dus gemiddeld per dag 51 duizend woorden in. In deze telling zijn alle woorden meegeteld en dus ook de kopjes boven iedere pagina, de namen van de leden en hun partij, en andre kleine aanwijzingen. Maar dit is niet meer dan 1-2 % van alle woorden. Een willekeurig voorbeeld is de vergadering van 21 Mei, 1968.

En hoe lang duurt dat dan?

Volgens [1] worden audioboeken het best met 150-160 woorden per minuut uitgesproken. Dit zou betekenen dat het voorlezen van een gemiddelde vergadering 340 minuten, en dus meer dan vijf en een half uur duurt.

  • [1] Williams, J. R. (1998). Guidelines for the use of multimedia in instruction, Proceedings of the Human Factors and Ergonomics Society 42nd Annual Meeting, 1447–1451.