Bevrijde Woorden

Geplaatst op 02-02-2011 door Maarten Marx | parliament | tags: | comment image Geen reacties »

Van Document- naar Persoonsgerichte ontsluiting van de Handelingen der Staten Generaal

Bron: Dixit December 2010.

Sinds eind 2010 zijn de volledige Handelingen der Staten-Generaal (vanaf 1814) digitaal beschikbaar. En wel gratis, vrij van rechten, en vanuit elke woonkamer via www.statengeneraaldigitaal.nl, een samenwerking tussen de Koninklijke Bibliotheek en de Staten-Generaal. In dit artikel bespreken we een klein, maar wel bekend deel hiervan; de notulen van de vergaderingen in de Grote Zaal.

Dit databestand is een uniek cultureel erfstuk dat een feest is om te lezen en in te grasduinen. Als geheel is het ook een bijzondere tijdsreeks van metingen, in kwaliteit en kwantiteit vergelijkbaar met de metingen van het KNMI. Echter, dit zijn sociale in plaats van fysische gegevens. Van elke vergadering is een woordelijk verslag gemaakt, opgeslagen volgens een vrijwel onveranderd datamodel. Er is dus een enorme geordende reeks van goed vergelijkbare meetpunten, een ideale situatie voor historisch vergelijkend onderzoek.

Omdat de Handelingen nu digitaal beschikbaar zijn wordt het mogelijk om uiteenlopende vraagstukken met behulp van computers op te lossen. Bijzonder aantrekkelijk zijn conceptueel simpele en gemakkelijk te operationaliseren vragen die nu nog alleen met een enorme hoeveelheid manuren beantwoord zouden kunnen worden.

Drie voorbeelden:

  • Verruwing. Het taalgebruik in de Kamer zou veel ruwer geworden zijn. Is dat echt zo? Welke partijen zijn nu en waren in het verleden verantwoordelijk voor dat ruwe taalgebruik, en wat voor verschuivingen zien we daar in?
  • Glazen Plafond. Hoe verschilt de politieke loopbaan van vrouwelijke en mannelijke kamerleden? Zijn ze evenveel aan het woord? Groeit hun carrière even snel? Is daar verandering in gekomen sinds het aantal vrouwen in de Kamer zo sterk is toegenomen?
  • Agenda setting. Immigratie is een vaak terugkerend onderwerp geworden in de Kamer. Het wordt nu vooral als een sociaal probleem gezien terwijl het vroeger veel meer een als een economisch onderwerp beschouwd werd. Wanneer is dat nieuwe perspectief ontstaan? Wie begon ermee? In welke volgorde namen de andere partijen dat over?

In al deze vragen spelen de tijd en de politieke actoren (politici en partijen) een cruciale rol: dat zijn de twee dimensies waarlangs de te onderzoeken variabele gevolgd wordt. De waarde op die variabele kan dan worden bepaald op basis van de tekst in de notulen. De manier waarop kan variëren van simpel woordjes tellen tot volledige zinsontleding. Hoe die waardes precies gevonden worden is voor dit artikel niet van belang. We kijken hier naar de noodzakelijke technische voorwaarden om die waardebepaling überhaupt machinaal uit kunnen te voeren.

Van document- naar persoonsgerichte ontsluiting

De Handelingen werden en worden geproduceerd om door mensen gelezen te worden en volgen een eenvoudig chronologisch datamodel. De nu digitaal beschikbare documenten wijken daar niet veel van af. Elk document bevat de notulen van één gehele dag, samen met waardes op een stuk of tien metadata velden (de datum,om welke kamer het gaat, etc). Zowel de metadata als de tekst van de notulen is doorzoekbaar. Het antwoord op een zoekvraag is altijd een lijst documenten. We noemen dit document-gericht ontsluiten. De toegang tot de collectie wordt bepaald door de manier van opslaan, en er is slechts één wijze van toegang en één soort antwoord mogelijk (altijd een heel document).

Het kan ook anders. Wanneer de notulen nader bekeken worden, valt er meteen iets op: van elk woord is bekend wie het gezegd heeft, van welke partij diegene is, in welke rol gesproken wordt, en zelfs vanaf welke plek het gezegd is (de spreekstoel, de regeringstafel, of de interruptiemicrofoon). Deze informatie is jammer genoeg alleen impliciet, verstopt in opmaak en conventies, aanwezig. Voordat je een computer kan vragen om “alle zinnen gesproken door Ina Brouwer als CPN kamerlid” zal die impliciete structuur eerst expliciet gemaakt moeten worden. En wat zou het leuk zijn als je die vraag verder kan vernauwen tot die woorden die ze richtte tot bijvoorbeeld Ruud Lubbers. (Wikipedia [1] vermeldt dat Lubbers haar wel eens Mevrouw Bakker heeft genoemd en dat heeft moeten bekopen met een doos bonbons. Wat is er toen precies gezegd?)

Dit is wat we bedoelen met persoons-gerichte ontsluiting. Dezelfde data kan nu opeens vanuit een heel ander perspectief bekeken worden. Het antwoord op een zoekvraag bij document-gericht ontsluiten is altijd een selectie van een of meer documenten. Het antwoord bij persoonsgericht ontsluiten is veel specifieker. We kunnen nu vragen naar de betogen van bepaalde politici, of de interrupties van politicus X op politicus Y. Als we eenmaal elk woord aan de juiste spreker hebben gekoppeld, en de sprekers aan een externe biografische database (bijvoorbeeld die van www.parlement.com), dan kunnen we beginnen met ons onderzoek.

Een mooi voorbeeld van wat dan mogelijk wordt is de zogenaamde interruptiegraaf hierboven, gemaakt door Rianne Kaptein [2]. Het plaatje geeft een overzicht van de interrupties tijdens het debat over de bezuinigingen op het Hoger Onderwijs in de Tweede Kamer op 19 Januari 2011. Deze graaf heeft de vorm van een sociaal netwerk. De knopen zijn de sprekers in dat debat. Er loopt een pijl van A naar B, als A persoon B heeft geïnterrumpeerd. Hoe vaker A persoon B heeft onderbroken, hoe dikker de pijl. Let wel, op deze vergaderdag zijn er honderden sprekerswisselingen geweest. Het is mogelijk dit met de hand te maken, maar dat is een vervelende en arbeidsintensieve klus. Figuur 1 is volledig automatisch gegenereerd; hetzelfde algoritme kan toegepast worden op elke andere willekeurige vergadering. NRC Handelsblad plaatste onlangs interruptiegrafen van de debatten over de regeringsverklaring.

In landen met een districtenstelsel is het natuurlijker om politieke informatie persoonsgericht te ontsluiten. De website www.theyworkforyou.com doet dit op een zeer inzichtelijke manier voor het Verenigd Koninkrijk. Een voorbeeld dichter bij huis is www.pentapolitica.nl. Hier krijgt men voor elke Nederlandse politicus een overzicht van al zijn of haar sociale media uitingen (blogposts, Tweets, Youtube filmpjes, etc).

In een samenwerking tussen de Universiteit van Amsterdam, de Koninklijke Bibliotheek en de Dienst Informatievoorziening van de Tweede Kamer wordt deze transformatie naar persoonsgerichte ontsluiting van de notulen gemaakt en zal eind 2010 afgerond zijn. Daarmee wordt het beantwoorden van genoemde en andere onderzoeksvragen mogelijk, makkelijk, en hopelijk ook een stuk leuker om te doen.

Meer informatie over dit en andere projecten waarin politieke data makkelijk toegankelijk wordt gemaakt is te vinden op www.politicalmashup.nl.

[1] http://nl.wikipedia.org/wiki/Ina_Brouwer

[2] Rianne Kaptein, Maarten Marx, Jaap Kamps: Who said what to whom?: Capturing the structure of debates. Proceedings SIGIR 2009: 831-832.

Reageer

Je moet ingelogd zijn om te kunnen reageren.