De kenmerkende woorden voor elke bewindslid

Geplaatst op 25-09-2013 door Maarten Marx | data, ODE, parliament | tags: | comment image Geen reacties »

In samenwerking met Vrij Nederland heeft PoliticalMashup voor elk lid uit het Kabinet Rutte II de meest kenmerkende woorden bepaald. We hebben gekeken naar werkwoorden, zelfstandige en bijvoegelijke naamwoorden.
Als voorbeeld hieronder die van Staatssecretaris Teeven. Klik op het plaatje om naar een grotere versie te gaan.
Wordle: teeven-nouns Wordle: teeven-werkwoorden Wordle: teeven-adjectief

De woorden zijn gebaseerd op de woorden uitgesproken door de kabinetsleden in de Eerste en Tweede Kamer in de periode vanaf 5 November 2012 tot aan het zomerreces van 2013.
Alle teksten zijn ontleed, de woordsoorten zijn benoemd en elk woord is vervangen door het bijbehorende lemma (dus alle werkwoordvervoegingen worden teruggebracht naar het volledige werkwoord, meervoud wordt vervangen door enkelvoud, etc).
De lijst per bewindslid laat de top 20 woorden zien die dat bewindslid het meest onderscheiden van de andere bewindsleden in die periode.
Per bewindslid geven we lijsten voor de gebruikte werkwoorden, zelfstandige naamwoorden en bijvoegelijke naamwoorden. De gegevens zijn beschikbaar in csv formaat op Google Fusion Tables. De getallen achter de woorden geven de mate van kenmerkendheid weer. Hoe hoger hoe kenmerkender.

De volledige Handelingen in XML Folia formaat voor deze periode zijn ook beschikbaar via DANS EASY. Hierin staat dus voor elk woord uitgesproken in de Eerste of Tweede Kamer wie het zegt, in welke rol, en wat de woordsoort en het bijbehorende lemma is.

Scienceguide heeft dit verhaal ook opgepikt en toont nog de adjectieven van Minister Bussemaker.

Technische verantwoording

De uitgespoken woorden van de kabinetsleden zijn gebaseerd op de Handelingen zoals opgeslagen in de PoliticalMashup Handelingen database. De woorden zijn benoemd en vervangen door hun lemma met de Frog software. Voor het bepalen van de kenmerkende woorden per kabinetslid hebben we per woordsoort een parsimonious language model gemaakt op basis van de woorden van dat lid met als achtergrondcorpus de woorden van alle bewindslieden (in diezelfde periode). Dit is gedaan met behulp van de WeighWords software. Een waarde van .05 voor de lambda (w in WeighWords) parameter gaf in dit geval de mooiste resultaten en die is voor alle woordsoorten gebruikt.

Literatuur

D. Hiemstra, S. Robertson and H. Zaragoza (2004). Parsimonious Language Models
for Information Retrieval
. Proc. SIGIR’04.

R. Kaptein, D. Hiemstra and J. Kamps (2010). How different are Language Models
and word clouds?
Proc. ECIR.

Reageer

Je moet ingelogd zijn om te kunnen reageren.