KB kranten bigrammen

Geplaatst op 06-06-2013 door Maarten Marx | data | tags: | comment image Geen reacties »

Na de succesvolle PolticalMashup Ngramviewer voor de Handelingen werken we nu aan een combinatie van die viewer met een viewer over het kranten corpus van de KB.

Dit is echt van een andere grootte!
Uit de periode 1840-1995 hebben we alleen bigrammen (frases bestaande uit 2 “woorden”) genomen die per jaar minstens 10 keer voorkwamen. We komen dan uit op 35 miljoen unieke bigrammen, die samen meer dan 22 miljard keer voorkomen.

We hebben een lijst gemaakt van al die bigrammen, met daarachter hoe vaak ze voorkomen, en in hoeveel jaar. Die lijst is onderaan op deze pagina te downloaden.

Als voorbeeld hebben we gekeken naar frases beginnend met lieve en met ondeugende. Hier komen voor beide de twintig frases die het vaakst voorkwamen.
We laten het tweede woord zien, gevolgd door het totaal aantal keer dat het woord voorkomt, gevolgd door het aantal jaar waarin het woord voorkomt.

Het valt op dat de ondeugende frases in veel minder jaren voorkomen dan de lieve frases.

Lieve

man     341174  120
moeder  280279  151
vrouw   238254  154
vader   152666  128
zuster  95422   118
zorgzame        74949   79
ouders  67308   112
en      46594   148
broer   44316   82
zoon    40266   112
dochter 33657   129
meisjes 26710   116
tante   25854   122
schoonzuster    23543   93
hemel   23276   144
vriendin        22057   119
kind    21531   151
vrouwe  21341   149
heer    20914   132
echtgenoot      18135   99

Ondeugende

meisjes 4805    13
vrouwen 1967    3
huisvrouwtjes   1868    2
hete    1588    4
babbelaars      1405    3
meid    1352    12
jongen  1242    50
meiden  1068    4
kinderen        1023    49
streken 984     36
vrouwtjes       714     4
pascale 702     2
vrouw   658     4
jongens 624     36
wendy   470     2
spelletjes      453     5
vrouwtje        393     5
kim     363     1
oogen   362     20
tieners 357     3

Downloads

Verschil tussen studenten en studentes

Er is een groot verschil in bigrammen eindigend op ‘student’ en eindigend op ‘studente’.
We hebben dat hier inzichtelijk gemaakt met twee woordenwolken. De input files voor de Wordle woordenwolken staan in studentenwordles.zip. Er zijn twee versies: met de ruwe tellingen (het totaal aantal keer dat het bigram voorkomt in het KB kranten corpus), en de logaritme daarvan. Voor de wolken zijn de logaritmes gebruikt.

Wordle: Studentes Bigrammen KB (log)

Wordle: Student Bigrammen KB (log)

Reageer

Je moet ingelogd zijn om te kunnen reageren.