Zipf verdeelde modifiers

Geplaatst op 08-03-2013 door Maarten Marx | onderwijs | tags: , | Geen reacties »

Binnen het KB kranten corpus gingen we op zoek naar modifiers van bijvoegelijke naamwoorden. Hier kijken we naar de woorden hard en harde.
We vonden in totaal 5041 verschillende prefixes van minstens 3 karakters, maar daar zitten ook veel valse positieve bij: OCR fouten, maar ook namen als richard en ‘beroepen’ als clochard. Zonder hapaxen zijn het er toch nog 1258.

De top 10 meest gebruikte prefixes zijn:

#count prefix
99993 kei
46069 ver
9217 bikkel
7615 vol
3893 glas
3730 steen
3544 winter
2783 onver
2618 spijker
2077 staal
1838 ric
1775 oer
1199 knal
1146 snoei
1008 cloc
788 afge
749 loei

Naar de tellingen kijkend bedachten we dat dit wel eens Zipf verdeeld zou kunnen zijn.

En ja hoor, zoals blijkt uit onderstaande log-log grafiek waarin op de x-as de rank van de prefixes staat en op de y-as de frequentie in het KB kranten corpus. We gebruikten natuurlijk logarithme.

Namen eindigend op hard

Daar vonden we er ook een heleboel van:

297946 Richard
188131 Bernhard
60080 Gerhard
22810 Erhard
13268 Engelhard
11287 Blanchard
10272 Reinhard
9914 Michard
9370 Eberhard
8435 Rlchard

En ja hoor, ook weer Zipf verdeeld:

Data en scripts

Met dank aan Arjan Nusselder.

Reageer

Je moet ingelogd zijn om te kunnen reageren.