Harde samenstellingen

Geplaatst op 28-02-2013 door Maarten Marx | data | tags: | Geen reacties »

In haar column in NRC berichtte Nicoline van der Sijs over neologismen in het Nederlands die mogelijk voortkwamen uit Nederlands Indië. Zij gaf als voorbeeld knoerthard.

Wij hebben in de collectie van 88 miljoen kranten artikelen van de KB gezocht naar samenstellingen eindigend op hard en harde. Voor de technici, we zochten met de reguliere expressie bw+harde?b. Dit leverde 12.478 verschillende woorden eindigend op ‘hard’ en 1484 eindigend op ‘harde’ op. In totaal matchde de regex 1.076.742 keer. Knoerthard kwam 44 keer voor, en ‘knoertharde’ 15 keer.

Bij de woorden eindigend op ‘hard’ zitten heel veel, vaak prachtige, eigennamen en ook veel OCR fouten. De lijst met samenstellingen eindigend op ‘harde’ bevat relatief gezien veel meer samenstellingen.

Hier is de top 20, met het aantal keer dat het woord voorkwam:

40169 keiharde
27443 verharde
7708 geharde
5484 bikkelharde
2242 onverharde
1664 spijkerharde
1663 winterharde
1528 staalharde
1389 steenharde
1135 glasharde
 993 volharde
 595 knalharde
 501 ijzerharde
 464 afgeharde
 449 oerharde
 441 snoeiharde
 256 loeiharde
 250 scharde
 232 kogelharde
 201 halfverharde

De volledige lijsten met hits hangen we hier aan, net als een spreadsheet met voor elke “*harde” hit een link naar het artikel waarin het gevonden werd.

Onderzoekers die zelf ook eens een reguliere expressie op deze collectie willen laten uitvoeren kunnen contact opnemen met maartenmarx@uva.nl.

Reageer

Je moet ingelogd zijn om te kunnen reageren.