Harde samenstellingen
In haar column in NRC berichtte Nicoline van der Sijs over neologismen in het Nederlands die mogelijk voortkwamen uit Nederlands Indië. Zij gaf als voorbeeld knoerthard.
Wij hebben in de collectie van 88 miljoen kranten artikelen van de KB gezocht naar samenstellingen eindigend op hard en harde. Voor de technici, we zochten met de reguliere expressie \b\w+harde?\b. Dit leverde 12.478 verschillende woorden eindigend op ‘hard’ en 1484 eindigend op ‘harde’ op. In totaal matchde de regex 1.076.742 keer. Knoerthard kwam 44 keer voor, en ‘knoertharde’ 15 keer.
Bij de woorden eindigend op ‘hard’ zitten heel veel, vaak prachtige, eigennamen en ook veel OCR fouten. De lijst met samenstellingen eindigend op ‘harde’ bevat relatief gezien veel meer samenstellingen.
Hier is de top 20, met het aantal keer dat het woord voorkwam:
40169 keiharde 27443 verharde 7708 geharde 5484 bikkelharde 2242 onverharde 1664 spijkerharde 1663 winterharde 1528 staalharde 1389 steenharde 1135 glasharde 993 volharde 595 knalharde 501 ijzerharde 464 afgeharde 449 oerharde 441 snoeiharde 256 loeiharde 250 scharde 232 kogelharde 201 halfverharde
De volledige lijsten met hits hangen we hier aan, net als een spreadsheet met voor elke “*harde” hit een link naar het artikel waarin het gevonden werd.
Onderzoekers die zelf ook eens een reguliere expressie op deze collectie willen laten uitvoeren kunnen contact opnemen met maartenmarx@uva.nl.
- hitlijst met “*harde”
- hitlijst met “*hard”
- gzipped tab separated file (spreadsheet) met links naar de artikelen bij de KB. De eerste 60.000 hits staan ook op een spreadsheet bij Google. Van daaruit is direct naar de artikelen bij de KB te navigeren.
Reageer