Kranten door de tijd

Geplaatst op 25-10-2013 door Maarten Marx | Political Mashup, resultaten | tags: , | comment image Geen reacties »

PoliticalMashup heeft een applicatie ontwikkeld waarmee de relatieve frequentie van woorden of frases per jaar in de kranten collectie van de Koninklijke Bibliotheek eenvoudig zichtbaar wordt gemaakt.

KB historische kranten ngram viewer.

Spellingshervormingen zijn mooi terug te zien, bijvoorbeeld met de twee zoekvragen ‘regering’ en ‘regeering’.

Zoeken met de gebruikte zoektermen in de kranten van een bepaald jaar kan door te klikken op het bolletje in de grafiek boven dat jaar.

KB kranten bigrammen

Geplaatst op 06-06-2013 door Maarten Marx | data | tags: | comment image Geen reacties »

Na de succesvolle PolticalMashup Ngramviewer voor de Handelingen werken we nu aan een combinatie van die viewer met een viewer over het kranten corpus van de KB.

Dit is echt van een andere grootte!
Uit de periode 1840-1995 hebben we alleen bigrammen (frases bestaande uit 2 “woorden”) genomen die per jaar minstens 10 keer voorkwamen. We komen dan uit op 35 miljoen unieke bigrammen, die samen meer dan 22 miljard keer voorkomen.
| lees verder…

De omvang van het KB kranten archief

Geplaatst op 13-03-2013 door Maarten Marx | data | tags: | comment image Geen reacties »

We hebben de omvang van het kranten archief van de KB per jaar bepaald, in aantal artikelen, aantal GigaByte en aantal woorden. In totaal hebben we 84 miljoen unieke artikelen uit het KB archief kunnen ophalen. Meer precies: 84,423,498 artikelen die in totaal 20,091,362,573 woorden bevatten. Samen is dat 184 GigaByte in XML formaat. De data is beschikbaar als spreadsheet.
De drie tellingen geven dezelfde trend weer: tot de oorlog neemt het corpus gestaag toe tot meer dan 300 miljoen woorden per jaar, dan stort het in elkaar, en neemt na de jaren 50 weer langzaam toe, maar tot nooit meer dan 150 miljoen woorden per jaar.
| lees verder…

Vlees(ch)? in de Nederlandse krant

Geplaatst op 11-03-2013 door Maarten Marx | data | tags: | comment image Geen reacties »

Na alle ophef over paardenvlees de laatste tijd waren we benieuwd wat voor soorten vlees er besproken werden in de Nederlandse kranten. Het KB kranten archief is hier natuurlijk de uitgelezen plek voor. We haalden uit alle 88 miljoen artikelen in het KB archief alle 236.950 artikelen waarin de tekst de reguliere expressie bw+vlees(ch)?b bevatte. Dit is dus een woord eindigend op ‘vlees’ of ‘vleesch’, met
minstens 1 letter ervoor.

| lees verder…

Zipf verdeelde modifiers

Geplaatst op 08-03-2013 door Maarten Marx | onderwijs | tags: , | comment image Geen reacties »

Binnen het KB kranten corpus gingen we op zoek naar modifiers van bijvoegelijke naamwoorden. Hier kijken we naar de woorden hard en harde.
We vonden in totaal 5041 verschillende prefixes van minstens 3 karakters, maar daar zitten ook veel valse positieve bij: OCR fouten, maar ook namen als richard en ‘beroepen’ als clochard. Zonder hapaxen zijn het er toch nog 1258.
| lees verder…

Harde samenstellingen

Geplaatst op 28-02-2013 door Maarten Marx | data | tags: | comment image Geen reacties »

In haar column in NRC berichtte Nicoline van der Sijs over neologismen in het Nederlands die mogelijk voortkwamen uit Nederlands Indië. Zij gaf als voorbeeld knoerthard.

Wij hebben in de collectie van 88 miljoen kranten artikelen van de KB gezocht naar samenstellingen eindigend op hard en harde. Voor de technici, we zochten met de reguliere expressie bw+harde?b. Dit leverde 12.478 verschillende woorden eindigend op ‘hard’ en 1484 eindigend op ‘harde’ op. In totaal matchde de regex 1.076.742 keer. Knoerthard kwam 44 keer voor, en ‘knoertharde’ 15 keer.
| lees verder…