Heel veel woorden uit het Parlement

Geplaatst op 11-10-2012 door Maarten Marx | parliament, trivia | tags: | Geen reacties »

Politici zijn erg creatief in hun taalgebruik. Een leuke vraag is dus

Hoeveel verschillende woorden zijn er uitgesproken in de Tweede Kamer sinds 1814?

Het jaar 1814 is gekozen omdat er vanaf dat moment zogenaamde Handelingen der Staten Generaal beschikbaar zijn.
Het antwoord is een gigantisch aantal: 2.773.826. Echter dit wordt nogal vertekend omdat de teksten zijn ingescand en de letters automatisch zijn herkend (OCR). Dit levert nogal wat fouten op. Maar kijken we naar het aantal woorden dat minstens 2 keer voorkomt, dan hebben we er nog steeds heel erg veel: 992.291, bijna 1 miljoen.
Deze woorden zijn allemaal te vinden met de politieke ngram viewer die PoliticalMashup en Dispectu BV samen hebben ontwikkeld.

Ngrammen

Maar die ngram viewer kan nog meer. Je kunt zoeken op frases van maximaal 7 woorden lang, bijvoorbeeld het kan toch niet zo zijn dat, mits die 7 woorden samen in 1 zin voorkwamen.
Van die ngrammen zijn er natuurlijk nog veel meer. Met 1 miljoen unieke woorden kan je in principe 1 biljoen unieke paren woorden maken. De vraag naar de de of de de de laat zien dat zelfs erg vreemde paren nog wel voor kunnen komen.

Uiteindelijk valt het wel mee, maar toch zijn het er erg veel. In onderstaande tabel staan het aantal unieke ngrammen die minstens 2 keer voorkomen in de tweede kolom. In de derde kolom staat hoeveel er zijn als we ook die ngrammen meetellen die maar 1 keer voorkomen.
Let wel, alle ngrammen zijn te vinden, ook de hapax legomena.

1-grammen 992.291 2.773.826
2-grammen 12.852.501 38.811.679
3-grammen 38.648.440 170.314.738
4-grammen 48.621.948 358.360.166
5-grammen 36.838.184 498.848.849
6-grammen 22.737.318 573.197.917
7-grammen 13.655.460 606.867.133
totaal 174.346.142 2.249.174.308

Reageer

Je moet ingelogd zijn om te kunnen reageren.