Harde samenstellingen

Geplaatst op 28-02-2013 door Maarten Marx | data | tags: | comment image Geen reacties »

In haar column in NRC berichtte Nicoline van der Sijs over neologismen in het Nederlands die mogelijk voortkwamen uit Nederlands Indië. Zij gaf als voorbeeld knoerthard.

Wij hebben in de collectie van 88 miljoen kranten artikelen van de KB gezocht naar samenstellingen eindigend op hard en harde. Voor de technici, we zochten met de reguliere expressie bw+harde?b. Dit leverde 12.478 verschillende woorden eindigend op ‘hard’ en 1484 eindigend op ‘harde’ op. In totaal matchde de regex 1.076.742 keer. Knoerthard kwam 44 keer voor, en ‘knoertharde’ 15 keer.
| lees verder…

Kranten door de tijd

Geplaatst op 13-02-2013 door Maarten Marx | data | | comment image Geen reacties »

Met de PoliticalMashup n-gram viewer is het mogelijk om de frequentie van frases uitgesproken in het parlement per jaar te zien. Iets vergelijkbaars is mogelijk voor het krantencorpus van de KB.

Deze tabel geeft het aantal artikelen per jaar met daarin een woord dat begint met “Europ”.

Hieronder dezelfde tabel, maar dan in het klein.

| lees verder…

Linguistische annotatie van de krant

Geplaatst op 07-02-2013 door Maarten Marx | data, Political Mashup, XPath | tags: | comment image Geen reacties »

Binnen het PoliticalMashup project koppelen we verschillende soorten politieke data met elkaar. Een belangrijke koppeling is op politieke actor: welke politieke spelers komen er in een document voor.

Om meer grip te krijgen op de informatie die in krantenartikelen staat, voegen we allerlei linguistische annotatie toe, gebruik makend van de Frog software uit Tilburg/Nijmegen, een Named Entity recognizer aan de UvA ontwikkeld door Lars Buitinck, en software die entities koppelt aan Wikipedia ontwikkeld door Edgar Meij aan de UvA. Het eindresultaat is een UTF-8 geëncodeerd XML bestand dat valideert met een variant op het Folia schema.
| lees verder…