KB kranten bigrammen

Geplaatst op 06-06-2013 door Maarten Marx | data | tags: | comment image Geen reacties »

Na de succesvolle PolticalMashup Ngramviewer voor de Handelingen werken we nu aan een combinatie van die viewer met een viewer over het kranten corpus van de KB.

Dit is echt van een andere grootte!
Uit de periode 1840-1995 hebben we alleen bigrammen (frases bestaande uit 2 “woorden”) genomen die per jaar minstens 10 keer voorkwamen. We komen dan uit op 35 miljoen unieke bigrammen, die samen meer dan 22 miljard keer voorkomen.
| lees verder…

De omvang van het KB kranten archief

Geplaatst op 13-03-2013 door Maarten Marx | data | tags: | comment image Geen reacties »

We hebben de omvang van het kranten archief van de KB per jaar bepaald, in aantal artikelen, aantal GigaByte en aantal woorden. In totaal hebben we 84 miljoen unieke artikelen uit het KB archief kunnen ophalen. Meer precies: 84,423,498 artikelen die in totaal 20,091,362,573 woorden bevatten. Samen is dat 184 GigaByte in XML formaat. De data is beschikbaar als spreadsheet.
De drie tellingen geven dezelfde trend weer: tot de oorlog neemt het corpus gestaag toe tot meer dan 300 miljoen woorden per jaar, dan stort het in elkaar, en neemt na de jaren 50 weer langzaam toe, maar tot nooit meer dan 150 miljoen woorden per jaar.
| lees verder…

Making connections at Surf

Geplaatst op 11-03-2013 door Maarten Marx | data, Political Mashup | tags: | comment image Geen reacties »

Maarten Marx spoke at the ‘Making Connections/Semantic Web’ session at the SURF Research and Innovation Event 2013 on 28 February 2013 at the Haagse Hogeschool – The Hague.

His message was that sharing and honesty is the way yo increase the value of your published data.
| lees verder…

Vlees(ch)? in de Nederlandse krant

Geplaatst op 11-03-2013 door Maarten Marx | data | tags: | comment image Geen reacties »

Na alle ophef over paardenvlees de laatste tijd waren we benieuwd wat voor soorten vlees er besproken werden in de Nederlandse kranten. Het KB kranten archief is hier natuurlijk de uitgelezen plek voor. We haalden uit alle 88 miljoen artikelen in het KB archief alle 236.950 artikelen waarin de tekst de reguliere expressie bw+vlees(ch)?b bevatte. Dit is dus een woord eindigend op ‘vlees’ of ‘vleesch’, met
minstens 1 letter ervoor.

| lees verder…

Harde samenstellingen

Geplaatst op 28-02-2013 door Maarten Marx | data | tags: | comment image Geen reacties »

In haar column in NRC berichtte Nicoline van der Sijs over neologismen in het Nederlands die mogelijk voortkwamen uit Nederlands Indië. Zij gaf als voorbeeld knoerthard.

Wij hebben in de collectie van 88 miljoen kranten artikelen van de KB gezocht naar samenstellingen eindigend op hard en harde. Voor de technici, we zochten met de reguliere expressie bw+harde?b. Dit leverde 12.478 verschillende woorden eindigend op ‘hard’ en 1484 eindigend op ‘harde’ op. In totaal matchde de regex 1.076.742 keer. Knoerthard kwam 44 keer voor, en ‘knoertharde’ 15 keer.
| lees verder…

Kranten door de tijd

Geplaatst op 13-02-2013 door Maarten Marx | data | | comment image Geen reacties »

Met de PoliticalMashup n-gram viewer is het mogelijk om de frequentie van frases uitgesproken in het parlement per jaar te zien. Iets vergelijkbaars is mogelijk voor het krantencorpus van de KB.

Deze tabel geeft het aantal artikelen per jaar met daarin een woord dat begint met “Europ”.

Hieronder dezelfde tabel, maar dan in het klein.

| lees verder…

Linguistische annotatie van de krant

Geplaatst op 07-02-2013 door Maarten Marx | data, Political Mashup, XPath | tags: | comment image Geen reacties »

Binnen het PoliticalMashup project koppelen we verschillende soorten politieke data met elkaar. Een belangrijke koppeling is op politieke actor: welke politieke spelers komen er in een document voor.

Om meer grip te krijgen op de informatie die in krantenartikelen staat, voegen we allerlei linguistische annotatie toe, gebruik makend van de Frog software uit Tilburg/Nijmegen, een Named Entity recognizer aan de UvA ontwikkeld door Lars Buitinck, en software die entities koppelt aan Wikipedia ontwikkeld door Edgar Meij aan de UvA. Het eindresultaat is een UTF-8 geëncodeerd XML bestand dat valideert met een variant op het Folia schema.
| lees verder…

PoliticalMashup wint NederLandse Dataprijs 2012

Geplaatst op 19-10-2012 door Maarten Marx | data, parliament | tags: | comment image Geen reacties »

PoliticalMashup heeft de NederLandse Dataprijs 2012 gewonnen met de gemaakte XML versie van de Handelingen der Staten Generaal van 1814-2012.

De onvindbare logaritmes die tijdens de prijsuitrijking ter sprake kwamen zijn ondertussen alsnog gevonden. Jos Engelen had bijna helemaal gelijk, Minister Pronk zei alleen logaritmisch (Eerste Kamer, 2001-01-16), en niet logaritme. Te vinden met de query logarit*.


| lees verder…

Automatische classificatie van documenten

Geplaatst op 05-10-2012 door Maarten Marx | data, parliament, Political Mashup, research | tags: | comment image Geen reacties »

Het toekennen van trefwoorden uit een vaste lijst aan documenten (“taggen”) is een tijdrovende en dus kostbare taak. Vandaar dat veel onderzoek gedaan wordt naar automatiseren van die taak.
Die taak kan je op twee manieren automatiseren:

  1. Traditioneel De computer kent een beperkt aantal (3-6) trefwoorden aan een document toe, zonder ordening op die woorden.
  2. Anders De computer kent een flinke lijst (50-100) trefwoorden toe, allemaal met een “waarschijnlijkheids score”, die bijvoorbeeld zichtbaar gemaakt kan worden in een woordenwolk

Voor de traditionele manier maakt een computer nog te veel fouten om dit zonder menselijk ingrijpen uit te voeren. Het meest zinvolle is het maken van een term aanbevelings systeem.
Zo’n systeem geeft voor elk te taggen document een geordende lijst van de trefwoorden, en de menselijke tagger kan daar dan de juiste uitkiezen.
Dit lijkt wel wat op Google zoeken. Ook bij zo’n systeem is het van groot belang dat de juiste trefwoorden hoog in de lijst voorkomen. Dan leidt het gebruik van het aanbevelings-systeem tot tijdswinst.

Hoe werkt dat nou?

Lerend uit heel veel voorbeelden (documenten voorzien van trefwoorden) maken we een model op van elk trefwoord. Dat model bestaat simpelweg uit een lijst woorden voorzien van een gewicht. Die woorden kan je zien als een indicator dat een document over dat trefwoord gaat. De gewichten geven aan hoe belangrijk die indicator is.
Om een beeld te geven hebben we hier de 100 meest belangrijke indicatoren gezet die ons systeem geleerd heeft voor het trefwoord militaire vliegtuigen. In plaats van de gewichten laten we de woorden zien in een woordenwolk. Het is duidelijk dat de meeste woorden prima bij dat begrip passen.

Verdere beschrijving en uitleg

| lees verder…

Politieke n-gram viewer

Geplaatst op 11-09-2012 door Maarten Marx | data, Political Mashup | tags: , | comment image Geen reacties »

PoliticalMashup heeft een eerste versie van z’n politieke n-gram viewer af. De applicatie is gebouwd door Bart de Goede en Justin van Wees.
De politieke n-gram viewer toont voor elke frase van hooguit 7 woorden die ooit in het Nederlandse parlement gezegd is een tijdslijn met de frequentie van die frase, optioneel uitgesplitst per partij en per spreker.

| lees verder…

« eerdere stukken latere stukken »