De omvang van het KB kranten archief

Geplaatst op 13-03-2013 door Maarten Marx | data | tags: | comment image Geen reacties »

We hebben de omvang van het kranten archief van de KB per jaar bepaald, in aantal artikelen, aantal GigaByte en aantal woorden. In totaal hebben we 84 miljoen unieke artikelen uit het KB archief kunnen ophalen. Meer precies: 84,423,498 artikelen die in totaal 20,091,362,573 woorden bevatten. Samen is dat 184 GigaByte in XML formaat. De data is beschikbaar als spreadsheet.
De drie tellingen geven dezelfde trend weer: tot de oorlog neemt het corpus gestaag toe tot meer dan 300 miljoen woorden per jaar, dan stort het in elkaar, en neemt na de jaren 50 weer langzaam toe, maar tot nooit meer dan 150 miljoen woorden per jaar.
| lees verder…

Making connections at Surf

Geplaatst op 11-03-2013 door Maarten Marx | data, Political Mashup | tags: | comment image Geen reacties »

Maarten Marx spoke at the ‘Making Connections/Semantic Web’ session at the SURF Research and Innovation Event 2013 on 28 February 2013 at the Haagse Hogeschool – The Hague.

His message was that sharing and honesty is the way yo increase the value of your published data.
| lees verder…

Vlees(ch)? in de Nederlandse krant

Geplaatst op 11-03-2013 door Maarten Marx | data | tags: | comment image Geen reacties »

Na alle ophef over paardenvlees de laatste tijd waren we benieuwd wat voor soorten vlees er besproken werden in de Nederlandse kranten. Het KB kranten archief is hier natuurlijk de uitgelezen plek voor. We haalden uit alle 88 miljoen artikelen in het KB archief alle 236.950 artikelen waarin de tekst de reguliere expressie bw+vlees(ch)?b bevatte. Dit is dus een woord eindigend op ‘vlees’ of ‘vleesch’, met
minstens 1 letter ervoor.

| lees verder…

Zipf verdeelde modifiers

Geplaatst op 08-03-2013 door Maarten Marx | onderwijs | tags: , | comment image Geen reacties »

Binnen het KB kranten corpus gingen we op zoek naar modifiers van bijvoegelijke naamwoorden. Hier kijken we naar de woorden hard en harde.
We vonden in totaal 5041 verschillende prefixes van minstens 3 karakters, maar daar zitten ook veel valse positieve bij: OCR fouten, maar ook namen als richard en ‘beroepen’ als clochard. Zonder hapaxen zijn het er toch nog 1258.
| lees verder…

Wat zijn de belangrijkste themas in een verkiezingsprogramma?

Geplaatst op 06-03-2013 door Maarten Marx | idea, lecture, parliament, Political Mashup, research, XML | tags: | comment image Geen reacties »

Die vraag beantwoorden we in deze post met behulp van een zogenaamd dispersie plot. In zo’n plot delen we een verkiezingsprogramma op de x-as op in alineas.

Op de y-as staan verkiezingsthemas. Elke paragraaf is “getagged” met 1 of meerdere van deze themas. Als dat zo is wordt dat in het plot aangegeven met een horizontaal streepje. Elk thema heeft dus de vorm van een barcode die aangeeft hoe verspreid dat thema over het hele programma behandeld wordt.

De dispersie waarde van een thema geeft de mate van spreiding weer: hoe hoger de waarde, hoe vaker en goed gespreid het thema voorkomt.

Deze dispersie waarde lijkt een prima indicator voor de belangrijkheid (saliency) van een thema voor een partij.

| lees verder…