Political Ngram Viewer wint DIR 2013 best demo award

Geplaatst op 02-05-2013 door Maarten Marx | Uncategorized | | Geen reacties »

Het demonstratie artikel over de Politieke Ngram Viewer geschreven door Bart de Goede, Justin van Wees en Maarten Marx heeft de best demonstration award op DIR 2013 gewonnen.

Bart de Goede, Justin van Wees, Maarten Marx (2013). PoliticalMashup Ngramviewer. Proc. Dutch Belgium Information Retrieval (DIR 2013).
| lees verder…

Loe de Jong Digitaal

Geplaatst op 29-04-2013 door Maarten Marx | Uncategorized | | Geen reacties »

Victor de Boer heeft als hoofdauteur een artikel geschreven over het Loe de Jong Digitaalproject, dat NIOD, UvA en VU gezamelijk hebben uitgevoerd in het kader van Clarin 3. Victor presenteert het op de KCAP 2013 (International Conference on Knowledge Capture) conferentie, deze zomer in Banff, Canada.

NWO Creatieve Industrie project ExPoSe

Geplaatst op 27-04-2013 door Maarten Marx | parliament | | Geen reacties »

Het ExPoSe (Exploratory Political Search) project van Jaap Kamps en Maarten Marx is in de Creatieve Industrie 2013 ronde van NWO toegekend.
In het project worden twee aio’s en één wetenschappelijke programmeur aangesteld.
Het project loopt 5 jaar en wordt door het volgende consortium uitgevoerd: Dispectu BV, Koninklijke Bibliotheek, Meertens Instituut, Nationaal Archief, Spinque BV, Tweede Kamer, Universiteit van Amsterdam.
| lees verder…

De omvang van het KB kranten archief

Geplaatst op 13-03-2013 door Maarten Marx | data | tags: | Geen reacties »

We hebben de omvang van het kranten archief van de KB per jaar bepaald, in aantal artikelen, aantal GigaByte en aantal woorden. In totaal hebben we 84 miljoen unieke artikelen uit het KB archief kunnen ophalen. Meer precies: 84,423,498 artikelen die in totaal 20,091,362,573 woorden bevatten. Samen is dat 184 GigaByte in XML formaat. De data is beschikbaar als spreadsheet.
De drie tellingen geven dezelfde trend weer: tot de oorlog neemt het corpus gestaag toe tot meer dan 300 miljoen woorden per jaar, dan stort het in elkaar, en neemt na de jaren 50 weer langzaam toe, maar tot nooit meer dan 150 miljoen woorden per jaar.
| lees verder…

Making connections at Surf

Geplaatst op 11-03-2013 door Maarten Marx | Political Mashup, data | tags: | Geen reacties »

Maarten Marx spoke at the ‘Making Connections/Semantic Web’ session at the SURF Research and Innovation Event 2013 on 28 February 2013 at the Haagse Hogeschool - The Hague.

His message was that sharing and honesty is the way yo increase the value of your published data.
| lees verder…

Vlees(ch)? in de Nederlandse krant

Geplaatst op 11-03-2013 door Maarten Marx | data | tags: | Geen reacties »

Na alle ophef over paardenvlees de laatste tijd waren we benieuwd wat voor soorten vlees er besproken werden in de Nederlandse kranten. Het KB kranten archief is hier natuurlijk de uitgelezen plek voor. We haalden uit alle 88 miljoen artikelen in het KB archief alle 236.950 artikelen waarin de tekst de reguliere expressie \b\w+vlees(ch)?\b bevatte. Dit is dus een woord eindigend op ‘vlees’ of ‘vleesch’, met
minstens 1 letter ervoor.

| lees verder…

Zipf verdeelde modifiers

Geplaatst op 08-03-2013 door Maarten Marx | onderwijs | tags: , | Geen reacties »

Binnen het KB kranten corpus gingen we op zoek naar modifiers van bijvoegelijke naamwoorden. Hier kijken we naar de woorden hard en harde.
We vonden in totaal 5041 verschillende prefixes van minstens 3 karakters, maar daar zitten ook veel valse positieve bij: OCR fouten, maar ook namen als richard en ‘beroepen’ als clochard. Zonder hapaxen zijn het er toch nog 1258.
| lees verder…

Wat zijn de belangrijkste themas in een verkiezingsprogramma?

Geplaatst op 06-03-2013 door Maarten Marx | Political Mashup, XML, idea, lecture, parliament, research | tags: | Geen reacties »

Die vraag beantwoorden we in deze post met behulp van een zogenaamd dispersie plot. In zo’n plot delen we een verkiezingsprogramma op de x-as op in alineas.

Op de y-as staan verkiezingsthemas. Elke paragraaf is “getagged” met 1 of meerdere van deze themas. Als dat zo is wordt dat in het plot aangegeven met een horizontaal streepje. Elk thema heeft dus de vorm van een barcode die aangeeft hoe verspreid dat thema over het hele programma behandeld wordt.

De dispersie waarde van een thema geeft de mate van spreiding weer: hoe hoger de waarde, hoe vaker en goed gespreid het thema voorkomt.

Deze dispersie waarde lijkt een prima indicator voor de belangrijkheid (saliency) van een thema voor een partij.

| lees verder…

Harde samenstellingen

Geplaatst op 28-02-2013 door Maarten Marx | data | tags: | Geen reacties »

In haar column in NRC berichtte Nicoline van der Sijs over neologismen in het Nederlands die mogelijk voortkwamen uit Nederlands Indië. Zij gaf als voorbeeld knoerthard.

Wij hebben in de collectie van 88 miljoen kranten artikelen van de KB gezocht naar samenstellingen eindigend op hard en harde. Voor de technici, we zochten met de reguliere expressie \b\w+harde?\b. Dit leverde 12.478 verschillende woorden eindigend op ‘hard’ en 1484 eindigend op ‘harde’ op. In totaal matchde de regex 1.076.742 keer. Knoerthard kwam 44 keer voor, en ‘knoertharde’ 15 keer.
| lees verder…

Kranten door de tijd

Geplaatst op 13-02-2013 door Maarten Marx | data | | Geen reacties »

Met de PoliticalMashup n-gram viewer is het mogelijk om de frequentie van frases uitgesproken in het parlement per jaar te zien. Iets vergelijkbaars is mogelijk voor het krantencorpus van de KB.

Deze tabel geeft het aantal artikelen per jaar met daarin een woord dat begint met “Europ”.

Hieronder dezelfde tabel, maar dan in het klein.

| lees verder…

« eerdere stukken