PoliticalMashup wint NederLandse Dataprijs 2012

Geplaatst op 19-10-2012 door Maarten Marx | data, parliament | tags: | comment image Geen reacties »

PoliticalMashup heeft de NederLandse Dataprijs 2012 gewonnen met de gemaakte XML versie van de Handelingen der Staten Generaal van 1814-2012.

De onvindbare logaritmes die tijdens de prijsuitrijking ter sprake kwamen zijn ondertussen alsnog gevonden. Jos Engelen had bijna helemaal gelijk, Minister Pronk zei alleen logaritmisch (Eerste Kamer, 2001-01-16), en niet logaritme. Te vinden met de query logarit*.


| lees verder…

Heel veel woorden uit het Parlement

Geplaatst op 11-10-2012 door Maarten Marx | parliament, trivia | tags: | comment image Geen reacties »

Politici zijn erg creatief in hun taalgebruik. Een leuke vraag is dus

Hoeveel verschillende woorden zijn er uitgesproken in de Tweede Kamer sinds 1814?

Het jaar 1814 is gekozen omdat er vanaf dat moment zogenaamde Handelingen der Staten Generaal beschikbaar zijn.
Het antwoord is een gigantisch aantal: 2.773.826. Echter dit wordt nogal vertekend omdat de teksten zijn ingescand en de letters automatisch zijn herkend (OCR). Dit levert nogal wat fouten op. Maar kijken we naar het aantal woorden dat minstens 2 keer voorkomt, dan hebben we er nog steeds heel erg veel: 992.291, bijna 1 miljoen.
Deze woorden zijn allemaal te vinden met de politieke ngram viewer die PoliticalMashup en Dispectu BV samen hebben ontwikkeld.
| lees verder…

Automatische classificatie van documenten

Geplaatst op 05-10-2012 door Maarten Marx | data, parliament, Political Mashup, research | tags: | comment image Geen reacties »

Het toekennen van trefwoorden uit een vaste lijst aan documenten (“taggen”) is een tijdrovende en dus kostbare taak. Vandaar dat veel onderzoek gedaan wordt naar automatiseren van die taak.
Die taak kan je op twee manieren automatiseren:

  1. Traditioneel De computer kent een beperkt aantal (3-6) trefwoorden aan een document toe, zonder ordening op die woorden.
  2. Anders De computer kent een flinke lijst (50-100) trefwoorden toe, allemaal met een “waarschijnlijkheids score”, die bijvoorbeeld zichtbaar gemaakt kan worden in een woordenwolk

Voor de traditionele manier maakt een computer nog te veel fouten om dit zonder menselijk ingrijpen uit te voeren. Het meest zinvolle is het maken van een term aanbevelings systeem.
Zo’n systeem geeft voor elk te taggen document een geordende lijst van de trefwoorden, en de menselijke tagger kan daar dan de juiste uitkiezen.
Dit lijkt wel wat op Google zoeken. Ook bij zo’n systeem is het van groot belang dat de juiste trefwoorden hoog in de lijst voorkomen. Dan leidt het gebruik van het aanbevelings-systeem tot tijdswinst.

Hoe werkt dat nou?

Lerend uit heel veel voorbeelden (documenten voorzien van trefwoorden) maken we een model op van elk trefwoord. Dat model bestaat simpelweg uit een lijst woorden voorzien van een gewicht. Die woorden kan je zien als een indicator dat een document over dat trefwoord gaat. De gewichten geven aan hoe belangrijk die indicator is.
Om een beeld te geven hebben we hier de 100 meest belangrijke indicatoren gezet die ons systeem geleerd heeft voor het trefwoord militaire vliegtuigen. In plaats van de gewichten laten we de woorden zien in een woordenwolk. Het is duidelijk dat de meeste woorden prima bij dat begrip passen.

Verdere beschrijving en uitleg

| lees verder…

Ewoud Sanders over digibetisme

Geplaatst op 05-10-2012 door Maarten Marx | onderwijs | | comment image Geen reacties »

In het laatste nummer van de eData breekt Ewoud Sanders een lans voor onderwijs naar slim zoeken. Het blijkt dat vele mensen de toetscombinatie Control F niet eens kennen, en hele documenten zelf doorscannen op zoek naar een voor hen relevant deel.