Automatische classificatie van documenten

Geplaatst op 05-10-2012 door Maarten Marx | data, parliament, Political Mashup, research | tags: | Geen reacties »

Het toekennen van trefwoorden uit een vaste lijst aan documenten (“taggen”) is een tijdrovende en dus kostbare taak. Vandaar dat veel onderzoek gedaan wordt naar automatiseren van die taak.
Die taak kan je op twee manieren automatiseren:

  1. Traditioneel De computer kent een beperkt aantal (3-6) trefwoorden aan een document toe, zonder ordening op die woorden.
  2. Anders De computer kent een flinke lijst (50-100) trefwoorden toe, allemaal met een “waarschijnlijkheids score”, die bijvoorbeeld zichtbaar gemaakt kan worden in een woordenwolk

Voor de traditionele manier maakt een computer nog te veel fouten om dit zonder menselijk ingrijpen uit te voeren. Het meest zinvolle is het maken van een term aanbevelings systeem.
Zo’n systeem geeft voor elk te taggen document een geordende lijst van de trefwoorden, en de menselijke tagger kan daar dan de juiste uitkiezen.
Dit lijkt wel wat op Google zoeken. Ook bij zo’n systeem is het van groot belang dat de juiste trefwoorden hoog in de lijst voorkomen. Dan leidt het gebruik van het aanbevelings-systeem tot tijdswinst.

Hoe werkt dat nou?

Lerend uit heel veel voorbeelden (documenten voorzien van trefwoorden) maken we een model op van elk trefwoord. Dat model bestaat simpelweg uit een lijst woorden voorzien van een gewicht. Die woorden kan je zien als een indicator dat een document over dat trefwoord gaat. De gewichten geven aan hoe belangrijk die indicator is.
Om een beeld te geven hebben we hier de 100 meest belangrijke indicatoren gezet die ons systeem geleerd heeft voor het trefwoord militaire vliegtuigen. In plaats van de gewichten laten we de woorden zien in een woordenwolk. Het is duidelijk dat de meeste woorden prima bij dat begrip passen.

Verdere beschrijving en uitleg

Hieronder beschrijven we wat experimenten gedaan door Sicco van Sas met het maken van zo’n systeem voor Nederlandse Kamervragen.

Voorlopig zijn alleen deze slides beschikbaar:

Reageer

Je moet ingelogd zijn om te kunnen reageren.