Linguistische annotatie van de krant

Geplaatst op 07-02-2013 door Maarten Marx | data, Political Mashup, XPath | tags: | comment image Geen reacties »

Binnen het PoliticalMashup project koppelen we verschillende soorten politieke data met elkaar. Een belangrijke koppeling is op politieke actor: welke politieke spelers komen er in een document voor.

Om meer grip te krijgen op de informatie die in krantenartikelen staat, voegen we allerlei linguistische annotatie toe, gebruik makend van de Frog software uit Tilburg/Nijmegen, een Named Entity recognizer aan de UvA ontwikkeld door Lars Buitinck, en software die entities koppelt aan Wikipedia ontwikkeld door Edgar Meij aan de UvA. Het eindresultaat is een UTF-8 geëncodeerd XML bestand dat valideert met een variant op het Folia schema.
| lees verder…