Named Entity Recognition op NLDB
Binnen het Clarin project War In Parliament spelen named entities een belangrijke rol. In de Handelingen der Staten Generaal bepalen we voor elke woord wie het gesproken heeft. Met behulp van Named Entity Recognition technieken bepalen we in de uitgesproken tekst over welke entiteiten er dan gesproken wordt.
Nadat we de entiteiten herkend hebben proberen we ze te normaliseren door ze te verbinden met Wikipedia paginas.
We kunnen dan vragen beantwoorden als
- Wie spreekt over wie?
- Wie heeft het het meest over locatie X?
- Welke organisaties worden het meest in de Kamer besproken. Splits dat uit per partij.
- Welke Kamerlid spreekt het meest over zijn woonplaats of geboorteplaats?
- …
Lars Buitinck heeft een vernieuwende manier gevonden om een named entity recognizer te trainen op basis van geannoteerde data. De voordelen van zijn methode zijn simpelheid, inzichtelijkheid en snelheid. Lars presenteert de methode op de 17th International conference on Applications of Natural Language Processing to Information Systems (26-28/6/2012, Groningen).
@inproceedings{
title = {Two-stage named-entity recognition using averaged perceptrons},
author = {L. Buitinck and M. Marx},
booktitle = {Proc. 17th International Conference on
Applications of Natural Language Processing
to Information Systems},
editor = {G. Bouma and A. Ittoo and E. M\'{e}tais
and H. Wortmann},
publisher = {Springer},
address = {Groningen, Netherlands},
year = 2012
}
Reageer