Verkiezingsprogrammas van Lipschits Digitaal

Geplaatst op 08-05-2012 door Maarten Marx | data, parliament, Political Mashup, resultaten | tags: | comment image Geen reacties »

PoliticalMashup heeft samen met het DNPP de bundels verkiezingsprogrammas gemaakt door Isaac Lipschits gedigitaliseerd. Het DNPP heeft de boeken ingescand en geOCRed. Suzan Verberne heeft de teksten vervolgens omgezet naar een uitgebreid XML formaat.
In deze blogpost laten we zien wat je daar dan mee kan. Om te beginnen een verkiezingsthemawolk van de VVD uit 1998. Hierin staan alle onderwerpen die volgens Lipschits minstens 2 maal in het programma van de VVD aan bod kwamen. De top tien bestaat inderdaad uit typische VVD onderwerpen.

werkgelegenheid:16
 Europese_samenwerking:12
 milieubeleid:11
 belastingen_algemeen:11
 onderwijs:11
 economische_groei:9
 gezondheidszorg:9
 criminaliteits_bestrijding:9
 loon-_en_inkomensbeleid:8
 gemeentelijk_bestuur_en_beleid:8


| lees verder…

Named Entity Recognition op NLDB

Geplaatst op 04-05-2012 door Maarten Marx | research | tags: | comment image Geen reacties »

Binnen het Clarin project War In Parliament spelen named entities een belangrijke rol. In de Handelingen der Staten Generaal bepalen we voor elke woord wie het gesproken heeft. Met behulp van Named Entity Recognition technieken bepalen we in de uitgesproken tekst over welke entiteiten er dan gesproken wordt.

Nadat we de entiteiten herkend hebben proberen we ze te normaliseren door ze te verbinden met Wikipedia paginas.
We kunnen dan vragen beantwoorden als

  • Wie spreekt over wie?
  • Wie heeft het het meest over locatie X?
  • Welke organisaties worden het meest in de Kamer besproken. Splits dat uit per partij.
  • Welke Kamerlid spreekt het meest over zijn woonplaats of geboorteplaats?

Lars Buitinck heeft een vernieuwende manier gevonden om een named entity recognizer te trainen op basis van geannoteerde data. De voordelen van zijn methode zijn simpelheid, inzichtelijkheid en snelheid. Lars presenteert de methode op de 17th International conference on Applications of Natural Language Processing to Information Systems (26-28/6/2012, Groningen).

Link naar het artikel: Two-stage named-entity recognition using averaged perceptrons
Lars Buitinck and Maarten Marx

@inproceedings{
 title = {Two-stage named-entity recognition using averaged perceptrons},
 author = {L. Buitinck and M. Marx},
 booktitle = {Proc. 17th International Conference on
              Applications of Natural Language Processing
              to Information Systems},
 editor = {G. Bouma and A. Ittoo and E. M'{e}tais
           and H. Wortmann},
 publisher = {Springer},
 address = {Groningen, Netherlands},
 year = 2012
}