Digging into Parliamentary Data

Geplaatst op 16-01-2014 door Maarten Marx | DiLiPaD, parliament, research | tags: | comment image Geen reacties »

A consortium consisting of the University of Amsterdam, King’s College London and the University of Toronto was awarded a Digging into Data grant for the project Digging into Parliamentary Data.
| lees verder…

Wat zijn de belangrijkste themas in een verkiezingsprogramma?

Geplaatst op 06-03-2013 door Maarten Marx | idea, lecture, parliament, Political Mashup, research, XML | tags: | comment image Geen reacties »

Die vraag beantwoorden we in deze post met behulp van een zogenaamd dispersie plot. In zo’n plot delen we een verkiezingsprogramma op de x-as op in alineas.

Op de y-as staan verkiezingsthemas. Elke paragraaf is “getagged” met 1 of meerdere van deze themas. Als dat zo is wordt dat in het plot aangegeven met een horizontaal streepje. Elk thema heeft dus de vorm van een barcode die aangeeft hoe verspreid dat thema over het hele programma behandeld wordt.

De dispersie waarde van een thema geeft de mate van spreiding weer: hoe hoger de waarde, hoe vaker en goed gespreid het thema voorkomt.

Deze dispersie waarde lijkt een prima indicator voor de belangrijkheid (saliency) van een thema voor een partij.

| lees verder…

Automatische classificatie van documenten

Geplaatst op 05-10-2012 door Maarten Marx | data, parliament, Political Mashup, research | tags: | comment image Geen reacties »

Het toekennen van trefwoorden uit een vaste lijst aan documenten (“taggen”) is een tijdrovende en dus kostbare taak. Vandaar dat veel onderzoek gedaan wordt naar automatiseren van die taak.
Die taak kan je op twee manieren automatiseren:

  1. Traditioneel De computer kent een beperkt aantal (3-6) trefwoorden aan een document toe, zonder ordening op die woorden.
  2. Anders De computer kent een flinke lijst (50-100) trefwoorden toe, allemaal met een “waarschijnlijkheids score”, die bijvoorbeeld zichtbaar gemaakt kan worden in een woordenwolk

Voor de traditionele manier maakt een computer nog te veel fouten om dit zonder menselijk ingrijpen uit te voeren. Het meest zinvolle is het maken van een term aanbevelings systeem.
Zo’n systeem geeft voor elk te taggen document een geordende lijst van de trefwoorden, en de menselijke tagger kan daar dan de juiste uitkiezen.
Dit lijkt wel wat op Google zoeken. Ook bij zo’n systeem is het van groot belang dat de juiste trefwoorden hoog in de lijst voorkomen. Dan leidt het gebruik van het aanbevelings-systeem tot tijdswinst.

Hoe werkt dat nou?

Lerend uit heel veel voorbeelden (documenten voorzien van trefwoorden) maken we een model op van elk trefwoord. Dat model bestaat simpelweg uit een lijst woorden voorzien van een gewicht. Die woorden kan je zien als een indicator dat een document over dat trefwoord gaat. De gewichten geven aan hoe belangrijk die indicator is.
Om een beeld te geven hebben we hier de 100 meest belangrijke indicatoren gezet die ons systeem geleerd heeft voor het trefwoord militaire vliegtuigen. In plaats van de gewichten laten we de woorden zien in een woordenwolk. Het is duidelijk dat de meeste woorden prima bij dat begrip passen.

Verdere beschrijving en uitleg

| lees verder…

Peak explanation in parliamentary proceedings

Geplaatst op 27-09-2012 door Maarten Marx | research | tags: | comment image Geen reacties »

The political n-gram viewer created for 200 years of Dutch parliamentary proceedings can reveal fascinating patterns. Here are two example queries:

We ask for the occurances of leading Dutch opinion weeklies and daily newspapers, respectively.

Clicking on the search terms in the box on the right brings more clarity in the spagetti pictures. What it reveals is that every news-source has its own peaks. For instance, “haagse post” has 268 hits in 1974, while the maximum number of hits in a year for all 5 newspapers was 48.

What happened?

A nice addition to the n-gram viewer would be a feature which explains such peaks.
A search on Google on the terms “haagse post”+1974 reveals one possible explanation: a link to a news article from 1974 in the archive of the Reformatorisch Dagblad, stating that the Dutch government wants to financially support the magazine “Haagse Post”.

Is this the explanation?

It would be nice to have a high precision full-automatic peak explanation mechanism, possibly using a historical newspaper corpus like the one of Reformatorisch Dagblad.

Using the KB newspaper archive to find explanations

The query NSB gives three clear peaks: in 1979, 1986 and 1988. A search on the terms nsb kamer in http://kranten.kb.nl/search seems to give a very clear indication about the possible explanation of the peak, even though the corpus of that period is limited to the communist daily and some other small newspapers.
One could try to create an explanation from the newspaper titels using Named Entity recognition and counts of frequencies, and comparisons of dates (when is it discussed in Parliament and when are those corresponding newspaper articles in that year peaking?).

Zoeken naar 2 clubs

Geplaatst op 09-08-2012 door Maarten Marx | research, resultaten | tags: | comment image Geen reacties »

Netwerken bevatten behalve individuen ook groepjes die interresant kunnen zijn. Zo heb je klieks, deelgroepjes waarin iedereen met iedereen verbonden is. Echter die komen niet zo veel voor. Naast klieks bestaan er ook clubs en clans, begrippen geintroduceerd door Rob Mokken, een van Nederderlands nestors op het gebied van het analyseren van netwerken.

Een 2-club binnen een netwerk is een maximaal deel van dat netwerk waarin iedereen of direct met elkaar verbonden is (als in een kliek), of minstens 1 gemeenschappelijke “vriend” heeft.

Het vinden van de grootste 2-club binnen een netwerk is een NP-volledig probleem. Dit zijn problemen die we met de huidige kennis in het algemeen niet snel kunnen oplossen.
Het gebied van de kunstmatige intelligentie (AI) houdt zich precies bezig met het toch proberen op te lossen van dit soort hele moeilijke problemen. Steven Laan, een derde jaars student AI heeft zijn Bacehelor scriptie over dit onderwerp geschereven.

De scriptie is hieronder beschikbaar, samen met een aantal data sets en de 2-clubs die daar inzitten.

Politicologenetmaal

Geplaatst op 11-06-2012 door Maarten Marx | parliament, Political Mashup, research | tags: | comment image Geen reacties »

Johan van Doornik presenteerde werk over de rol van vrouwen in het Nederlandse parlement in de periode 1918-2011 tijdens het politicologenetmaal van 2012 in Amsterdam.
Een korte beschrijving van het werk staat in het abstract: Women in Parliament: what they did?
| lees verder…

Named Entity Recognition op NLDB

Geplaatst op 04-05-2012 door Maarten Marx | research | tags: | comment image Geen reacties »

Binnen het Clarin project War In Parliament spelen named entities een belangrijke rol. In de Handelingen der Staten Generaal bepalen we voor elke woord wie het gesproken heeft. Met behulp van Named Entity Recognition technieken bepalen we in de uitgesproken tekst over welke entiteiten er dan gesproken wordt.

Nadat we de entiteiten herkend hebben proberen we ze te normaliseren door ze te verbinden met Wikipedia paginas.
We kunnen dan vragen beantwoorden als

  • Wie spreekt over wie?
  • Wie heeft het het meest over locatie X?
  • Welke organisaties worden het meest in de Kamer besproken. Splits dat uit per partij.
  • Welke Kamerlid spreekt het meest over zijn woonplaats of geboorteplaats?

Lars Buitinck heeft een vernieuwende manier gevonden om een named entity recognizer te trainen op basis van geannoteerde data. De voordelen van zijn methode zijn simpelheid, inzichtelijkheid en snelheid. Lars presenteert de methode op de 17th International conference on Applications of Natural Language Processing to Information Systems (26-28/6/2012, Groningen).

Link naar het artikel: Two-stage named-entity recognition using averaged perceptrons
Lars Buitinck and Maarten Marx

@inproceedings{
 title = {Two-stage named-entity recognition using averaged perceptrons},
 author = {L. Buitinck and M. Marx},
 booktitle = {Proc. 17th International Conference on
              Applications of Natural Language Processing
              to Information Systems},
 editor = {G. Bouma and A. Ittoo and E. M'{e}tais
           and H. Wortmann},
 publisher = {Springer},
 address = {Groningen, Netherlands},
 year = 2012
}

Namescape van start

Geplaatst op 22-03-2012 door Maarten Marx | research | tags: | comment image Geen reacties »

Het NameScape project is van start gegaan. Alles daarover staan in de slides die Karina van Dalen liet zien op de Clarin 3 kickoff meeting.

| lees verder…

Computational Humanities: een voorbeeld

Geplaatst op 07-03-2012 door Maarten Marx | parliament, research, XML | tags: | comment image Geen reacties »

Door het beschikbaar komen van enorme digitale databestanden bestaande uit (meestal ingescande) teksten is er grote vraag bij Geesteswetenschappers ontstaan naar hulp bij het ontsluiten van die data.
In de projecten die ILPS doet met Geesteswetenschappers komen de volgende twee verzoeken steeds naar voren:

  1. uitgebreide “advanced search” zoekmogelijkheid, net zo goed als Google, maar dan op mijn specifieke collectie, met specifieke extra zoekmogelijkheden;
  2. het doen van data analyse op grote hoeveelheden tekst. Dit om hypotheses kwantitatief te kunnen toetsen.

Handelingen der Staten Generaal
Binnen het PoliticalMashup project wordt samengewerkt met geesteswetenschappers van DNPP, NIOD, ING-Huygens, Meertens, INL, ASCoR, en verschillende universiteiten en maatschappelijke instellingen.
Zij hebben grote interesse in een prachtig databestand: de complete Handelingen der Staten Generaal van 1814 tot vandaag. Die zijn digitaal beschikbaar bij de KB.

We demonstreren de kracht van informatie extractie samen met gestructureerde zoektechnologie in XML aan de hand van twee voorbeelden:

  • de drie van Breda
  • NWO

In deze demonstratie beperken we ons tot het uitgebreid zoeken.
| lees verder…

Quality of the XML web

Geplaatst op 04-08-2011 door Maarten Marx | research, resultaten, XML | | comment image Geen reacties »

A paper on the quality of the XML files found on the web will be published in the proceedings of the 2011 ACM Conference on Information and Knowledge Management (CIKM).

Abstract

We collect evidence to answer the following question: Is the quality of the XML documents found on the web sufficient to apply XML technology like XQuery, XPath and XSLT? XML collections from the web have been previously studied statistically, but no detailed information about the quality of the XML documents on the web is available to date. We address this shortcoming in this study. We gathered 180K XML documents from the web. Their quality is surprisingly good; 85.4% is well-formed and 99.5% of all specified encodings is correct. Validity needs serious attention. Only 25% of all files contain a reference to a DTD or XSD, of which just one third is actually valid. Errors are studied in detail. Automatic error repair seems promising. Our study is well documented and easily repeatable. This paves the way for a periodic quality assessment of the XML web.
The full paper and all data are publicly available at the url http://data.politicalmashup.nl/xmlweb.

« eerdere stukken