Johan van Doornik new Postdoc at PoliticalMashup

Geplaatst op 28-02-2011 door Maarten Marx | Uncategorized | | comment image Geen reacties »

Dr. Ir. Johan van Doornik starts March 1, 2011 as a postdoc on the NWO-sponsored PoliticalMashup project. Johan has a master in Electrical Engineering from Twente, obtained his PhD in Aalborg where he was an assistant professor for two years. Then he moved to Stanford were he was a postdoc for 4 years.

He has a strong background in modeling and making simulations of human diseases, in particular muscle related problems with children.

Within the PoliticalMashup project he will work on Data Deduplication, linking newspaper articles to parliamentary activities, and analysis of networks of politicians.

15 jaar kamerwerk in lijstjes

Geplaatst op 24-02-2011 door Maarten Marx | parliament | | comment image Geen reacties »

Geïnspireerd door het heerlijke Elseviers Groot Politiek Lijstenboek Negenmannen, Oranjes & matpartijen is PoliticalMashup ook wat lijstjes gaan maken op basis van haar Handelingen verzameling in XML.

We hebben voor elk kalenderjaar vanaf 1995, voor elke Kamer een soort jaaroverzicht gemaakt van wat er in die Kamer gebeurd is. Wat we laten zien is maar een fractie van de dingen die we zouden kunnen turven. Een overzicht:

  • Aantal behandelde onderwerpen per jaar, en gemiddeld per dag in dat jaar. Wat waren uitschieters?
  • Hoeveel onderwerpen er in elke week behandeld werden (handig om te zien of er die week misschien data mist).
  • Het aantal woorden dat er dat jaar gesproken werd.
  • Van elke spreker, hoe vaak gesproken is, hoeveel woorden gezegd zijn, hoe vaak de spreker geïnterrumpeerd is geïnterrumpeerd én heeft.

Zoals al eerder is opgemerkt is de data niet 100% betrouwbaar omdat de bronnen zoals we die bij https://zoek.officielebekendmakingen.nl ophalen niet volledig zijn.
Zo is er, ondanks dat deze site alle Handelingen vanaf 1 Januari 1995 zegt te hebben, geen informatie uit 1995 beschikbaar. Ook voor andere jaren missen er stukken.

Eerste Kamer Tweede Kamer
1995 verslag verslag
1996 verslag verslag
1997 verslag verslag
1998 verslag verslag
1999 verslag verslag
2000 verslag verslag
2001 verslag verslag
2002 verslag verslag
2003 verslag verslag
2004 verslag verslag
2005 verslag verslag
2006 verslag verslag
2007 verslag verslag
2008 verslag verslag
2009 verslag verslag
2010 verslag verslag

Niet Wilders, maar Cohen krijgt de meeste aandacht

Geplaatst op 23-02-2011 door Maarten Marx | parliament | tags: | comment image Geen reacties »

We hebben een aantal malen over interruptienetwerken geschreven. Een interruptiegraaf is een graphische weergave van een debat als een sociaal netwerk, waarin de deelnemers aan het debat de knopen zijn en er een pijl gaat van A naar B als A persoon B interrumpeerd. Onderaan deze post staat een voorbeeld van zo’n netwerk.

Net als hyperlinks tussen webpaginas kan je een interruptie zien als het geven van aandacht.
Binnen zo’n graaf kan je dan kijken wie er het meeste aandacht krijgt. Dat is op verschillende manieren te meten. We noemen er drie:

  • tel het aantal inkomende pijlen (de indegree)
  • weeg het aantal inkomende pijlen op een bepaalde manier:
    • gebruik de dikte van de pijl (het aantal interrupties, dus de intensiteit van de aandacht)
    • weeg een inkomende pijl met de belangrijkheid van de gever van de aandacht.

Het laatste idee zit achter Google’s fameuze PageRank wat weer een variant is van het begrip eigenvector centraliteit, dat veel in sociale netwerk analyse gebruikt. wordt.

We leggen het idee in een versimpelde versie uit. Voor meer, zie Wikipedia over PageRank.
Het idee is dat de aandacht die een persoon kan “weggeven” gelijk is aan zijn belangrijkheid. Als iemand zijn aandacht aan meerdere mensen geeft (hij interrumpeert meerdere personen), dan verdeelt hij zijn aandacht over die personen. De belangrijkheid van iemand is dan de som van alle aandacht die hij ontvangt.
In een formula gaat dat dan als volgt: de belangrijkheid van een persoon a in een netwerk, notatie B(a) , is

B(a) = de som van B(b)/outdegree(b) voor alle b met een pijl naar a

De outdegree(b) is het aantal pijlen dat vanuit b vertrekt.
We geven hieronder de sterk gerelateerde eigenvector centraliteit voor de deelnemers aan het debat over de regeringsverklaring op 26 Oktober 2010. Onderaan deze post staat een tekening van de interruptiegraaf. De interruptiegraaf staat nog mooier afgedrukt in een artikel in NRC Next. In dat artikel staan de deelnemers ook gerangschikt op het aantal ontvangen interrupties.
De volgorde aan de top is Blok, Wilders, Buma en dan Cohen. Cohen heeft minder dan een kwart van de interrupties die Blok heeft gekregen.

Gaan we de eigenvector centraliteit berekenen, dan komt er een heel ander beeld naar voren. Nu krijgt Cohen de meeste aandacht, gevolgd door, wie had ook anders verwacht, Wilders. Blok en Buma krijgen nu vrijwel evenveel aandacht, maar flink minder dan Cohen en Wilders. De rest krijgt slechts marginaal aandacht.

Cohen 1
Wilders .85
Blok .6
Buma .58
Van der Staaij .11
Pechtold .09
Halsema .09
Roemer 0
Rouvoet 0
Thieme 0

Voor iedereen die zelf wil gaan rekenen met deze graaf hebben we hem beschikbaar gemaakt in graphml formaat.

Interview Search Engine

Geplaatst op 17-02-2011 door Maarten Marx | resultaten, XML | tags: | comment image Geen reacties »


SEARCH ENGINE for the SIGMOD RECORD INTERVIEWS with
DISTINGUISHED MEMBERS of the DATABASE COMMUNITY

http://xml.politicalmashup.nl/sigmod

By synchronizing the full text and the videos of the interviews by Marianne Winslett we made her collection of interviews on video full text searchable. The result of a keyword search is a relevance ranked list of best entry points to the videos, given a query. Clicking on a “hit” starts the video at the question whose answer is about the searcher’s query.

The set of interviews spans almost 10 years and presents a fascinating view on the database research in that period. We view this collection as an addition to other documenting and archiving initiatives as DBLP and the ACM Sigmod Anthology.

The whole system is written in XQuery and runs on the eXist XML database system.
More information.

The system was developed by Maarten Marx and Anne Schuth and supported by the FP7 FET program of the EU, under the FET-Open grant agreement FOX, number FP7-ICT-233599.

PoliticalMashup Vacature

Geplaatst op 10-02-2011 door Maarten Marx | onderwijs, Uncategorized | | comment image Geen reacties »

Binnen de PoliticalMashup groep aan de UvA is er een vacature voor een postdoc binnen het project ‘Oorlog in de Kamer’.

Dit project wordt in samenwerking met het Nederlands Instituut voor Oorlogsdocumentatie (NIOD) uitgevoerd, en is gefinancierd door Clarin II. Het doel is om het gebruik van de Tweede Wereld Oorlog als argument in het debat in het Nederlandse Parlement systematisch in kaart te brengen. Het project werkt met de Handelingen der Staten Generaal van 1930 tot heden. Die zijn allemaal in een rijk XML formaat beschikbaar.

Binnen het project zal de postdoc zich voornamelijk bezig houden met annoteren van de tekstuele data met behulp van zelfgetrainde classifiers en NLP-tools speciaal voor Nederlandstalige data, onder andere Named-Entity Recognizers en Timex taggers. Het beoogde eindproduct is een zoeksysteem voor de Handelingen gericht op professionele gebruikers met een historische achtergrond. Het systeem biedt advanced search mogelijkheden voor zoekvragen m.b.t. de oorlog.

Profiel ervaring in taal technologie, werken met heel veel tekstuele data en XML technologie.
Goede wetenschappelijke programmeurs kunnen ook solliciteren
Dienstverband 1 jaar fulltime.

Link naar de volledige advertentietekst.

Release of CORPS: a corpus of political speeches tagged with audience reactions

Geplaatst op 02-02-2011 door Maarten Marx | Uncategorized | | comment image Geen reacties »

Marco Guerini released CORPS, a corpus of political speeches tagged with specific audience reactions, such as APPLAUSE or LAUGHTER.
| lees verder…

Bevrijde Woorden

Geplaatst op 02-02-2011 door Maarten Marx | parliament | tags: | comment image Geen reacties »

Van Document- naar Persoonsgerichte ontsluiting van de Handelingen der Staten Generaal

Bron: Dixit December 2010.

Sinds eind 2010 zijn de volledige Handelingen der Staten-Generaal (vanaf 1814) digitaal beschikbaar. En wel gratis, vrij van rechten, en vanuit elke woonkamer via www.statengeneraaldigitaal.nl, een samenwerking tussen de Koninklijke Bibliotheek en de Staten-Generaal. In dit artikel bespreken we een klein, maar wel bekend deel hiervan; de notulen van de vergaderingen in de Grote Zaal.

| lees verder…