Summarization of meetings using word clouds

Geplaatst op 05-09-2011 door Maarten Marx | Uncategorized | | comment image Geen reacties »

The thesis of Gilles den Hollander was turned into a paper which was presented at CSSE 2011.

  1. Access to paper at IEEE Xplore
  2. local copy

Abstract

In this study parsimonious language models were used to construct word clouds of the proceedings of the European Parliament. Multiple design choices had to be made and are discussed. Important features are stemming during tokenization, including bigrams into the word cloud and multilingualism. Also, the original parsimonious language models were extended with an additional term dampening unigrams that already occurred in the word cloud. This algorithm was tested in a small user study, using proceedings of the University of Amsterdam Science faculty’s student council. Members of this council had to give their preference for multiple word clouds constructed using either parsimonious language models or simple Term Frequencies (TF) with stop words. 68% over 29% (p <;60; 0.05, two-tailed paired t-test) preferred the word clouds constructed using parsimonious language models. Beside the system design, further technical findings, the social significance of applying word clouds to political data and possibilities for future work are discussed.

Samenwerking PoliticalMashup en NRC Den Haag

Geplaatst op 05-07-2011 door Maarten Marx | Uncategorized | | comment image Geen reacties »

PoliticalMashup is een samenwerking begonnen met de Haagse afdeling van NRC Handelsblad.
Het eerste artikel, over de werkzaamheden van de oude en nieuwe Kamerleden in het eerste jaar van het Kabinet Rutte, verscheen op zaterdag 2 Juli. Alle feiten zijn terug te vinden op een speciale website: http://nrc.nl/denhaag/.

Talk Mattia Tomasoni May 10

Geplaatst op 02-05-2011 door Maarten Marx | Uncategorized | | comment image Geen reacties »

Mattia Tomasoni visits ILPS on May 10 and 11. He might come to work with us as a PhD student. Mattia gives a talk on the topic of his 2010 ACL paper in an improvised ILPS seminar.
If you want to meet up with him, mail him at tomasonimattia@googlemail.com. He is with us the full two days.

Time and place: May 10, 10.30-11.15 Room A1.08.

Title: “Summarization in Yahoo! Answers”

Abstract:
“The objective of my MSc thesis was to automatically summarize information crawled from the Yahoo! Answers website with the purpose of generating trustful, complete, relevant and succinct summaries in response to users’ questions.

Unfortunately, information found online is often redundant, noisy and untrustworthy; interestingly, though, content generated by actual individuals (rather than published by an editor) contains metadata that can be exploited (i.e. machine learned) to overcome those very same difficulties!

To this end, my former supervisor and I devised four “metadata-aware measures for answer summarization”: Quality, Coverage, Relevance and Novelty. How they are defined, calculated, combined and finally evaluated will be the topic of my talk.”

Link to paper http://portal.acm.org/citation.cfm?id=1858759 (paper at ACL 2010)

CCCT seminar 18 Maart 16.00

Geplaatst op 13-03-2011 door Maarten Marx | Uncategorized | | comment image Geen reacties »

Speakers
– dr. Jonneke Bekkenkamp (Religious Studies): Groenlinks We-speak: In favour of the individual, but not of individualism.
– prof. dr. Maarten de Rijke (Informatics Institute): Semantic Search

Moderator
– dr. Rens Vliegenthart (Commmunication Sciences)

Location
Oudemanhuispoort, zaal 110C C0.17
Oudemanhuispoort 4-6
1012 CN Amsterdam

Time
Friday, 18 March, 16.00-17.00 hrs (followed by drinks).
| lees verder…

PoliticalMashup in Groningen

Geplaatst op 10-03-2011 door Maarten Marx | Uncategorized | | comment image Geen reacties »

Vrijdag 11 Maart 2011, geeft Maarten Marx een lezing bij Informatiekunde, Faculteit der Letteren, Rijksuniversiteit Groningen, getiteld

Connecting promises and actions of politicians and how the society reacts on them

De slides zijn beschikbaar in print- en scherm-formaat.

Example applications:

| lees verder…

Duizenden Kamerstukken verdwenen uit overheidsportaal

Geplaatst op 02-03-2011 door Maarten Marx | Uncategorized | | comment image Geen reacties »

Mede op basis van informatie van PoliticalMashup heeft Trouw.nl een artikel geplaatst dat het probleem van de vele documenten die missen op https://zoek.officielebekendmakingen.nl/.

Oorlog in de Kamer

Geplaatst op 01-03-2011 door Maarten Marx | Uncategorized | | comment image Geen reacties »

PoliticalMashup heeft samen met het NIOD en DANS een Clarin subsidie gekregen om onderzoek te doen naar het gebruik van de oorlog als argument in het politieke debat sinds 1945.
Het project gaat tussen April en Mei van start en zal een jaar duren.
Het NRC besteedde er vrijdag 25 Februari al aandacht aan in het artikel Waarom politici graag over de oorlog praten.

Als voorproefje hebben we hier een csv file beschikbaar gemaakt (dit is in te lezen in bijvoorbeeld Excel) met daarin alle paragrafen uit de Handelingen van de Tweede Kamer tussen 1996 en eind 2010 waarin een van de volgende woorden voorkomt:

hitler, NSB, joden, landverrader, collaboratie

Dit leverde 204 hits op.
De eerste hit komt uit een betoog van de Heer Middel (PvdA) tijdens een debat over Particuliere beveiligingsorganisaties. Hij begint als volgt:

Voorzitter! Het heeft heel lang geduurd, maar het is er toch van gekomen: er ligt nu een wetsvoorstel. Wij hebben het tientallen jaren moeten doen, tot 1991, met een wet van voor de oorlog die ooit bedoeld was om de geüniformeerde NSB van de straat te houden….

Deze data laten zien dat een zo ruwe aanpak erg veel valse hits oplevert. Binnen het project worden met behulp van machine-leren meer fijnmazige classifiers ontwikkeld.

Links en materiaal

Johan van Doornik new Postdoc at PoliticalMashup

Geplaatst op 28-02-2011 door Maarten Marx | Uncategorized | | comment image Geen reacties »

Dr. Ir. Johan van Doornik starts March 1, 2011 as a postdoc on the NWO-sponsored PoliticalMashup project. Johan has a master in Electrical Engineering from Twente, obtained his PhD in Aalborg where he was an assistant professor for two years. Then he moved to Stanford were he was a postdoc for 4 years.

He has a strong background in modeling and making simulations of human diseases, in particular muscle related problems with children.

Within the PoliticalMashup project he will work on Data Deduplication, linking newspaper articles to parliamentary activities, and analysis of networks of politicians.

PoliticalMashup Vacature

Geplaatst op 10-02-2011 door Maarten Marx | onderwijs, Uncategorized | | comment image Geen reacties »

Binnen de PoliticalMashup groep aan de UvA is er een vacature voor een postdoc binnen het project ‘Oorlog in de Kamer’.

Dit project wordt in samenwerking met het Nederlands Instituut voor Oorlogsdocumentatie (NIOD) uitgevoerd, en is gefinancierd door Clarin II. Het doel is om het gebruik van de Tweede Wereld Oorlog als argument in het debat in het Nederlandse Parlement systematisch in kaart te brengen. Het project werkt met de Handelingen der Staten Generaal van 1930 tot heden. Die zijn allemaal in een rijk XML formaat beschikbaar.

Binnen het project zal de postdoc zich voornamelijk bezig houden met annoteren van de tekstuele data met behulp van zelfgetrainde classifiers en NLP-tools speciaal voor Nederlandstalige data, onder andere Named-Entity Recognizers en Timex taggers. Het beoogde eindproduct is een zoeksysteem voor de Handelingen gericht op professionele gebruikers met een historische achtergrond. Het systeem biedt advanced search mogelijkheden voor zoekvragen m.b.t. de oorlog.

Profiel ervaring in taal technologie, werken met heel veel tekstuele data en XML technologie.
Goede wetenschappelijke programmeurs kunnen ook solliciteren
Dienstverband 1 jaar fulltime.

Link naar de volledige advertentietekst.

Release of CORPS: a corpus of political speeches tagged with audience reactions

Geplaatst op 02-02-2011 door Maarten Marx | Uncategorized | | comment image Geen reacties »

Marco Guerini released CORPS, a corpus of political speeches tagged with specific audience reactions, such as APPLAUSE or LAUGHTER.
| lees verder…

« eerdere stukken latere stukken »