Protected: Wie spreken in de Tweede Kamer? Per partij, en per zittingsperiode.

Geplaatst op 19-04-2011 door Maarten Marx | parliament, resultaten | | comment image Enter your password to view comments.

This content is password protected. To view it please enter your password below:

Interview Search Engine

Geplaatst op 17-02-2011 door Maarten Marx | resultaten, XML | tags: | comment image Geen reacties »


SEARCH ENGINE for the SIGMOD RECORD INTERVIEWS with
DISTINGUISHED MEMBERS of the DATABASE COMMUNITY

http://xml.politicalmashup.nl/sigmod

By synchronizing the full text and the videos of the interviews by Marianne Winslett we made her collection of interviews on video full text searchable. The result of a keyword search is a relevance ranked list of best entry points to the videos, given a query. Clicking on a “hit” starts the video at the question whose answer is about the searcher’s query.

The set of interviews spans almost 10 years and presents a fascinating view on the database research in that period. We view this collection as an addition to other documenting and archiving initiatives as DBLP and the ACM Sigmod Anthology.

The whole system is written in XQuery and runs on the eXist XML database system.
More information.

The system was developed by Maarten Marx and Anne Schuth and supported by the FP7 FET program of the EU, under the FET-Open grant agreement FOX, number FP7-ICT-233599.

Opinion Mining in Parliamentary Proceedings

Geplaatst op 22-03-2010 door Maarten Marx | resultaten | tags: | comment image Geen reacties »

Based on the Bachelor thesis of Steven Grijzenhout an article on opinion mining in the Dutch Hansards was written and accepted at the workshop From Text to Political Positions,
From Sentiments and Opinions in Texts to Party Positions
.

The updated version of the paper will appear in the formal conference proceedings.
Paper (updated version): Sentiment Analysis in Parliamentary Proceedings

Bibtex:

@InProceedings{grij:opin10,
author = {S. Grijzenhout and V. Jijkoun and M. Marx},
title = {Opinion Mining in {Dutch Hansards}},
booktitle = {Proceedings Workshop From Text to Political Positions (t2pp 2010)},
year = 2010
}

Verslag van Ikkieswijzer op CIKM

Geplaatst op 28-01-2010 door Maarten Marx | resultaten | tags: | comment image Geen reacties »

Een verslag van het ikkieswijzer.nl project is gepubliceerd in de Proceeding of the 18th ACM Conference on information and Knowledge Management (Hong Kong, China, November 02 – 06, 2009).

Het artikel is hier te vinden

  1. Inclusief metadata: http://doi.acm.org/10.1145/1645953.1646320 (voor leden van de Association of Computing Machinery)
  2. Artikel in PDF-formaat.

| lees verder…

PDF processing

Geplaatst op 27-01-2010 door Maarten Marx | resultaten | tags: , | comment image Geen reacties »

For the PoliticalMashup project we developed a technique to turn PDF files into well structured XML. The technique is described in the DutchParl paper.
In that paper, we compare the quality of paragraph splitting obtained by our PDF2XML transformation and the paragraph-split OCRed texts available at the statengeneraaldigitaal.nl project. The results were rather positive for our transformation.
In particular for Hansards (Handelingen), we can preserve the original paragraphs with high precision. Special tuning may be needed for the first pages of documents because of their rather wild and non-standard layout.

Here we provide two XML files created from the Proceedings of 27 januari 1994.
When comparing their quality it is recommended to start reading at the second page (page 3412).

  1. XML version created from the OCRed pages available at statengeneraaldigitaal.nl. No text-processing was done, we only concatenated all pages of one day and added some metadata in attributes (unique references and urls referring to the sources).
  2. XML version created with the PDF2XML software using only this input PDF file.

Further text quality improvements we would like to make on these files are named entity recognition and reconcilliation of speakers and file-numbers, and OCR error correction and normalization of spelling variations.

Cultural Heritage

Geplaatst op 22-12-2009 door Maarten Marx | resultaten | tags: | comment image Geen reacties »

Maarten Marx published an article in a Special Issue of the Journal of Digital Information on Information Access to Cultural Heritage, edited by Martha Larson, Kate Fernie and John Oomen.

The article is titled Advanced Information Access to Parliamentary Debates.

A copy of the paper is also available locally on this blog.

Vrouwen in het Europees parlement: ExcuusTruusen of volwaardige leden?

Geplaatst op 13-05-2009 door Maarten Marx | resultaten | tags: , | comment image Geen reacties »

Een team van politicolgen en informatici van de Universiteit van Amsterdam hebben voor de verkiezingswebsite ikkieswijzer.nl alle verslagen van het Europees parlement sinds 2004 opgehaald en geanalyseerd. Dit gaat om bijna 20.000 schriftelijke vragen van parlementsleden aan de Europese commissie en meer dan 30.000 toespraken in het parlement.

De onderzoekers kijken naar de aanwezigheid van een zogenaamd glazen plafond voor vrouwen in verschillende publieke organisaties. Dit is nu bekeken voor het Europees parlement.
De belangrijkste conclusie is dat in het EU parlement vrouwen en mannen relatief vrijwel evenveel werk doen: de 31.2% vrouwen zijn verantwoordelijk voor 30.8% van alle toespraken. Maar er zijn wel grote verschillen tussen de EU-landen. Nederland scoort hier niet best: vrouwen geven 18% minder toespraken dan mannen. Daarbij laat Nederland alleen Oostenrijk en Spanje achter zich.

Zo gemeten is er dus geen sprake van een glazen plafond in het Europese parlement. In de Tweede kamer ligt dat heel anders. Daar nemen de 40.6% vrouwelijke leden slechts 32% van wat er gezegd wordt voor hun rekening. De meest vrouwvriendelijke partij daar is gek genoeg de PVV. De PVV heeft slechts 1 vrouwelijk lid, Fleur Agema. Zij vertegenwoordigt 11% van de PVV-fractie, maar is verantwoordelijk voor bijna 19% van wat de PVV in de Kamer zegt.

Vrouwen zeggen in Europa dus evenveel als mannen. Ze hebben het wel duidelijk over andere onderwerpen. Het verschil in woordgebruik kan je mooi laten zien met tagclouds. Die staan in deze blogpost.
| lees verder…

Meteen naar de juiste plek

Geplaatst op 24-04-2009 door Maarten Marx | resultaten | | comment image Geen reacties »

In de <!ELEMENT, het blad van de XML-SGML Holland user group is een artikel verschenen over gericht zoeken in de Handelingen der Staten Generaal en het PoliDocs project [1]. Ook staat er de XSLT code in om de aanvalsgraaf uit een eerder bericht te berekenen.
Dat mooie plaatje van Rianne Kaptein staat trouwens ook op de cover van het <!ELEMENT. Het artikel is ook hier te vinden.

  • [1] M. Marx. Meteen naar de juiste plek <!ELEMENT, Jaargang 15, Nr 1, 4-7, 2009.

Verwijzingen in Kamerstukken

Geplaatst op 03-04-2009 door Maarten Marx | resultaten | | comment image Geen reacties »

De Handelingen der Staten Generaal zijn gewoon notulen van een vergadering. En in vergaderingen worden vaak stukken besproken. Om te begrijpen wat er gezegd wordt is het soms nodig om die stukken er ook bij te halen. We probeerden dit bij Staten-Generaal Digitaal die daar een mooi hulpfunctie voor lijken te hebben, maar kwamen er toch niet uit.

Hier volgt het verslag van onze zoektocht.

Terzijde: deze blog had nooit zo makkelijk en duidelijk geschreven kunnen worden als er geen permalinks bestonden. Hulde aan zowel statengeneraaldigitaal als Google voor de creatie van permalinks voor al hun stukjes informatie. | lees verder…

Paper on parliamentary debates

Geplaatst op 12-02-2009 door Maarten Marx | resultaten | tags: , | comment image Geen reacties »

Tim Gielissen en Maarten Marx wrote a paper Exemelification of Parliamentary Debates (PDF) on the many opportunities offered by parliamentary data for information retrieval researchers.

The paper appeared in the proceedings of the 9th Dutch-Belgian Information Retrieval Workshop (DIR 2009).
| lees verder…

« eerdere stukken latere stukken »