Verslag van Ikkieswijzer op CIKM

Geplaatst op 28-01-2010 door Maarten Marx | resultaten | tags: | Geen reacties »

Een verslag van het ikkieswijzer.nl project is gepubliceerd in de Proceeding of the 18th ACM Conference on information and Knowledge Management (Hong Kong, China, November 02 - 06, 2009).

Het artikel is hier te vinden

  1. Inclusief metadata: http://doi.acm.org/10.1145/1645953.1646320 (voor leden van de Association of Computing Machinery)
  2. Artikel in PDF-formaat.

| lees verder…

PDF processing

Geplaatst op 27-01-2010 door Maarten Marx | resultaten | tags: , | 1 reactie »

For the PoliticalMashup project we developed a technique to turn PDF files into well structured XML. The technique is described in the DutchParl paper.
In that paper, we compare the quality of paragraph splitting obtained by our PDF2XML transformation and the paragraph-split OCRed texts available at the statengeneraaldigitaal.nl project. The results were rather positive for our transformation.
In particular for Hansards (Handelingen), we can preserve the original paragraphs with high precision. Special tuning may be needed for the first pages of documents because of their rather wild and non-standard layout.

Here we provide two XML files created from the Proceedings of 27 januari 1994.
When comparing their quality it is recommended to start reading at the second page (page 3412).

  1. XML version created from the OCRed pages available at statengeneraaldigitaal.nl. No text-processing was done, we only concatenated all pages of one day and added some metadata in attributes (unique references and urls referring to the sources).
  2. XML version created with the PDF2XML software using only this input PDF file.

Further text quality improvements we would like to make on these files are named entity recognition and reconcilliation of speakers and file-numbers, and OCR error correction and normalization of spelling variations.

Cultural Heritage

Geplaatst op 22-12-2009 door Maarten Marx | resultaten | tags: | Geen reacties »

Maarten Marx published an article in a Special Issue of the Journal of Digital Information on Information Access to Cultural Heritage, edited by Martha Larson, Kate Fernie and John Oomen.

The article is titled Advanced Information Access to Parliamentary Debates.

A copy of the paper is also available locally on this blog.

Vrouwen in het Europees parlement: ExcuusTruusen of volwaardige leden?

Geplaatst op 13-05-2009 door Maarten Marx | resultaten | tags: , | Geen reacties »

Een team van politicolgen en informatici van de Universiteit van Amsterdam hebben voor de verkiezingswebsite ikkieswijzer.nl alle verslagen van het Europees parlement sinds 2004 opgehaald en geanalyseerd. Dit gaat om bijna 20.000 schriftelijke vragen van parlementsleden aan de Europese commissie en meer dan 30.000 toespraken in het parlement.

De onderzoekers kijken naar de aanwezigheid van een zogenaamd glazen plafond voor vrouwen in verschillende publieke organisaties. Dit is nu bekeken voor het Europees parlement.
De belangrijkste conclusie is dat in het EU parlement vrouwen en mannen relatief vrijwel evenveel werk doen: de 31.2% vrouwen zijn verantwoordelijk voor 30.8% van alle toespraken. Maar er zijn wel grote verschillen tussen de EU-landen. Nederland scoort hier niet best: vrouwen geven 18% minder toespraken dan mannen. Daarbij laat Nederland alleen Oostenrijk en Spanje achter zich.

Zo gemeten is er dus geen sprake van een glazen plafond in het Europese parlement. In de Tweede kamer ligt dat heel anders. Daar nemen de 40.6% vrouwelijke leden slechts 32% van wat er gezegd wordt voor hun rekening. De meest vrouwvriendelijke partij daar is gek genoeg de PVV. De PVV heeft slechts 1 vrouwelijk lid, Fleur Agema. Zij vertegenwoordigt 11% van de PVV-fractie, maar is verantwoordelijk voor bijna 19% van wat de PVV in de Kamer zegt.

Vrouwen zeggen in Europa dus evenveel als mannen. Ze hebben het wel duidelijk over andere onderwerpen. Het verschil in woordgebruik kan je mooi laten zien met tagclouds. Die staan in deze blogpost.
| lees verder…

Meteen naar de juiste plek

Geplaatst op 24-04-2009 door Maarten Marx | resultaten | | 1 reactie »

In de <!ELEMENT, het blad van de XML-SGML Holland user group is een artikel verschenen over gericht zoeken in de Handelingen der Staten Generaal en het PoliDocs project [1]. Ook staat er de XSLT code in om de aanvalsgraaf uit een eerder bericht te berekenen.
Dat mooie plaatje van Rianne Kaptein staat trouwens ook op de cover van het <!ELEMENT. Het artikel is ook hier te vinden.

  • [1] M. Marx. Meteen naar de juiste plek <!ELEMENT, Jaargang 15, Nr 1, 4-7, 2009.

Verwijzingen in Kamerstukken

Geplaatst op 03-04-2009 door Maarten Marx | resultaten | | Geen reacties »

De Handelingen der Staten Generaal zijn gewoon notulen van een vergadering. En in vergaderingen worden vaak stukken besproken. Om te begrijpen wat er gezegd wordt is het soms nodig om die stukken er ook bij te halen. We probeerden dit bij Staten-Generaal Digitaal die daar een mooi hulpfunctie voor lijken te hebben, maar kwamen er toch niet uit.

Hier volgt het verslag van onze zoektocht.

Terzijde: deze blog had nooit zo makkelijk en duidelijk geschreven kunnen worden als er geen permalinks bestonden. Hulde aan zowel statengeneraaldigitaal als Google voor de creatie van permalinks voor al hun stukjes informatie. | lees verder…

Paper on parliamentary debates

Geplaatst op 12-02-2009 door Maarten Marx | resultaten | tags: , | Geen reacties »

Tim Gielissen en Maarten Marx wrote a paper Exemelification of Parliamentary Debates (PDF) on the many opportunities offered by parliamentary data for information retrieval researchers.

The paper appeared in the proceedings of the 9th Dutch-Belgian Information Retrieval Workshop (DIR 2009).
| lees verder…

Venster op het web

Geplaatst op 23-12-2008 door Maarten Marx | resultaten | tags: | Geen reacties »

Maarten de Rijke vertelt over onderzoek naar user generated content wat gedaan wordt aan de Universiteit van Amsterdam. De UvA verzamelt reacties op nieuwsberichten op het web, ordent die en analyseert ze vervolgens.

Zo weet de UvA niet alleen dagelijks wat er gebeurde, maar ook wat de internet-bevolking daar allemaal van vond.

De video “Venster op het web”, gemaakt door Marc Schaaps.

PoliDocs op Overheid2.0

Geplaatst op 03-12-2008 door Maarten Marx | Political Mashup, resultaten | tags: | Geen reacties »

De makers van PoliDocs.nl zijn gevraagd om te spreken op de Werkconferentie Overheid 2.0.

De toevoeging 2.0 is misschien wat te hoog gegrepen voor PoliDocs.nl. De site is gemaakt om te laten zien dat de 15 eisen opgesteld door het politieke blog Sargasso.nl voor een Open Democratie 1.0 met eenvoudige middelen uitvoerbaar zijn.

Misschien duidt de toevoeging 1.0 slechts op het feit dat deze actie in November 2005 werd gestart. Of zou toch bedoeld zijn dat die 15 eisen het absolute minimum voor een parlementair informatie systeem zijn?

Hoe dan ook, PoliDocs is natuurlijk vereerd. De slides voor deze presentatie zijn een ingekorte versie van de slides gebruikt op de DIV inspiratiebijeenkomst gegeven in November 2008 in Den Haag.

Hier staan de slides van de verkorte presentatie:

Mevrouw de voorzitter, mag ik het woord?

Geplaatst op 04-07-2008 door Maarten Marx | resultaten | tags: , , , , , | Geen reacties »

Al eerder presenteerden we een visualisatie van een kamerdebat, waarin te zien is welke politici elkaar interrumperen en hoe lang de bijdragen van de verschillende sprekers in dit debat zijn. Inmiddels hebben we deze data op nog uitgebreidere manieren weergegeven.

We kunnen nu zien dat de voorzitter, als Wilders achter het spreekgestoelte staat in het debat over de beveiliging van Ayaan Hirsi Ali, actiever is dan gemiddeld in dit debat. Ze is dan 12% van de tijd aan het woord, terwijl ze tijdens de spreekbeurt van Femke Halsema - ondanks dat die door meer interrupties werd onderbroken - maar 2% van de tijd het debat onderbrak. | lees verder…

« eerdere stukken