Interruptiedata geanalyseerd door Sargasso

Geplaatst op 05-01-2012 door Maarten Marx | data, resultaten | tags: | Geen reacties »

Dimitri Tokmetzis van Sargasso heeft de interruptiedata van het eerste jaar Rutte I genanalyseerd en er twee mooie verhalen over geschreven. Alper Çugun van het datavisualisatiebureau Monster Swell heeft er een fraaie interactieve visualisatie van gemaakt. Zie

Dataontsluiting met XML, XQuery en XSLT

Geplaatst op 18-11-2011 door Maarten Marx | XML, XPath, eXist, resultaten, xquery, xslt | | Geen reacties »

Anne Schuth en Maarten Marx hebben een artikel geschreven voor de <!ELEMENT, het blad van de XML Holland user-groep. Het artikel laat zien hoe je met gebruikmaking van alleen maar XML technologie een volledige applicatie kan bouwen. In het artikel wordt het voorbeeld van een video zoekmachine helemaal uitgewerkt.

  • Link naar het artikel
  • Anne Schuth and Maarten Marx, Dataontsluiting met XML, XQuery en XSLT. <!ELEMENT Vol 17, Nr 2, p. 21-25, 2011.

Quality of the XML web

Geplaatst op 04-08-2011 door Maarten Marx | XML, research, resultaten | | Geen reacties »

A paper on the quality of the XML files found on the web will be published in the proceedings of the 2011 ACM Conference on Information and Knowledge Management (CIKM).

Abstract

We collect evidence to answer the following question: Is the quality of the XML documents found on the web sufficient to apply XML technology like XQuery, XPath and XSLT? XML collections from the web have been previously studied statistically, but no detailed information about the quality of the XML documents on the web is available to date. We address this shortcoming in this study. We gathered 180K XML documents from the web. Their quality is surprisingly good; 85.4% is well-formed and 99.5% of all specified encodings is correct. Validity needs serious attention. Only 25% of all files contain a reference to a DTD or XSD, of which just one third is actually valid. Errors are studied in detail. Automatic error repair seems promising. Our study is well documented and easily repeatable. This paves the way for a periodic quality assessment of the XML web.
The full paper and all data are publicly available at the url http://data.politicalmashup.nl/xmlweb.

Protected: Wie spreken in de Tweede Kamer? Per partij, en per zittingsperiode.

Geplaatst op 19-04-2011 door Maarten Marx | parliament, resultaten | | Enter your password to view comments

This post is password protected. To view it please enter your password below:


Interview Search Engine

Geplaatst op 17-02-2011 door Maarten Marx | XML, resultaten | tags: | 1 reactie »


SEARCH ENGINE for the SIGMOD RECORD INTERVIEWS with
DISTINGUISHED MEMBERS of the DATABASE COMMUNITY

http://xml.politicalmashup.nl/sigmod

By synchronizing the full text and the videos of the interviews by Marianne Winslett we made her collection of interviews on video full text searchable. The result of a keyword search is a relevance ranked list of best entry points to the videos, given a query. Clicking on a “hit” starts the video at the question whose answer is about the searcher’s query.

The set of interviews spans almost 10 years and presents a fascinating view on the database research in that period. We view this collection as an addition to other documenting and archiving initiatives as DBLP and the ACM Sigmod Anthology.

The whole system is written in XQuery and runs on the eXist XML database system.
More information.

The system was developed by Maarten Marx and Anne Schuth and supported by the FP7 FET program of the EU, under the FET-Open grant agreement FOX, number FP7-ICT-233599.

Opinion Mining in Parliamentary Proceedings

Geplaatst op 22-03-2010 door Maarten Marx | resultaten | tags: | Geen reacties »

Based on the Bachelor thesis of Steven Grijzenhout an article on opinion mining in the Dutch Hansards was written and accepted at the workshop From Text to Political Positions,
From Sentiments and Opinions in Texts to Party Positions
.

The updated version of the paper will appear in the formal conference proceedings.
Paper (updated version): Sentiment Analysis in Parliamentary Proceedings

Bibtex:

@InProceedings{grij:opin10,
author = {S. Grijzenhout and V. Jijkoun and M. Marx},
title = {Opinion Mining in {Dutch Hansards}},
booktitle = {Proceedings Workshop From Text to Political Positions (t2pp 2010)},
year = 2010
}

Verslag van Ikkieswijzer op CIKM

Geplaatst op 28-01-2010 door Maarten Marx | resultaten | tags: | Geen reacties »

Een verslag van het ikkieswijzer.nl project is gepubliceerd in de Proceeding of the 18th ACM Conference on information and Knowledge Management (Hong Kong, China, November 02 - 06, 2009).

Het artikel is hier te vinden

  1. Inclusief metadata: http://doi.acm.org/10.1145/1645953.1646320 (voor leden van de Association of Computing Machinery)
  2. Artikel in PDF-formaat.

| lees verder…

PDF processing

Geplaatst op 27-01-2010 door Maarten Marx | resultaten | tags: , | 1 reactie »

For the PoliticalMashup project we developed a technique to turn PDF files into well structured XML. The technique is described in the DutchParl paper.
In that paper, we compare the quality of paragraph splitting obtained by our PDF2XML transformation and the paragraph-split OCRed texts available at the statengeneraaldigitaal.nl project. The results were rather positive for our transformation.
In particular for Hansards (Handelingen), we can preserve the original paragraphs with high precision. Special tuning may be needed for the first pages of documents because of their rather wild and non-standard layout.

Here we provide two XML files created from the Proceedings of 27 januari 1994.
When comparing their quality it is recommended to start reading at the second page (page 3412).

  1. XML version created from the OCRed pages available at statengeneraaldigitaal.nl. No text-processing was done, we only concatenated all pages of one day and added some metadata in attributes (unique references and urls referring to the sources).
  2. XML version created with the PDF2XML software using only this input PDF file.

Further text quality improvements we would like to make on these files are named entity recognition and reconcilliation of speakers and file-numbers, and OCR error correction and normalization of spelling variations.

Cultural Heritage

Geplaatst op 22-12-2009 door Maarten Marx | resultaten | tags: | Geen reacties »

Maarten Marx published an article in a Special Issue of the Journal of Digital Information on Information Access to Cultural Heritage, edited by Martha Larson, Kate Fernie and John Oomen.

The article is titled Advanced Information Access to Parliamentary Debates.

A copy of the paper is also available locally on this blog.

Vrouwen in het Europees parlement: ExcuusTruusen of volwaardige leden?

Geplaatst op 13-05-2009 door Maarten Marx | resultaten | tags: , | Geen reacties »

Een team van politicolgen en informatici van de Universiteit van Amsterdam hebben voor de verkiezingswebsite ikkieswijzer.nl alle verslagen van het Europees parlement sinds 2004 opgehaald en geanalyseerd. Dit gaat om bijna 20.000 schriftelijke vragen van parlementsleden aan de Europese commissie en meer dan 30.000 toespraken in het parlement.

De onderzoekers kijken naar de aanwezigheid van een zogenaamd glazen plafond voor vrouwen in verschillende publieke organisaties. Dit is nu bekeken voor het Europees parlement.
De belangrijkste conclusie is dat in het EU parlement vrouwen en mannen relatief vrijwel evenveel werk doen: de 31.2% vrouwen zijn verantwoordelijk voor 30.8% van alle toespraken. Maar er zijn wel grote verschillen tussen de EU-landen. Nederland scoort hier niet best: vrouwen geven 18% minder toespraken dan mannen. Daarbij laat Nederland alleen Oostenrijk en Spanje achter zich.

Zo gemeten is er dus geen sprake van een glazen plafond in het Europese parlement. In de Tweede kamer ligt dat heel anders. Daar nemen de 40.6% vrouwelijke leden slechts 32% van wat er gezegd wordt voor hun rekening. De meest vrouwvriendelijke partij daar is gek genoeg de PVV. De PVV heeft slechts 1 vrouwelijk lid, Fleur Agema. Zij vertegenwoordigt 11% van de PVV-fractie, maar is verantwoordelijk voor bijna 19% van wat de PVV in de Kamer zegt.

Vrouwen zeggen in Europa dus evenveel als mannen. Ze hebben het wel duidelijk over andere onderwerpen. Het verschil in woordgebruik kan je mooi laten zien met tagclouds. Die staan in deze blogpost.
| lees verder…

« eerdere stukken