Verslag van Ikkieswijzer op CIKM

Geplaatst op 28-01-2010 door Maarten Marx | resultaten | tags: | comment image Geen reacties »

Een verslag van het ikkieswijzer.nl project is gepubliceerd in de Proceeding of the 18th ACM Conference on information and Knowledge Management (Hong Kong, China, November 02 – 06, 2009).

Het artikel is hier te vinden

  1. Inclusief metadata: http://doi.acm.org/10.1145/1645953.1646320 (voor leden van de Association of Computing Machinery)
  2. Artikel in PDF-formaat.

| lees verder…

PDF processing

Geplaatst op 27-01-2010 door Maarten Marx | resultaten | tags: , | comment image Geen reacties »

For the PoliticalMashup project we developed a technique to turn PDF files into well structured XML. The technique is described in the DutchParl paper.
In that paper, we compare the quality of paragraph splitting obtained by our PDF2XML transformation and the paragraph-split OCRed texts available at the statengeneraaldigitaal.nl project. The results were rather positive for our transformation.
In particular for Hansards (Handelingen), we can preserve the original paragraphs with high precision. Special tuning may be needed for the first pages of documents because of their rather wild and non-standard layout.

Here we provide two XML files created from the Proceedings of 27 januari 1994.
When comparing their quality it is recommended to start reading at the second page (page 3412).

  1. XML version created from the OCRed pages available at statengeneraaldigitaal.nl. No text-processing was done, we only concatenated all pages of one day and added some metadata in attributes (unique references and urls referring to the sources).
  2. XML version created with the PDF2XML software using only this input PDF file.

Further text quality improvements we would like to make on these files are named entity recognition and reconcilliation of speakers and file-numbers, and OCR error correction and normalization of spelling variations.

Verslag van PoliticalMashup Kick-Off meeting

Geplaatst op 23-01-2010 door Maarten Marx | Uncategorized | | comment image Geen reacties »

Kort verslag van de dag
   Data
   Data verwerken
Slides

Download positie paper

Op woensdag 19 maart vond in De Burcht in Amsterdam de kick-off meeting plaats voor de Political Mashup. Een gevarieerd gezelschap van onderzoekers en geïnteresseerden uit uiteenlopende disciplines was aanwezig (een volledige deelnemerslijst staat in de folder).

| lees verder…

Voordracht Digitale Pioniers over PoliticalMashup

Geplaatst op 23-01-2010 door Maarten Marx | Uncategorized | | comment image Geen reacties »

Voordracht voor Digitale Pioniers E-participatie kickoff. 04-12-2008. Jaarbeurs Utrecht.

Project: www.polidocs.nl

  • Doel Alle Handelingen der Staten Generaal sinds 1814 op een makkelijke manier toegankelijk maken.
  • Context PoliticalMashup

Doel van PoliticalMashup

Semantische integratie (mashup) van Politieke Informatie

  • beloftes verkiezingsprogrammas, partijwebsites
  • acties Handelingen der Staten Generaal
  • Reacties daarop
    • van professionals (media)
    • van publiek (blogs, fora, reacties op web)

Mashup dimensies

  • tijd

  • entiteiten
    • personen
    • partijen
    • rollen en functies
    • organisaties
  • politieke thema’s

Genoeg woorden, actie

http://www.verkiezingskijker.nl

http://www.polidocs.nl

DIV Inspiratiebijeenkomst 3 November 2008

Geplaatst op 23-01-2010 door Maarten Marx | Uncategorized | | comment image Geen reacties »

De voordracht van Maarten Marx gehouden op 3 November 2008 in het gebouw van de Tweede Kamer staat op de kamervragen slides. Alle rode tekst is klikbaar en opent een webpagina.

Hier nog even wat van de getoonde links op een rijtje:

UvA ProefStuderen

Geplaatst op 21-01-2010 door Maarten Marx | Uncategorized | | comment image Geen reacties »

Vrijdag 22 Januari komen middelbare scholieren proefstuderen aan de UvA. Bij informatiekunde hebben we dit jaar het volgende programma.

  1. 2 eerstejaars vertellen wat over het project dat ze nu aan het doen zijn met de BeeldBank van het Nationale Archief.
  2. Hoorcollege over de nieuwste soort Google: zoeken naar personen. Zie de links over proefstuderen op deze pagina.
  3. Gekke pieken verklaren
  4. Zelf aan de slag: vind uit hoe een zoekmachine nou werkt.

Twee posters op de Dutch Information Retrieval Workshop

Geplaatst op 20-01-2010 door Maarten Marx | Uncategorized | | comment image Geen reacties »

PoliticalMashup laat twee posters zien op de DIR.

  1. DutchParl 1.0. DutchParl Poster
  2. OpenKamer.tv, over een zoekmachine naar de video beelden van Kamerdebatten. OpenkamerTv Poster

Protected: The web. Is it well-formed? Is it valid?

Geplaatst op 20-01-2010 door Maarten Marx | Uncategorized | | comment image Enter your password to view comments.

This content is password protected. To view it please enter your password below:

Wie zegt wat? Voorbeeld van een XML schema mapping.

Geplaatst op 14-01-2010 door Maarten Marx | Uncategorized | tags: | comment image Geen reacties »

In een aantal blogs hebben we XPath expressies laten zien waarmee heel eenvoudig alle woorden gezegd door een bepaald persoon in een debat in de Tweede Kamer opgepikt kunnen worden. Hier leggen we uit wat daarbij komt kijken.
| lees verder…

De woorden van Balkenende

Geplaatst op 14-01-2010 door Maarten Marx | Uncategorized | | comment image Geen reacties »

Met de PoliticalMashup technologie is het een fluitje van een cent om alle paragrafen gezegd door Balkenende in een debat op te vragen. Deze XPath query doet dat voor het debat van 13 januari dat onder meer ging over het rapport van de Commissie Davids.

doc('plenaire_vergadering_13_januari_2010.xml')//spreker[@naam="Balkenende"]//p

Dit is de gebruikte data:

Als we Balkenende’s woorden in Wordle stoppen, krijgen we onderstaand resultaat.

« eerdere stukken