CATCH Meeting HiTiME: Capturing History & Time

Geplaatst op 03-03-2010 door Maarten Marx | Uncategorized | | Geen reacties »

Maarten Marx geeft een lezing over PoliticalMashup op de CATCH Meeting HiTiME – Capturing History & Time. Alle gegevens staan hieronder.
Programme catch-hitime

Friday 26 March, 2010, 12:00 am – 18:00 pm
IISG – International Institute of Social History,
Cruquiusweg 31, Amsterdam
Entrance: FREE – Registration required
Register: catch@nwo.nl
Info: www.nwo.nl/catch

PoliticalMashup voorstel goedgekeurd

Geplaatst op 01-03-2010 door Maarten Marx | Uncategorized | | Geen reacties »

NWO Geesteswetenschappen heeft een middelgrote investeringssubsidie (.5M Euro) toegekend aan het PoliticalMashup project. Het project is een samenwerking tussen de Universiteiten van Amsterdam, Groningen en Tilburg en het Documentatiecentrum Nederlandse Politieke Partijen (DNPP).
Het project wordt geleid door Maarten Marx van de UvA. Het steering committee bestaat uit Antal van den Bosch (UvT), Maarten de Rijke (UvA) en Gerrit Voerman (RUG, DNPP).

Een Engelse samenvatting van het project is hieronder beschikbaar.
| lees verder…

Tofik Dibi over jongeren

Geplaatst op 18-02-2010 door Maarten Marx | Uncategorized | | Geen reacties »

Dit weekend komt Tofik Dibi naar Haarlem om te praten over jongeren en werk tijdens een verkiezingsrally. De organisatoren vroegen PoliticalMashup om eventjes alle uitspraken van Dibi gedaan in de kamer over dat onderwerp op een rijtje te zetten.
Hier staan ze dan.

| lees verder…

EuroPsearch

Geplaatst op 15-02-2010 door Maarten Marx | Political Mashup | tags: , | Geen reacties »

Drie aankomende masterstudenten informatiekunde aan de Universiteit van Amsterdam hebben een veel-talige zoekmachine gemaakt voor parlementaire documenten.
Met één zoekvraag kan je in parlementaire stukken uit vier landen en in vier verschillende talen zoeken.

De website is nog ietwat prematuur maar geeft toch al wel een leuk beeld van de mogelijkheden. Hij is te bezoeken door op onderstaand logo te klikken.


De site is gemaakt door Ellen van Beijsterveldt, Remy Gorissen en Kasper Reijnders.

Viva Informatica

Geplaatst op 11-02-2010 door Maarten Marx | Uncategorized, onderwijs | | Geen reacties »

Maarten Marx geeft een aangepaste versie van zijn DANS lezing op het Viva Informatica congres. Dit vindt op 11 Februari 2010 plaats aan de FNWI van de Universiteit van Amsterdam.

De slides van zijn lezing staan hier:

DutchParl op CLIN

Geplaatst op 02-02-2010 door Maarten Marx | Uncategorized | | Geen reacties »

5 Februari is de jaarlijkse Computational Linguistics in the Netherlands (CLIN) workshop in Utrecht. Maarten Marx en Anne Schuth presenteren daar hun DutchParl project.

Verzamelingenleer

Geplaatst op 02-02-2010 door Maarten Marx | Uncategorized | | Geen reacties »

Maandag 1 Februari 2010 kwamen er zo’n 50 vijfde-klas VWOers een dagje proefstuderen aan de UvA.
Onder andere hoorden ze (voor de meesten voor het eerst in hun leven) over verzamelingen.
Uiteindelijk zagen ze nog een bewijs dat er echt veel meer reeele getallen zijn dan breuken. Met de beroemde en beruchte diagonaal methode.
Aantekeningen bij het college.

Verslag van Ikkieswijzer op CIKM

Geplaatst op 28-01-2010 door Maarten Marx | resultaten | tags: | Geen reacties »

Een verslag van het ikkieswijzer.nl project is gepubliceerd in de Proceeding of the 18th ACM Conference on information and Knowledge Management (Hong Kong, China, November 02 - 06, 2009).

Het artikel is hier te vinden

  1. Inclusief metadata: http://doi.acm.org/10.1145/1645953.1646320 (voor leden van de Association of Computing Machinery)
  2. Artikel in PDF-formaat.

| lees verder…

PDF processing

Geplaatst op 27-01-2010 door Maarten Marx | resultaten | tags: , | 1 reactie »

For the PoliticalMashup project we developed a technique to turn PDF files into well structured XML. The technique is described in the DutchParl paper.
In that paper, we compare the quality of paragraph splitting obtained by our PDF2XML transformation and the paragraph-split OCRed texts available at the statengeneraaldigitaal.nl project. The results were rather positive for our transformation.
In particular for Hansards (Handelingen), we can preserve the original paragraphs with high precision. Special tuning may be needed for the first pages of documents because of their rather wild and non-standard layout.

Here we provide two XML files created from the Proceedings of 27 januari 1994.
When comparing their quality it is recommended to start reading at the second page (page 3412).

  1. XML version created from the OCRed pages available at statengeneraaldigitaal.nl. No text-processing was done, we only concatenated all pages of one day and added some metadata in attributes (unique references and urls referring to the sources).
  2. XML version created with the PDF2XML software using only this input PDF file.

Further text quality improvements we would like to make on these files are named entity recognition and reconcilliation of speakers and file-numbers, and OCR error correction and normalization of spelling variations.

Verslag van PoliticalMashup Kick-Off meeting

Geplaatst op 23-01-2010 door Maarten Marx | Uncategorized | | Geen reacties »

Kort verslag van de dag
   Data
   Data verwerken
Slides

Download positie paper

Op woensdag 19 maart vond in De Burcht in Amsterdam de kick-off meeting plaats voor de Political Mashup. Een gevarieerd gezelschap van onderzoekers en geïnteresseerden uit uiteenlopende disciplines was aanwezig (een volledige deelnemerslijst staat in de folder).

| lees verder…

« eerdere stukken