DutchParl op CLIN
5 Februari is de jaarlijkse Computational Linguistics in the Netherlands (CLIN) workshop in Utrecht. Maarten Marx en Anne Schuth presenteren daar hun DutchParl project.
5 Februari is de jaarlijkse Computational Linguistics in the Netherlands (CLIN) workshop in Utrecht. Maarten Marx en Anne Schuth presenteren daar hun DutchParl project.
Maandag 1 Februari 2010 kwamen er zo’n 50 vijfde-klas VWOers een dagje proefstuderen aan de UvA.
Onder andere hoorden ze (voor de meesten voor het eerst in hun leven) over verzamelingen.
Uiteindelijk zagen ze nog een bewijs dat er echt veel meer reeele getallen zijn dan breuken. Met de beroemde en beruchte diagonaal methode.
Aantekeningen bij het college.
Een verslag van het ikkieswijzer.nl project is gepubliceerd in de Proceeding of the 18th ACM Conference on information and Knowledge Management (Hong Kong, China, November 02 - 06, 2009).
Het artikel is hier te vinden
For the PoliticalMashup project we developed a technique to turn PDF files into well structured XML. The technique is described in the DutchParl paper.
In that paper, we compare the quality of paragraph splitting obtained by our PDF2XML transformation and the paragraph-split OCRed texts available at the statengeneraaldigitaal.nl project. The results were rather positive for our transformation.
In particular for Hansards (Handelingen), we can preserve the original paragraphs with high precision. Special tuning may be needed for the first pages of documents because of their rather wild and non-standard layout.
Here we provide two XML files created from the Proceedings of 27 januari 1994.
When comparing their quality it is recommended to start reading at the second page (page 3412).
Further text quality improvements we would like to make on these files are named entity recognition and reconcilliation of speakers and file-numbers, and OCR error correction and normalization of spelling variations.
Op woensdag 19 maart vond in De Burcht in Amsterdam de kick-off meeting plaats voor de Political Mashup. Een gevarieerd gezelschap van onderzoekers en geïnteresseerden uit uiteenlopende disciplines was aanwezig (een volledige deelnemerslijst staat in de folder).
Voordracht voor Digitale Pioniers E-participatie kickoff. 04-12-2008. Jaarbeurs Utrecht.
De voordracht van Maarten Marx gehouden op 3 November 2008 in het gebouw van de Tweede Kamer staat op de kamervragen slides. Alle rode tekst is klikbaar en opent een webpagina.
Hier nog even wat van de getoonde links op een rijtje:
Om diep in de www.polidocs.nl site te kunnen kijken is een login en wachtwoord nodig. Dat is op te vragen bij maartenmarx@uva.nl
Vragen en commentaar zijn zeer welkom. Mail maartenmarx@uva.nl
Vrijdag 22 Januari komen middelbare scholieren proefstuderen aan de UvA. Bij informatiekunde hebben we dit jaar het volgende programma.
PoliticalMashup laat twee posters zien op de DIR.
In een aantal blogs hebben we XPath expressies laten zien waarmee heel eenvoudig alle woorden gezegd door een bepaald persoon in een debat in de Tweede Kamer opgepikt kunnen worden. Hier leggen we uit wat daarbij komt kijken.
| lees verder…