PoliticalMashup Vacature

Geplaatst op 10-02-2011 door Maarten Marx | onderwijs, Uncategorized | | comment image Geen reacties »

Binnen de PoliticalMashup groep aan de UvA is er een vacature voor een postdoc binnen het project ‘Oorlog in de Kamer’.

Dit project wordt in samenwerking met het Nederlands Instituut voor Oorlogsdocumentatie (NIOD) uitgevoerd, en is gefinancierd door Clarin II. Het doel is om het gebruik van de Tweede Wereld Oorlog als argument in het debat in het Nederlandse Parlement systematisch in kaart te brengen. Het project werkt met de Handelingen der Staten Generaal van 1930 tot heden. Die zijn allemaal in een rijk XML formaat beschikbaar.

Binnen het project zal de postdoc zich voornamelijk bezig houden met annoteren van de tekstuele data met behulp van zelfgetrainde classifiers en NLP-tools speciaal voor Nederlandstalige data, onder andere Named-Entity Recognizers en Timex taggers. Het beoogde eindproduct is een zoeksysteem voor de Handelingen gericht op professionele gebruikers met een historische achtergrond. Het systeem biedt advanced search mogelijkheden voor zoekvragen m.b.t. de oorlog.

Profiel ervaring in taal technologie, werken met heel veel tekstuele data en XML technologie.
Goede wetenschappelijke programmeurs kunnen ook solliciteren
Dienstverband 1 jaar fulltime.

Link naar de volledige advertentietekst.

Protected: Debat Netwerken

Geplaatst op 06-01-2011 door Maarten Marx | onderwijs, Uncategorized | | comment image Enter your password to view comments.

This content is password protected. To view it please enter your password below:

Tutorial XPath on parliamentary proceedings

Geplaatst op 03-01-2011 door Maarten Marx | onderwijs, Uncategorized | | comment image Geen reacties »

In this tutorial you learn the structure of the XML documents in which PoliticalMashup stores parliamentary proceedings. You also learn how you can query them using XPath and XSLT. You do not need any software for this. Your own browser is already an XSLT and XPath query processor.

XPadje: Halsema’s speeches van Twitter lengte

Geplaatst op 21-12-2010 door Maarten Marx | onderwijs, XPath | tags: , | comment image Geen reacties »

PoliticalMashup heeft al verschillende blogs geschreven waarin wordt getoond hoe handig XPath en XQuery zijn voor het maken van politieke analyses op politieke data in XML. We gaan daar een serie van maken. We noemen de afleveringen daarvan Xpadjes.
Elke aflevering bestaat uit

  • Een onderzoeksvraag
  • De benodigde ingrediënten
  • De uitwerking in XPath en XQuery
  • Links naar de uitkomsten van de queries

De aflevering van vandaag gaat over Femke Halsema en haar Twitter gedrag.

Wordle: HalsemaTwitterLengteSpeeches

| lees verder…

Verzameling maidenspeeches

Geplaatst op 13-10-2010 door Maarten Marx | onderwijs, research, trivia, Uncategorized | | comment image Geen reacties »

Binnen het PoliticalMashup project hebben we een verzameling maidenspeeches uit de Eerste en Tweede Kamer aangelegd. Volgens Wikipedia:

A maiden speech is the first speech given by a newly-elected member of a legislature or parliament.

In de Notulen van januari 1995 tot en met de zomer van 2010 hebben we 280 maidenspeeches gevonden.

Het plaatje hieronder bevat een speciale woordenwolk van alle maidenspeeches van één partij. De worden in de wolk zijn gekozen omdat ze heel erg het speciale van maidenspeeches van deze partij in vergelijking met die van andere partijen uitdrukken. De wolk is gemaakt door Rianne Kaptein en gebaseerd op haar werk samen met Jaap Kamps en Djoerd Hiemstra over woordenwolken.

Enig idee tot welke partij de sprekers van deze maidenspeeches behoren?

| lees verder…

Kamervraag stylen met CSS

Geplaatst op 06-10-2010 door Maarten Marx | onderwijs, Uncategorized | | comment image Geen reacties »

Twee eerstejaars Informatiekunde aan de UvA vonden de kamervragen in XML formaat die PoliticalMashup samen met DIV en Emid in het Linked Data project zo vervelend om te lezen.
Ze hebben daarom laten zien hoever je kan komen om zo’n vraag te stylen met CSS.

De stylefile is gemaakt door Walraaf Borkent en Nikki Winands.

kamervraag.xml met CSS stylesheet
kamervraag.css

Protected: FoX Training Warsaw

Geplaatst op 01-09-2010 door Maarten Marx | onderwijs | tags: | comment image Enter your password to view comments.

This content is password protected. To view it please enter your password below:

Viva Informatica

Geplaatst op 11-02-2010 door Maarten Marx | onderwijs, Uncategorized | | comment image Geen reacties »

Maarten Marx geeft een aangepaste versie van zijn DANS lezing op het Viva Informatica congres. Dit vindt op 11 Februari 2010 plaats aan de FNWI van de Universiteit van Amsterdam.

De slides van zijn lezing staan hier:

Woordenwolken

Geplaatst op 09-12-2009 door Maarten Marx | onderwijs, Uncategorized | | comment image Geen reacties »

Eerstejaars studenten informatiekunde en enkele studenten uit andere faculteiten hebben woordenwolk applicaties gebouwd, geinspireerd op tagcrowd.com.

Een korte video impressie staat op het web.
| lees verder…

Digitaal SonjaBakkeren

Geplaatst op 08-05-2009 door Maarten Marx | onderwijs, Uncategorized | | comment image Geen reacties »

Tim Gielissen en Maarten Marx hebben een artikel geschreven over Digitaal SonjaBakkeren waarin ze laten zien hoe ingescande en ge-OCRde Handelingen der Staten Generaal om te zetten zijn als nieuwe echt digitale bestanden. Het artikel is verschenen in de Proceedings of The Third Workshop on Analytics for Noisy Unstructured Text Data. Onderaan deze post staat de BibTex entry met de precieze referenentie.

Uitgebreide versie hier beschikbaar. Voor het blad International Journal of Document Analysis and Recognition hebben we het artikel uitgebreid met een studie naar de zoekinterface van de SGD. Dit artikel is momenteel onder submissie.

Rechts het origineel, links de herschapen versie

Rechts het origineel, links de herschapen versie

Een voorbeeld van een herschapen bestand staat hier. Het is 216KiloByte groot. Het origineel, te vinden op http://dl.getdropbox.com/u/657987/SG_HAN0000006.pdf is 14 MegaByte. De grootte in bytes van de herschapen file is dus slechts 1.5% van het origineel.

De techniek is nog niet helemaal geperfectioneerd. Dit is vooral goed zichtbaar in de bladzijden die steeds wat overlopen op een volgende pagina. Dit komt omdat we een net iets ander lettertype moesten gebruiken. Het onderzoek naar het herschapen van digitale documenten gaat verder.

Bibtex

@inproceedings{1568303,
 author = {Gielissen, Tim and Marx, Maarten},
 title = {Digital weight watching: reconstruction of scanned documents},
 booktitle = {AND '09: Proceedings of The Third Workshop
                  on Analytics for Noisy Unstructured Text Data},
 year = {2009},
 isbn = {978-1-60558-496-6},
 pages = {25--31},
 location = {Barcelona, Spain},
 doi = {http://doi.acm.org/10.1145/1568296.1568303},
 publisher = {ACM},
 address = {New York, NY, USA},
 }

« eerdere stukken latere stukken »