ESAIR keynote speech

Geplaatst op 27-07-2010 door Maarten Marx | Uncategorized | | Geen reacties »

Maarten Marx will give a keynote speech at the 2010 edition of ESAIR, the workshop on Exploiting Semantic Annotations for Information Retrieval, held during CIKM 2010.

Title the Surplus Value of Semantic Annotations.
Abstract
We compare the costs of semantic annotation of textual documents to its benefits for information processing tasks. Semantic annotation can improve the performance of retrieval tasks and facilitates an improved search experience through faceted search, focused retrieval, better document summaries, and result grouping.
Applications which summarize large collections of text or explain real world phenomena based on textual evidence may receive even more benefit from semantic annotations.

Semantic annotation creates surplus value if the annotated data can be used beyond any foreseen application. In particular by third parties linking your data by means of your semantic markup to other data with similar markup.
We present a list of properties of the annotated data which optimize this surplus value. They are derived from the principle which states that annotation should facilitate the reuse of data in a mashup without information being lost or distorted.

For the Dutch House of Parliament we annotated the parliamentary proceedings based on this principle. Concrete examples from this data collection will illustrate the surplus value enhancing properties.

Blijkmeer eindafrekening

Geplaatst op 16-07-2010 door Maarten Marx | Uncategorized | | Geen reacties »

Op deze pagina worden de laatste ontwikkelingen rond de overgebleven pot van Blijkmeer meegedeeld.

Stand van zaken

  • [2010-07-27] Er zijn notulen van de laatste OLV. De uitbetaling moet nog wachten tot het eind van het jaar (2010).
  • [2010-07-16] De notulen van de laatste OLV zijn niet gemaakt. De penningmeester gaat over tot uitkeren en haalt informatie op.

Vul hieronder je gegevens in.

IPR en Parlementaire stukken

Geplaatst op 23-06-2010 door Maarten Marx | Uncategorized | | Geen reacties »

Arthur Suermondt heeft een bachelor scriptie geschreven over intellectueel eigendomsrecht op informatie van de overheid. Hij behandeld vragen als “Mag het rappport van de Commissie Davids worden opgenomen in een databank voor wetenschappelijk gebruik?”.

De scriptie is hier beschikbaar: A. Suermondt, Intellectual Property Rights on Public Sector Information, Bachelor thesis, University of Amsterdam, 2010.
| lees verder…

Politici herkennen in de Handelingen

Geplaatst op 23-06-2010 door Maarten Marx | Uncategorized | | Geen reacties »

PoliticalMashup heeft een evaluatie gedaan van het script dat namen van politici koppelt aan hun biopagina bij parlement.com. Dit is gedaan op de welgevormde XML versies van de Handelingen zoals verkrijgbaar op overheid.nl.

Deze gegevens zijn verkregen met de stricte instelling van het script. Een verband vanuit een naam X wordt alleen gelegd als

  • er maar 1 X in de lijst met politici staat of
  • X volgens de database op de datum van het document voor de partij in het document genoemd bij X een functie heeft bekleed

Dit script is dus precisie georienteerd: als er geen exacte match is wordt er geen verband gelegd. We kunnen er dus wel van uitgaan dat –mits de database klopt– de links goed gelegd zijn.

Om spelfouten en spellingsvarianten te omzeilen moeten we “slim” gaan raden wie er bedoeld kan worden. Een algorithme wat simpel de naam met de kleinste Levenstein afstand kiest maakt dan al snel domme fouten. Daarmee wordt dan Bommel verbonden met Tommel en Bommer, beide met afstand 1. Echter, er is een veel voorkomende fout gemaakt: het tussenvoegsel van is weggevallen. De goede link was dan ook naar Harry van Bommel.

Resultaten op de handelingen

TK EK formule
Aantal voorkomens van naam 501896 66760 grep ‘MPid=”"‘ *tk* |wc
Aantal voorkomens niet gelinked 8500 9802 grep ‘MPid=”"‘ *tk* |wc
Aantal unieke voorkomens 54531 9394 grep -o ’speaker=”[^"]*’ *tk* |sort|uniq -c |sort -nr|wc
Aantal unieke voorkomens niet gelinked 166 120 grep ‘MPid=”"‘ *tk* |grep -o ’speaker=”[^"]*’ |sort|uniq -c |sort -nr|wc

Meest voorkomende unieke namen die niet gelinked worden


bash-3.2$ grep ‘MPid=”"‘ *tk* |grep -o ’speaker=”[^"]*’ |sort|uniq -c |sort -nr|head -20
1347 speaker=”Dibi
1058 speaker=”Bot
961 speaker=”Van Bijsterveldt-Vliegenthart
696 speaker=”J.M. de Vries
560 speaker=”Kamp
537 speaker=”Van Middelkoop
418 speaker=”Meijer
381 speaker=”G.M. de Vries
348 speaker=”Nuis
307 speaker=”Leerdam
282 speaker=”Hendriks
201 speaker=”Verstand
172 speaker=”B.M. de Vries
161 speaker=”Jules Kortenhorst
87 speaker=”Essers
40 speaker=”Donner
35 speaker=”Van den Berg
35 speaker=”Kok
35 speaker=”Blokland
33 speaker=”De Mos
bash-3.2$

Kamervragen

De XML data van de kamervragen lijkt een stuk meer fouten te bevatten dan de handelingen. We zien erg veel typefouten en spellingsvariaties in namen.

Er zijn 109.165 personen (indieners en beantwoorders) in een corpus van 54.273 kamervragen.
Hiervan zijn er 5037 (5%) NIET van een link voorzien.
Er zijn 1084 unieke namen, waarvan er 370 niet van een link zijn voorzien. Dit zijn erg vaak typefouten en spellingsvarianten. Zie bijvoorbeeld:

bash-3.2$ grep -o “ ]*” * |grep ‘MPid=”"‘|grep -o ‘name=”[^"]*’|sort|uniq -c
1 name=”Aadsted-Madsen
1 name=”A.A.M. Willemse-van der Ploeg
7 name=”Aartsen
20 name=”Aasted Madsen
42 name=”Aasted-Madsen
2 name=”Aboutaleb
1 name=”Adelmund
2 name=”Adelmund.
9 name=”Albayrak
5 name=”Apostolou
7 name=”Azough
1 name=”A. J. te Veldhuis
1 name=”Baalen
6 name=”Baarda
1 name=”Ballin
5 name=”Barendregt
4 name=”Bemelmans-Videc
1 name=”Benschop
7 name=”Bibi de Vries
25 name=”Bierman
2 name=”Biermans
4 name=”Bijleveld-Schouten
2 name=”Bijsterveldt-Vliegenthart
23 name=”Blanksma
75 name=”B. M. de Vries
25 name=”B.M. de Vries
4 name=”Bomhoff
2 name=”Boogaard
17 name=”Boorsma
3 name=”Borst
15 name=”Bos
1 name=”Bosma en Wilders


bash-3.2$ grep -o “ ]*” * |grep -o ‘name=”[^"]*’|sort|uniq -c| sort -nr |wc
1084 2997 29639
bash-3.2$ grep -o “ ]*” * |grep ‘MPid=”"‘|grep -o ‘name=”[^"]*’|sort|uniq -c| sort -nr |wc
370 1090 10005
bash-3.2$ grep -o “ ]*” * |grep ‘MPid=”"‘|grep -o ‘name=”[^"]*’|sort|uniq -c| sort -nr |head
731 name=”Bot
633 name=”De Vries
372 name=”M. B. Vos
304 name=”Jasper van Dijk
174 name=”Van Bijsterveldt-Vliegenthart
163 name=”Dibi
120 name=”M. B. Vos
117 name=”Leerdam
107 name=”Nuis
75 name=”B. M. de Vries
bash-3.2$ grep -o “ ]*” * |grep ‘MPid=”"‘|wc
5037 20044 302166
bash-3.2$ grep -o “ ]*” * |wc
109165 372238 6903180
bash-3.2$ pwd
/scratch/data/parliament/nl/inprogress/overheid.nl/KVR/PM-transformed
bash-3.2$ ls |wc
54273 54273 1155050
bash-3.2$

Verkiezingskijker door Google

Geplaatst op 28-05-2010 door Maarten Marx | Uncategorized | | 1 reactie »

Google heeft een entry point retrieval zoekmachine ontwikkeld voor de verkiezingsprogrammas van 2010. De Volkskrant berichtte erover.

De functionaliteit is vergelijkbaar met de zoekmachine ontwikkeld door de Universiteit van Amsterdam samen met het Instituut voor Publiek en Politiek in 2006 voor de vorige verkiezingen: verkiezingskijker.nl.

Voor de Europese verkiezingen van 2009 heeft de UvA met steun van het Europafonds ook zo’n zoekmachine ontwikkeld: ikkieswijzer.nl. Zie ook het eerdere blogbericht daarover.

Belangrijke debatten machtsverdeeld

Geplaatst op 06-05-2010 door Maarten Marx | Uncategorized | | Geen reacties »

PoliticalMashup maakt een Google achtige zoekmachine voor de verslagen van de debatten in de Tweede Kamer. Gegeven een zoekterm geven we een geordende lijst van debatten terug die over die zoekterm gaan. Daarbinnen geven we de meest relevante delen van het (vaak lange) debat voor de specifieke zoekterm.

Het belangrijkste aspect van een zoekmachine is de ordening op relavantie. Bovenaan moeten de meest relevante debatten voor een vraag staan.
Net als Google berekenen wij relevantie niet alleen door te tellen hoe vaak een zoekterm voorkomt. We kijken ook naar andere eigenschappen van debatten.

Een voor de hand liggende eigenschap is de importantie van het debatsonderwerp. Het idee is dat als in twee debatten een zoekterm ongeveer even veel gebruikt wordt, het meest belangrijke debat hoger in de zoeklijst komt.

Maar hoe meet je de importantie van een debat op? Dit onderzoekt Maarten Jongmans voor zijn master scriptie. Hij heeft hier 5 verschillende modellen voor ontwikkeld en die getest op 800 debatten van het afgelopen jaar. De uitkomsten van de verschillende modellen lijken aardig op elkaar. Alle modellen voorspellen dat eigenlijk maar zo’n 10-15% van de debatten belangrijk zijn. We zien een typische machtsverdeling (macht van machtsverheffen) zoals voor het eerst bescherevn door Pareto.

EuroPsearch

Geplaatst op 21-04-2010 door Maarten Marx | Uncategorized | | Geen reacties »

Three Dutch Information Science students (Ellen, Kasper and Remy) created a data mediation website for searching in the parliamentary proceedings of four countries, and in four different languages, using only XML technology. The complete website is written in XQuery with a Full Text extension based on Lucene.
It uses the eXist XML database system.
EuroPSearch
It is a bit slow though, so be patient.

Nelleke Aders speaks at SIKS Masterclass

Geplaatst op 19-04-2010 door Maarten Marx | Uncategorized | | Geen reacties »

Nelleke Aders speaks at the SIKS Masterclass organized around the PhD defense of Michiel Hildebrand. She speaks on Linked Data at the Dutch House of Representatives.

What you say is who you are.

Geplaatst op 01-04-2010 door Maarten Marx | Uncategorized | | Geen reacties »

Based on the Bachelor thesis of Arjan Nusselder, an article on politician search was written and accepted at the 2010 Open Knowledge Conference in London.

Post conference material (slides, proceedings, photo’s, etc)

Paper: What you say is who you are. How open government data facilitates profiling politicians.

Bibtex:

@InProceedings{marx:what10,
author = {M. Marx and A. Nusselder},
title = {What you say is who you are. How open government data facilitates profiling politicians.},
booktitle = {Proceedings Open Knowledge Conference, London 2010},
series= {CEUR Workshop Proceedings},
Volume ={575},
year = 2010,
note ={\url{http://ceur-ws.org/Vol-575/paper4.pdf}}
}

Digital sustainable parliamentary proceedings

Geplaatst op 22-03-2010 door Maarten Marx | Uncategorized | tags: | Geen reacties »

An article about digital sustainability based on the experience of PoliticalMashup with preserving parliamentary proceedings is accepted at the 11th International Digital Government Research Conference (dg.o 2010) on May 17-20, 2010 in Puebla, Mexico.

Article: Digital Sustainable Publication of Legacy Parliamentary Proceedings
Abstract at ACM
Bibtex:

@inproceedings{1809895,
author = {Marx, M. and Aders, N. and Schuth, A.},
title = {Digital sustainable publication of legacy parliamentary proceedings},
booktitle = {dg.o ‘10: Proceedings of the 11th Annual International Digital Government Research Conference on Public Administration Online: Challenges and Opportunities},
year = {2010},
isbn = {978-1-4503-0070-4},
pages = {99–104},
location = {Puebla, Mexico},
publisher = {Digital Government Society of North America},
note={\url{http://portal.acm.org/citation.cfm?id=1809874.1809895}}
}

« eerdere stukken