IPR en Parlementaire stukken

Geplaatst op 23-06-2010 door Maarten Marx | Uncategorized | | comment image Geen reacties »

Arthur Suermondt heeft een bachelor scriptie geschreven over intellectueel eigendomsrecht op informatie van de overheid. Hij behandeld vragen als “Mag het rappport van de Commissie Davids worden opgenomen in een databank voor wetenschappelijk gebruik?”.

De scriptie is hier beschikbaar: A. Suermondt, Intellectual Property Rights on Public Sector Information, Bachelor thesis, University of Amsterdam, 2010.
| lees verder…

Politici herkennen in de Handelingen

Geplaatst op 23-06-2010 door Maarten Marx | Uncategorized | | comment image Geen reacties »

PoliticalMashup heeft een evaluatie gedaan van het script dat namen van politici koppelt aan hun biopagina bij parlement.com. Dit is gedaan op de welgevormde XML versies van de Handelingen zoals verkrijgbaar op overheid.nl.

Deze gegevens zijn verkregen met de stricte instelling van het script. Een verband vanuit een naam X wordt alleen gelegd als

  • er maar 1 X in de lijst met politici staat of
  • X volgens de database op de datum van het document voor de partij in het document genoemd bij X een functie heeft bekleed

Dit script is dus precisie georienteerd: als er geen exacte match is wordt er geen verband gelegd. We kunnen er dus wel van uitgaan dat –mits de database klopt– de links goed gelegd zijn.

Om spelfouten en spellingsvarianten te omzeilen moeten we “slim” gaan raden wie er bedoeld kan worden. Een algorithme wat simpel de naam met de kleinste Levenstein afstand kiest maakt dan al snel domme fouten. Daarmee wordt dan Bommel verbonden met Tommel en Bommer, beide met afstand 1. Echter, er is een veel voorkomende fout gemaakt: het tussenvoegsel van is weggevallen. De goede link was dan ook naar Harry van Bommel.

Resultaten op de handelingen

TK EK formule
Aantal voorkomens van naam 501896 66760 grep ‘MPid=””‘ *tk* |wc
Aantal voorkomens niet gelinked 8500 9802 grep ‘MPid=””‘ *tk* |wc
Aantal unieke voorkomens 54531 9394 grep -o ‘speaker=”[^”]*’ *tk* |sort|uniq -c |sort -nr|wc
Aantal unieke voorkomens niet gelinked 166 120 grep ‘MPid=””‘ *tk* |grep -o ‘speaker=”[^”]*’ |sort|uniq -c |sort -nr|wc

Meest voorkomende unieke namen die niet gelinked worden


bash-3.2$ grep ‘MPid=””‘ *tk* |grep -o ‘speaker=”[^”]*’ |sort|uniq -c |sort -nr|head -20
1347 speaker=”Dibi
1058 speaker=”Bot
961 speaker=”Van Bijsterveldt-Vliegenthart
696 speaker=”J.M. de Vries
560 speaker=”Kamp
537 speaker=”Van Middelkoop
418 speaker=”Meijer
381 speaker=”G.M. de Vries
348 speaker=”Nuis
307 speaker=”Leerdam
282 speaker=”Hendriks
201 speaker=”Verstand
172 speaker=”B.M. de Vries
161 speaker=”Jules Kortenhorst
87 speaker=”Essers
40 speaker=”Donner
35 speaker=”Van den Berg
35 speaker=”Kok
35 speaker=”Blokland
33 speaker=”De Mos
bash-3.2$

Kamervragen

De XML data van de kamervragen lijkt een stuk meer fouten te bevatten dan de handelingen. We zien erg veel typefouten en spellingsvariaties in namen.

Er zijn 109.165 personen (indieners en beantwoorders) in een corpus van 54.273 kamervragen.
Hiervan zijn er 5037 (5%) NIET van een link voorzien.
Er zijn 1084 unieke namen, waarvan er 370 niet van een link zijn voorzien. Dit zijn erg vaak typefouten en spellingsvarianten. Zie bijvoorbeeld:

bash-3.2$ grep -o “]*” * |grep ‘MPid=””‘|grep -o ‘name=”[^”]*’|sort|uniq -c
1 name=”Aadsted-Madsen
1 name=”A.A.M. Willemse-van der Ploeg
7 name=”Aartsen
20 name=”Aasted Madsen
42 name=”Aasted-Madsen
2 name=”Aboutaleb
1 name=”Adelmund
2 name=”Adelmund.
9 name=”Albayrak
5 name=”Apostolou
7 name=”Azough
1 name=”A. J. te Veldhuis
1 name=”Baalen
6 name=”Baarda
1 name=”Ballin
5 name=”Barendregt
4 name=”Bemelmans-Videc
1 name=”Benschop
7 name=”Bibi de Vries
25 name=”Bierman
2 name=”Biermans
4 name=”Bijleveld-Schouten
2 name=”Bijsterveldt-Vliegenthart
23 name=”Blanksma
75 name=”B. M. de Vries
25 name=”B.M. de Vries
4 name=”Bomhoff
2 name=”Boogaard
17 name=”Boorsma
3 name=”Borst
15 name=”Bos
1 name=”Bosma en Wilders


bash-3.2$ grep -o “]*” * |grep -o ‘name=”[^”]*’|sort|uniq -c| sort -nr |wc
1084 2997 29639
bash-3.2$ grep -o “]*” * |grep ‘MPid=””‘|grep -o ‘name=”[^”]*’|sort|uniq -c| sort -nr |wc
370 1090 10005
bash-3.2$ grep -o “]*” * |grep ‘MPid=””‘|grep -o ‘name=”[^”]*’|sort|uniq -c| sort -nr |head
731 name=”Bot
633 name=”De Vries
372 name=”M. B. Vos
304 name=”Jasper van Dijk
174 name=”Van Bijsterveldt-Vliegenthart
163 name=”Dibi
120 name=”M. B. Vos
117 name=”Leerdam
107 name=”Nuis
75 name=”B. M. de Vries
bash-3.2$ grep -o “]*” * |grep ‘MPid=””‘|wc
5037 20044 302166
bash-3.2$ grep -o “]*” * |wc
109165 372238 6903180
bash-3.2$ pwd
/scratch/data/parliament/nl/inprogress/overheid.nl/KVR/PM-transformed
bash-3.2$ ls |wc
54273 54273 1155050
bash-3.2$

Protected: Comparing XML schema languages

Geplaatst op 17-06-2010 door Maarten Marx | research, XML | tags: | comment image Enter your password to view comments.

This content is password protected. To view it please enter your password below:

Protected: PoliticalMashup Steering Cie meeting

Geplaatst op 11-06-2010 door Maarten Marx | Political Mashup | | comment image Enter your password to view comments.

This content is password protected. To view it please enter your password below:

Protected: Linked Data project

Geplaatst op 03-06-2010 door Maarten Marx | Political Mashup | tags: | comment image Enter your password to view comments.

This content is password protected. To view it please enter your password below: