Name Harmonisation

Geplaatst op 10-07-2008 door Maarten Marx | data | tags: | comment image Geen reacties »

Again a post on data deduplication. In English, because it concerns British data. We downloaded all Commons debates from 1981 till 2001 from the Hansard archives, and put that in one big XML file, of size 365 Mb, and containing 50 Million words.

With a simple XPath command //speakers, we found all speakers: 327.019 speaches were made.
Good, but how many persons were speaking in that period? We did

bash-3.00$ myxpathx //member The_Official_Report_House_of_Commons_1981_to_2004.xml >speakers
bash-3.00$ cat speakers |sort|uniq >uniqspeakers
bash-3.00$ wc uniqspeakers
7846 32005 220520 uniqspeakers
bash-3.00$

and found 7846 unique speakers…. But are these really unique speakers, or just unique strings?

Challenge

Write a script that correctly deduplicates the attached data set. Also provide some way of evaluating the correctness of the script. It would be nice if the names are harmonised to a list with some authority. Wikipedia could be an example.
The uniqspeaker file is attached; this file contains for each speaker in uniqspeaker the number of speeches made. The speaker file (which can be used when trying co-reference trics) can be obtained from Maarten Marx. | lees verder…

Werken met heel veel XML files

Geplaatst op 08-07-2008 door Maarten Marx | data | tags: | comment image Geen reacties »

Binnen PoliticalMashup werken we met allerlei soorten files, maar proberen alles om te zetten naar XML. Uit de XML files halen we dan de data. Dit leidt vaak tot erg lange wachttijden of je moet een speciale custom oplossing bedenken. We illustreren dit aan de hand van een voorbeeld.

We hebben een dikke 27.000 moties in XML, alle tussen de 3 en 4K, met elk zo’n 81 regels. Een simpele vraag is om voor elke motie haar kamerstuknummer uit te printen. Dat kan met de XPath expressie //hiddenkamerstuknr. De wachttijden voor deze simpele vraag lopen erg uiteen

Update: MonetDB-XQuery

Eerste tests met MonetDB/XQuery geven zeer positieve resultaten. Zie hieronder.
| lees verder…

Mevrouw de voorzitter, mag ik het woord?

Geplaatst op 04-07-2008 door Maarten Marx | resultaten | tags: , , , , , | comment image Geen reacties »

Al eerder presenteerden we een visualisatie van een kamerdebat, waarin te zien is welke politici elkaar interrumperen en hoe lang de bijdragen van de verschillende sprekers in dit debat zijn. Inmiddels hebben we deze data op nog uitgebreidere manieren weergegeven.

We kunnen nu zien dat de voorzitter, als Wilders achter het spreekgestoelte staat in het debat over de beveiliging van Ayaan Hirsi Ali, actiever is dan gemiddeld in dit debat. Ze is dan 12% van de tijd aan het woord, terwijl ze tijdens de spreekbeurt van Femke Halsema – ondanks dat die door meer interrupties werd onderbroken – maar 2% van de tijd het debat onderbrak. | lees verder…

Voorspellen van stemgedrag

Geplaatst op 04-07-2008 door Marina Lacroix | resultaten | tags: , , , | comment image Geen reacties »

De XML-metadata die de Political Mashup aan kamerstukken toekent maakt het mogelijk gericht te zoeken naar wie de indiener van een vraag is, of over welk thema – gebaseerd op trefwoorden uit de thesaurus van de Tweede Kamer-griffie – een vraag ging. Voor zijn Bachelor-scriptie gebruikte Nick Daems een algoritme dat de voorspellende waarde van dit soort factoren voor het stemgedrag van kamerleden vaststelde.

Voor de grote partijen CDA en VVD is het meest bepalend voor hun stemgedrag of zij zelf (mede)indiener waren van een motie. Was dat niet het geval, dan stemden deze twee partijen doorgaans tegen, terwijl ze vanzelfsprekend hun eigen moties steunden. Het stemgedrag van andere partijen was wat genuanceerder. | lees verder…