Geplaatst op 09-09-2008 door Maarten Marx |
Political Mashup,
data | tags:
Kamervragen |
Geen reacties »
De meeste Kamervragen verwijzen in een voetnoot naar een bron die de aanleiding tot de Kamervraag beschrijft. Vaak zijn dat artikelen in dagbladen. Hier zijn een aantal voorbeelden:
KVR30913.xml: 1 De Telegraaf, 29 januari 2008.
KVR30917.xml: 1 De slag om de Domstad, blz. 80, 81 en 102.
KVR30918.xml: 1 De Limburger, 5 januari 2008.
KVR30921.xml: 1 Internetsite Elsevier, gedateerd 2 januari 2008.
KVR30923.xml: 1 De Pers, 17 december 2007.
KVR30926.xml: 1 http://english.hotnews.ro
KVR30929.xml: 1 Aanhangsel Handelingen, vergaderjaar 2007–2008, nr. 1167.
Een flink deel van de Kamervragen worden binnen een paar dagen na het verschijnen van het bericht gesteld. Het bericht heeft dus nog nieuwswaarde en zou nog gelezen kunnen worden op het internet.
Het is dan aardig om bij het oorspronkelijke bericht aan te geven dat het aanleiding was tot het stellen van een Kamervraag, met een hyperlink naar die vraag. Andersom zou de webversie van de Kamervraag door middel van een hyperlink direct kunnen verwijzen naar het artikel.
Om deze verbanden tot stand te brengen zouden de Kamervragen hun bronvermeldingen moeten voorzien van een URL naar het betreffende artikel. De andere kant op is wat lastiger. Eigenlijk zou elk artikel elke avond moeten nagaan of er die dag een Kamervraag op basis van haar gesteld is. En zo ja, dan past het artikel zich aan. Trots meldt het dat het aanleiding was tot Kamervragen over …, gesteld door …, zie http://…
| lees verder…
Geplaatst op 29-08-2008 door Marina Lacroix |
data | tags:
corpus,
toespraken |
Geen reacties »
Politiek zijn praatjes; toespraken noemen we die. Iedere minister heeft op zijn departementale website een overzicht van de recente publieke optredens, en ook de koninklijke familie en vele belangenverenigingen laten geen gelegenheid voorbij gaan om hun licht over een onderwerp te laten schijnen.
We werken aan een manier om deze redevoeringen - en andere belangrijke politieke documenten - makkelijk toegankelijk te maken. Momenteel is het namelijk een hels karwei om te kijken of de vorige minister van Financien nu meer of minder in de ban van een financiele crisis is dan de huidige. Of om eens duidelijk te zien welk kabinet op basis van het regeerakkoord het meest wil bezuinigen. Of om de publiekelijk uitgesproken bijdragen van de koningin aan de regering eens naast elkaar te zien. | lees verder…
Geplaatst op 10-07-2008 door Maarten Marx |
data | tags:
data deduplication |
Geen reacties »
Again a post on data deduplication. In English, because it concerns British data. We downloaded all Commons debates from 1981 till 2001 from the Hansard archives, and put that in one big XML file, of size 365 Mb, and containing 50 Million words.
With a simple XPath command //speakers, we found all speakers: 327.019 speaches were made.
Good, but how many persons were speaking in that period? We did
bash-3.00$ myxpathx //member The_Official_Report_House_of_Commons_1981_to_2004.xml >speakers
bash-3.00$ cat speakers |sort|uniq >uniqspeakers
bash-3.00$ wc uniqspeakers
7846 32005 220520 uniqspeakers
bash-3.00$
and found 7846 unique speakers…. But are these really unique speakers, or just unique strings?
Challenge
Write a script that correctly deduplicates the attached data set. Also provide some way of evaluating the correctness of the script. It would be nice if the names are harmonised to a list with some authority. Wikipedia could be an example.
The uniqspeaker file is attached; this file contains for each speaker in uniqspeaker the number of speeches made. The speaker file (which can be used when trying co-reference trics) can be obtained from Maarten Marx. | lees verder…
Geplaatst op 08-07-2008 door Maarten Marx |
data | tags:
XML |
1 reactie »
Binnen PoliticalMashup werken we met allerlei soorten files, maar proberen alles om te zetten naar XML. Uit de XML files halen we dan de data. Dit leidt vaak tot erg lange wachttijden of je moet een speciale custom oplossing bedenken. We illustreren dit aan de hand van een voorbeeld.
We hebben een dikke 27.000 moties in XML, alle tussen de 3 en 4K, met elk zo’n 81 regels. Een simpele vraag is om voor elke motie haar kamerstuknummer uit te printen. Dat kan met de XPath expressie //hiddenkamerstuknr. De wachttijden voor deze simpele vraag lopen erg uiteen
Update: MonetDB-XQuery
Eerste tests met MonetDB/XQuery geven zeer positieve resultaten. Zie hieronder.
| lees verder…
Geplaatst op 17-06-2008 door Maarten Marx |
data | |
Geen reacties »
Zowel bij de kamervragen als in de handelingen kan het voorkomen dat “hetzelfde” document meerdere malen in de resultatenlijst van PoliDocs voorkomt. Ook zijn moties zowel in de Handelingen (als ze worden voorgelezen in de Kamer), als apart in de Moties te vinden.
Dit zijn kinderziektes die wel op te lossen zijn, maar niet helemaal uit te bannen. Dit komt voornamelijk omdat de betekenis van “hetzelfde” niet altijd, ja, …hetzelfde is. Wat voor een mens hetzelfde is, is het vaak niet voor een machine. | lees verder…
Geplaatst op 11-06-2008 door Maarten Marx |
data | tags:
OCR,
SGD |
1 reactie »
Voor de tweede batch kamerstukken die beschikbaar zijn bij de SGD lijkt er een nieuw OCR programma gebruikt. Dit heeft voor- en nadelen. Iets wat opvalt bij het herkennen van sprekers is dat in stukjes tekst die vet gedrukt zijn alle letters vaak worden gescheiden door spaties. Maar dit gebeurt ook niet altijd!. Hier staan wat voorbeelden op basis van de volgende files:
De file SG_HAN0000114252.xml is met behulp van het programma pdftohtml -xml verkregen uit de file SG_HAN0000114252.pdf.
Het is niet zo heel moeilijk deze OCR-foutjes te verbeteren, althans wat betreft de namen. De file SG_HAN0000114252MASHUP.xml is onze XML versie van de PDF waarin de foutjes verbeterd zijn. Dit is de file die op www.polidocs.nl getoond wordt.
| lees verder…
Geplaatst op 11-06-2008 door Maarten Marx |
data | tags:
visualisatie |
3 reacties »
Nu de Handelingen mooi beschikbaar zijn in XML leek het doenlijk om te proberen om de structuur van een debat te visualiseren. We wilden een abstractie maken van een debat die in de meeste gevallen op 1 regel past. We hebben als visualisatie analogie de bekende hartpuls-grafiek genomen. Bij ons is dan elke puls een spreker, en de sterkte van de uitslag wordt bepaald door de lengte van de “spreekbeurt”. | lees verder…
Geplaatst op 04-06-2008 door Maarten Marx |
data | tags:
data deduplication,
named entities,
normalization |
1 reactie »
Binnen Handelingen die beschikbaar zijn via Parlando en KB-SGD worden dezelfde entiteiten (personen, partijen) vaak op verschillende manieren gespeld. Dit maakt het natuurlijk erg moeilijk om alle gegevens van 1 entiteit netjes bij elkaar te zetten. De verschillende spellingswijzen komen door
- OCR-foutjes (data voor 1995)
- type-fouten
- veranderende namen en wisselende conventies | lees verder…
Geplaatst op 21-05-2008 door Maarten Marx |
data | tags:
Kamervragen,
SGD |
Geen reacties »
Robert Jan de Groot heeft een data-extractie script ontwikkeld om allerlei gegevens uit de Kamervragen expliciet te maken in XML. Het script neemt een KVR.pdf bestand uit Parlando, samen met de daarbij behorende metadata, en zet het om naar 1 XML-bestand. Volledig automatisch worden onder andere de volgende stappen gedaan:
- data worden herkend en omgezet naar standaard MySQL date-formaat
- vrager, antwoorder, het onderwerp van de vraag worden herkend en als attributen in de XML weergegeven
- de vragen en antwoorden worden genummerd in de XML. Het is dus duidelijk welk antwoord bij welke vraag hoort
- voetnoten worden herkend. De aangehaalde bron in voetnoten wordt geextraheerd.
- allerlei metadata van de PDF file wordt herkend en opgeslagen (pagina-nummer, vet-nummer, ISSN, etc)
Als voorbeeld is hier een PDF file met een vraag over “De Groene Draeck” samen met de XML-versie. | lees verder…
Geplaatst op 19-05-2008 door Maarten Marx |
data | |
Geen reacties »
In Kamervragen wordt er regelmatig in de eerste vraag verwezen naar een artikel in de media. De verwijzingen zijn niet zo heel erg precies, maar waarschijnlijk is er wel voldoende informatie om automatisch met zeer grote precisie en recall het bewuste artikel terug te kunnen vinden in een nieuwsdatabase als Lexis-Nexis, Google news, of EMM Newsexplorer. De informatiebehoefte die we hier willen vervullen staat bekend als known item search.
Hier volgen twee voorbeelden:
KVR31902.pdf bevat de volgende informatie:
Kent u het bericht "Europese varkenshouders roepen om einde GGO-verbod"?1
(1) Agrarisch Dagblad, 28 maart 2008.
De metadata toegevoegd door de griffie bevat deze informatie: | lees verder…
« eerdere stukken latere stukken »