Federal Register 2.0

Geplaatst op 28-07-2010 door Maarten Marx | XML, data | | 1 reactie »

Ed Summers posted the following message on the W3C EGov public mailing list:

I don’t know if this got discussed on here much yet, but I discovered
today via the Sunlight Foundation blog [1] that the Federal Register
2.0 site was recently released [2]. The Federal Register is one of the
most important government publications in the US, since it is the most
comprehensive publication of all the rules and regulations of the
various agencies that make up US federal government.

The new site is interesting to me for a few reasons:

- it uses opensource technologies (ruby, ruby on rails, mysql, sphinx,
nginx, apache2, varnish)
- the source code for the website itself is opensource, and available
to people to contribute changes/enhancements on github
- there is machine readable data available various flavors of xml
- there are permalinks for each entry in the Federal Register, which
incourages citability
- it is deployed in the cloud on Amazon’s ec2/s3
- it was the result of an egov software contest organized by the
Sunlight Foundation

I wrote up some more of my thoughts in my blog [3], if you care to
comment here or there. If anyone from NARA, GPO or Sunlight Foundation
are reading, nice work!

//Ed

[1] http://sunlightlabs.com/blog/2010/meet-the-new-federal-register/
[2] http://www.federalregister.gov/
[3]
http://inkdroid.org/journal/2010/07/27/federal-register-embraces-the-web-and
-opensource/

Some missing aspects
This XML collection is potentially a great resource, but at least three things need to be done before the XML can be reused reliably in a mashup:

  1. Provide a DTD or Schema
  2. The XML does not contain any of the metadata which is in the “infobox” on the right of the HTML page.
    In particular the reference/provenance information like the Document Citation and the Document ID are needed.
  3. Inside the XML there is no URI pointing persistently to itself, neither is there a URI pointing to the HTML-page based on the XML.

A fantastic aspect of the site is the ability to link to individual paragraphs in the documents.
Try for example http://www.federalregister.gov/a/2010-18383/p-12. This link is provided in the red ribbon to the right of the paragraph.
Mashups could potentially benefit from this feature. But unfortunately, these links are not present in the XML.

Conclusion
If you want to add this data to the Linked Open Data cloud, or if you want to create a mashup based on this data set, you have to screen scrape the HTML page which comes with each XML document.
This is a pity, because you are reverse engineering. Obviously this is not a reliable and stable solution.

Vreemde namen in een gastvrij Nederland

Geplaatst op 01-04-2010 door timgielissen | data | tags: , , , , | 1 reactie »

Heden

De Partij voor de Vrijheid (PVV) krijgt veel media-aandacht. Er worden door leden van de partij nogal eens uitspraken gedaan die door veel mensen als provocerend ervaren worden. Denk hierbij bijvoorbeeld aan de uitspraken rondom boerka’s en hoofddoeken, met als toppunt misschien wel de ‘kopvoddentaks’.

Een Almeerse moslima heeft aangifte gedaan tegen de PVV, zij zegt dat een hoofddoekjesverbod haar identiteit zou aantasten.

Nu de verkiezingen naderen kunnen we enkel fantaseren over de voorstellen waarmee de partij van Geert Wilders nog meer zal komen. Zal hij met nog meer voorstellen komen om immigranten een meer Nederlandse identiteit te geven? Straks stelt hij nog voor om de moeilijk uitspreekbare namen van immigranten te veranderen zodat ze door Nederlanders beter uitgesproken kunnen worden.

Als hij dit doet… is hij niet de eerste.

| lees verder…

OpenKamer.tv

Geplaatst op 10-03-2010 door Maarten Marx | Political Mashup, data | tags: , | 1 reactie »

Openkamer.tv is een website waarin gezocht kan worden in de video opnamen van de debatten gehouden in de Tweede Kamer. Het zoeksysteem probeert de gebruikers meteen naar de juiste plek in een debat te brengen.

Dat gaat als volgt: na het intoetsen van een zoekvraag, geeft het systeem een lijst van onderwerpen waarover gedebateerd is, geordend op relevantie voor de zoekvraag.
Voor elk van de onderwerpen, geeft het systeem dan vervolgens weer een lijst met uitspraken die relevant zijn voor de zoekvraag. Klikt men op zo’n uitspraak, dan start de video precies bij die uitspraak in het debat.
Zeker bij onderwerpen waarover erg lang gesproken wordt kan je zo snel de juiste relevante plek in een video terugvinden. Zoek bijvoorbeeld op Afganistan.

Elke uitspraak in de video is voorzien van een eigen unieke URL. Hiermee kan men dus heel makkelijk refereren naar wat iemand gezegd heeft in de kamer, met een directe link naar de opname. In deze uitspraak tijdens de politieke beschouwingen in 2009 zegt Balkenende iets over Afganistan, maar wat het nou precies betekent…..

| lees verder…

Trading space for time

Geplaatst op 07-10-2008 door Maarten Marx | Uncategorized, data | tags: , , | Geen reacties »

De Handelingen zoals opgelagen bij de de KB in het StatenGeneraalDigitaal project worden vaak erg groot.
Dit komt omdat de PDF file bestaat uit plaatjes van elke bladzijde plus de tekst. In deze blog laten we zien dat er veel winst te behalen is door het omzetten van de Handelingen in XML, volgens het PoliDocs formaat zoals gebruikt wordt op www.polidocs.nl .

De resultaten met een willekeurige XML file van een vergadering bestaande uit 72 bladzijden zijn erg positief.
De XML file met vrijwel dezelfde informatie is meer dan 150 keer kleiner dan de oorspronkelijke PDF. De PDF die wij genereren op basis van deze XML file is 50 keer kleiner. Het omzetten van XML naar PDF op een gewone Linux machine kost minder dan anderhalve seconde. Dit kan dus prima op het moment dat iemand een bestand opvraagt. We hoeven de PDF file dus niet op te slaan. In plaats daarvan slaan we alleen de XML in een gzipped formaat op.

In dit voorbeeld is de besparing dus

  • 150 keer minder opslagruimte en
  • 50 keer minder bandbreedte nodig om de PDF file over te sturen.

De prijs is dat de gebruiker niet het origineel te zien krijgt maar een benadering daarvan. De kwaliteit van die benadering hangt af van de kwaliteit van de OCR en van de structuur extractie-software.

| lees verder…

Help, er wordt naar me verwezen.

Geplaatst op 09-09-2008 door Maarten Marx | Political Mashup, data | tags: | Geen reacties »

De meeste Kamervragen verwijzen in een voetnoot naar een bron die de aanleiding tot de Kamervraag beschrijft. Vaak zijn dat artikelen in dagbladen. Hier zijn een aantal voorbeelden:

KVR30913.xml: 1 De Telegraaf, 29 januari 2008.
KVR30917.xml: 1 De slag om de Domstad, blz. 80, 81 en 102.
KVR30918.xml: 1 De Limburger, 5 januari 2008.
KVR30921.xml: 1 Internetsite Elsevier, gedateerd 2 januari 2008.
KVR30923.xml: 1 De Pers, 17 december 2007.
KVR30926.xml: 1 http://english.hotnews.ro
KVR30929.xml: 1 Aanhangsel Handelingen, vergaderjaar 2007–2008, nr. 1167.

Een flink deel van de Kamervragen worden binnen een paar dagen na het verschijnen van het bericht gesteld. Het bericht heeft dus nog nieuwswaarde en zou nog gelezen kunnen worden op het internet.

Het is dan aardig om bij het oorspronkelijke bericht aan te geven dat het aanleiding was tot het stellen van een Kamervraag, met een hyperlink naar die vraag. Andersom zou de webversie van de Kamervraag door middel van een hyperlink direct kunnen verwijzen naar het artikel.

Om deze verbanden tot stand te brengen zouden de Kamervragen hun bronvermeldingen moeten voorzien van een URL naar het betreffende artikel. De andere kant op is wat lastiger. Eigenlijk zou elk artikel elke avond moeten nagaan of er die dag een Kamervraag op basis van haar gesteld is. En zo ja, dan past het artikel zich aan. Trots meldt het dat het aanleiding was tot Kamervragen over …, gesteld door …, zie http://…

| lees verder…

Met Gods zegen: toespraken

Geplaatst op 29-08-2008 door Marina Lacroix | data | tags: , | Geen reacties »

Politiek zijn praatjes; toespraken noemen we die. Iedere minister heeft op zijn departementale website een overzicht van de recente publieke optredens, en ook de koninklijke familie en vele belangenverenigingen laten geen gelegenheid voorbij gaan om hun licht over een onderwerp te laten schijnen.

We werken aan een manier om deze redevoeringen - en andere belangrijke politieke documenten - makkelijk toegankelijk te maken. Momenteel is het namelijk een hels karwei om te kijken of de vorige minister van Financien nu meer of minder in de ban van een financiele crisis is dan de huidige. Of om eens duidelijk te zien welk kabinet op basis van het regeerakkoord het meest wil bezuinigen. Of om de publiekelijk uitgesproken bijdragen van de koningin aan de regering eens naast elkaar te zien. | lees verder…

Name Harmonisation

Geplaatst op 10-07-2008 door Maarten Marx | data | tags: | Geen reacties »

Again a post on data deduplication. In English, because it concerns British data. We downloaded all Commons debates from 1981 till 2001 from the Hansard archives, and put that in one big XML file, of size 365 Mb, and containing 50 Million words.

With a simple XPath command //speakers, we found all speakers: 327.019 speaches were made.
Good, but how many persons were speaking in that period? We did

bash-3.00$ myxpathx //member The_Official_Report_House_of_Commons_1981_to_2004.xml >speakers
bash-3.00$ cat speakers |sort|uniq >uniqspeakers
bash-3.00$ wc uniqspeakers
7846 32005 220520 uniqspeakers
bash-3.00$

and found 7846 unique speakers…. But are these really unique speakers, or just unique strings?

Challenge

Write a script that correctly deduplicates the attached data set. Also provide some way of evaluating the correctness of the script. It would be nice if the names are harmonised to a list with some authority. Wikipedia could be an example.
The uniqspeaker file is attached; this file contains for each speaker in uniqspeaker the number of speeches made. The speaker file (which can be used when trying co-reference trics) can be obtained from Maarten Marx. | lees verder…

Werken met heel veel XML files

Geplaatst op 08-07-2008 door Maarten Marx | data | tags: | 1 reactie »

Binnen PoliticalMashup werken we met allerlei soorten files, maar proberen alles om te zetten naar XML. Uit de XML files halen we dan de data. Dit leidt vaak tot erg lange wachttijden of je moet een speciale custom oplossing bedenken. We illustreren dit aan de hand van een voorbeeld.

We hebben een dikke 27.000 moties in XML, alle tussen de 3 en 4K, met elk zo’n 81 regels. Een simpele vraag is om voor elke motie haar kamerstuknummer uit te printen. Dat kan met de XPath expressie //hiddenkamerstuknr. De wachttijden voor deze simpele vraag lopen erg uiteen

Update: MonetDB-XQuery

Eerste tests met MonetDB/XQuery geven zeer positieve resultaten. Zie hieronder.
| lees verder…

Duplicaten in de Polidocs data

Geplaatst op 17-06-2008 door Maarten Marx | data | | Geen reacties »

Zowel bij de kamervragen als in de handelingen kan het voorkomen dat “hetzelfde” document meerdere malen in de resultatenlijst van PoliDocs voorkomt. Ook zijn moties zowel in de Handelingen (als ze worden voorgelezen in de Kamer), als apart in de Moties te vinden.

Dit zijn kinderziektes die wel op te lossen zijn, maar niet helemaal uit te bannen. Dit komt voornamelijk omdat de betekenis van “hetzelfde” niet altijd, ja, …hetzelfde is. Wat voor een mens hetzelfde is, is het vaak niet voor een machine. | lees verder…

SGD OCR perikelen deel 2

Geplaatst op 11-06-2008 door Maarten Marx | data | tags: , | 1 reactie »

Voor de tweede batch kamerstukken die beschikbaar zijn bij de SGD lijkt er een nieuw OCR programma gebruikt. Dit heeft voor- en nadelen. Iets wat opvalt bij het herkennen van sprekers is dat in stukjes tekst die vet gedrukt zijn alle letters vaak worden gescheiden door spaties. Maar dit gebeurt ook niet altijd!. Hier staan wat voorbeelden op basis van de volgende files:
De file SG_HAN0000114252.xml is met behulp van het programma pdftohtml -xml verkregen uit de file SG_HAN0000114252.pdf.
Het is niet zo heel moeilijk deze OCR-foutjes te verbeteren, althans wat betreft de namen. De file SG_HAN0000114252MASHUP.xml is onze XML versie van de PDF waarin de foutjes verbeterd zijn. Dit is de file die op www.polidocs.nl getoond wordt.
| lees verder…

« eerdere stukken latere stukken »