Interruptiedata geanalyseerd door Sargasso

Geplaatst op 05-01-2012 door Maarten Marx | data, resultaten | tags: | Geen reacties »

Dimitri Tokmetzis van Sargasso heeft de interruptiedata van het eerste jaar Rutte I genanalyseerd en er twee mooie verhalen over geschreven. Alper Çugun van het datavisualisatiebureau Monster Swell heeft er een fraaie interactieve visualisatie van gemaakt. Zie

University of Amsterdam XML Web Collection

Geplaatst op 07-06-2011 door Maarten Marx | XML, data | | Geen reacties »

Steven Grijzenhout made a collection of XML files crawled from the web available for research purposes.
The collection is available at http://data.politicalmashup.nl/sgrijzen/xmlweb/. A description of the data and an analysis of it is in the paper The Quality of the XML Web .

Workshop Diachroon Corpus

Geplaatst op 29-03-2011 door Maarten Marx | data, lecture | | Geen reacties »

30 Maart 2011 is er een workshop Diachroon Corpus op het Huygens ING Instituut in Den Haag. Maarten Marx spreekt daar over het StatenGeneraal Digitaal project.
Hier zijn de bestanden genoemd in zijn lezing beschikbaar.

  • Alle hits binnen de verslagen van de Eerste en Tweede Kamer 1814-1995 op ‘wijf’ en ‘huisvrouw’
  • wijf huisvrouw (Deze files zijn te importeren in Excel. De scheider is TAB.)

Alle debatten per persoon op een rijtje

Geplaatst op 25-03-2011 door Maarten Marx | data, parliament | tags: | 1 reactie »

PoliticalMashup heeft voor alle personen die sinds het parlementaire jaar 1975-1976 hebben deelgenomen aan debatten in de Eerste of Tweede Kamer een overzicht gemaakt van zijn of haar debatsgeschiedenis.
Het gaat om 1267 personen. De gegevens zijn gebaseerd op de Handelingen vanaf Prinsjesdag 1975 tot half December 2010.
De gegevens zijn beschikbaar in XML and tsv formaat op http://data.politicalmashup.nl/politici/nl/.
| lees verder…

Wie zegt wat en wanneer in het Nederlandse Parlement?

Geplaatst op 25-03-2011 door Maarten Marx | data, parliament | tags: | 2 reacties »

PoliticalMashup heeft een database beschikbaar gemaakt met daarin alle woorden gezegd door elke politicus in het Nederlandse parlement in de periode 1814-2010. Per politicus zijn per dag al zijn of haar uitgesproken teksten beschikbaar.
Het gaat om mensen die of in het Nederlandse Parlement of in de regering hebben gezeten. Dit zijn allemaal mensen die voorkomen op parlement.com.
De gegevens zijn gehaald uit de Handelingen in XML formaat zoals die gemaakt zijn door PoliticalMashup.
De data is beschikbaar op http://data.politicalmashup.nl/politici/nl_words/.
| lees verder…

Met Twitter de verkiezingen voorspellen

Geplaatst op 01-03-2011 door Maarten Marx | data | tags: | Geen reacties »

De computationeel taalkundigen in Groningen proberen de uitslag van de Statenverkiezingen te voorspellen aan de hand van aantallen Twitterberichten. Ze hebben een mooie applicatie gebouwd waarin je per dag het aantal voorspelde zetels kunt zien. Ook kan je steeds het Twitter volume van de laatste 24 uur van 2 partijen tegen elkaar afzetten.

PentaPolitica en Valentin Jijkoun hebben vorig jaar ook iets vergelijkbaars gemaakt, en wonder boven wonder, het draait nog steeds. Zie onze vorige blogpost en de enorme verzameling grafiekjes van Jijkoun.

Federal Register 2.0

Geplaatst op 28-07-2010 door Maarten Marx | XML, data | | 1 reactie »

Ed Summers posted the following message on the W3C EGov public mailing list:

I don’t know if this got discussed on here much yet, but I discovered
today via the Sunlight Foundation blog [1] that the Federal Register
2.0 site was recently released [2]. The Federal Register is one of the
most important government publications in the US, since it is the most
comprehensive publication of all the rules and regulations of the
various agencies that make up US federal government.

The new site is interesting to me for a few reasons:

- it uses opensource technologies (ruby, ruby on rails, mysql, sphinx,
nginx, apache2, varnish)
- the source code for the website itself is opensource, and available
to people to contribute changes/enhancements on github
- there is machine readable data available various flavors of xml
- there are permalinks for each entry in the Federal Register, which
incourages citability
- it is deployed in the cloud on Amazon’s ec2/s3
- it was the result of an egov software contest organized by the
Sunlight Foundation

I wrote up some more of my thoughts in my blog [3], if you care to
comment here or there. If anyone from NARA, GPO or Sunlight Foundation
are reading, nice work!

//Ed

[1] http://sunlightlabs.com/blog/2010/meet-the-new-federal-register/
[2] http://www.federalregister.gov/
[3]
http://inkdroid.org/journal/2010/07/27/federal-register-embraces-the-web-and
-opensource/

Some missing aspects
This XML collection is potentially a great resource, but at least three things need to be done before the XML can be reused reliably in a mashup:

  1. Provide a DTD or Schema
  2. The XML does not contain any of the metadata which is in the “infobox” on the right of the HTML page.
    In particular the reference/provenance information like the Document Citation and the Document ID are needed.
  3. Inside the XML there is no URI pointing persistently to itself, neither is there a URI pointing to the HTML-page based on the XML.

A fantastic aspect of the site is the ability to link to individual paragraphs in the documents.
Try for example http://www.federalregister.gov/a/2010-18383/p-12. This link is provided in the red ribbon to the right of the paragraph.
Mashups could potentially benefit from this feature. But unfortunately, these links are not present in the XML.

Conclusion
If you want to add this data to the Linked Open Data cloud, or if you want to create a mashup based on this data set, you have to screen scrape the HTML page which comes with each XML document.
This is a pity, because you are reverse engineering. Obviously this is not a reliable and stable solution.

Vreemde namen in een gastvrij Nederland

Geplaatst op 01-04-2010 door timgielissen | data | tags: , , , , | 1 reactie »

Heden

De Partij voor de Vrijheid (PVV) krijgt veel media-aandacht. Er worden door leden van de partij nogal eens uitspraken gedaan die door veel mensen als provocerend ervaren worden. Denk hierbij bijvoorbeeld aan de uitspraken rondom boerka’s en hoofddoeken, met als toppunt misschien wel de ‘kopvoddentaks’.

Een Almeerse moslima heeft aangifte gedaan tegen de PVV, zij zegt dat een hoofddoekjesverbod haar identiteit zou aantasten.

Nu de verkiezingen naderen kunnen we enkel fantaseren over de voorstellen waarmee de partij van Geert Wilders nog meer zal komen. Zal hij met nog meer voorstellen komen om immigranten een meer Nederlandse identiteit te geven? Straks stelt hij nog voor om de moeilijk uitspreekbare namen van immigranten te veranderen zodat ze door Nederlanders beter uitgesproken kunnen worden.

Als hij dit doet… is hij niet de eerste.

| lees verder…

OpenKamer.tv

Geplaatst op 10-03-2010 door Maarten Marx | Political Mashup, data | tags: , | 1 reactie »

Openkamer.tv is een website waarin gezocht kan worden in de video opnamen van de debatten gehouden in de Tweede Kamer. Het zoeksysteem probeert de gebruikers meteen naar de juiste plek in een debat te brengen.

Dat gaat als volgt: na het intoetsen van een zoekvraag, geeft het systeem een lijst van onderwerpen waarover gedebateerd is, geordend op relevantie voor de zoekvraag.
Voor elk van de onderwerpen, geeft het systeem dan vervolgens weer een lijst met uitspraken die relevant zijn voor de zoekvraag. Klikt men op zo’n uitspraak, dan start de video precies bij die uitspraak in het debat.
Zeker bij onderwerpen waarover erg lang gesproken wordt kan je zo snel de juiste relevante plek in een video terugvinden. Zoek bijvoorbeeld op Afganistan.

Elke uitspraak in de video is voorzien van een eigen unieke URL. Hiermee kan men dus heel makkelijk refereren naar wat iemand gezegd heeft in de kamer, met een directe link naar de opname. In deze uitspraak tijdens de politieke beschouwingen in 2009 zegt Balkenende iets over Afganistan, maar wat het nou precies betekent…..

| lees verder…

Trading space for time

Geplaatst op 07-10-2008 door Maarten Marx | Uncategorized, data | tags: , , | Geen reacties »

De Handelingen zoals opgelagen bij de de KB in het StatenGeneraalDigitaal project worden vaak erg groot.
Dit komt omdat de PDF file bestaat uit plaatjes van elke bladzijde plus de tekst. In deze blog laten we zien dat er veel winst te behalen is door het omzetten van de Handelingen in XML, volgens het PoliDocs formaat zoals gebruikt wordt op www.polidocs.nl .

De resultaten met een willekeurige XML file van een vergadering bestaande uit 72 bladzijden zijn erg positief.
De XML file met vrijwel dezelfde informatie is meer dan 150 keer kleiner dan de oorspronkelijke PDF. De PDF die wij genereren op basis van deze XML file is 50 keer kleiner. Het omzetten van XML naar PDF op een gewone Linux machine kost minder dan anderhalve seconde. Dit kan dus prima op het moment dat iemand een bestand opvraagt. We hoeven de PDF file dus niet op te slaan. In plaats daarvan slaan we alleen de XML in een gzipped formaat op.

In dit voorbeeld is de besparing dus

  • 150 keer minder opslagruimte en
  • 50 keer minder bandbreedte nodig om de PDF file over te sturen.

De prijs is dat de gebruiker niet het origineel te zien krijgt maar een benadering daarvan. De kwaliteit van die benadering hangt af van de kwaliteit van de OCR en van de structuur extractie-software.

| lees verder…

« eerdere stukken