Netherlands Institute of Government Data Management Course

Geplaatst op 20-04-2016 door Maarten Marx | data, lecture, Political Mashup | tags: | comment image Comments Off on Netherlands Institute of Government Data Management Course

From 18 to 22 April, 2016 NIG, DANS and CBS organise a data management course.

Maarten Marx is one of the speakers on the day at DANS on April 20.
His slides are here available on the web.

KB kranten bij PoliticalMashup

Geplaatst op 12-08-2014 door Maarten Marx | data, Political Mashup | tags: , | comment image Geen reacties »

Het KB kranten archief is een belangrijk corpus dat gebruikt wordt binnen het PoliticalMashup project.
In dat project zijn twee “zoekmachines” gemaakt waarmee dat archief bevraagd kan worden:

  1. Zoeken met reguliere expressies.
    Hier kan je zoeken in een gestratificeerde steekproef (rond de 8000 artikelen).
  2. KB ngram viewer

We hebben de krantenartikelen in een eigen XML formaat gegoten waarin de metadata en de tekst data van elk artikel overzichtelijk bij elkaar staan. De steekproef is hier op te halen. De XML valideert met betrekking tot het schema op http://schema.politicalmashup.nl/kbpaper/kbpaper-schema.rnc. Dit schema is ook beschikbaar in een meer leesbare HTML versie.

Code van KB ngram viewer

Neem contact op met Maarten Marx of Dispectu.com.

Dutch parliamentary data in RDF format

Geplaatst op 12-08-2014 door Maarten Marx | data, DiLiPaD, ExPoSe, Political Mashup | tags: , | comment image Geen reacties »

The Dutch parliamentary data created by PoliticalMashup is now also available in RDF format, and can be queried from a SPARQL endpoint.
The dataset is enriched with recognized named entities which are linked to DBpedia and Wikipedia.
More information can be found in the ParlBench paper and this description of a benchmark experiment.

Note

The sparql endpoint only contains 1% of all data. If you want to query the data using sparql you must download it and load it in your own endpoint. Below is a short description how to do that.

Links

| lees verder…

UK Hansards in PoliticalMashup format

Geplaatst op 03-04-2014 door Maarten Marx | data, DiLiPaD, parliament, Political Mashup | | comment image Geen reacties »
Dilipad-logo-REVERSED-300dpi Debates of the House of Lords and House of Commons from 1935 until “yesterday” are available in the XML format developed within the PoliticalMashup project. The debates are available as one dump of XML files and through a rudimentary search interface.
All debates are available in XML, RDF and HTML formats, via a simple parameter:

| lees verder…

Georgian First Names

Geplaatst op 05-12-2013 door Maarten Marx | data, TI | tags: | comment image Geen reacties »

Ani Elchishvili from TI georgia created a spreadsheet with for over 1500 Georgian Names their gender specified. For 1144, she also found a specific webpage (often Wikipedia) for the names.
The data is available as a TAB seperated CSV spreadsheet and also as an HTML table.

| lees verder…

English Georgian Parallel Corpus

Geplaatst op 26-11-2013 door Maarten Marx | data, TI | tags: , , | comment image Geen reacties »

We created a Georgian English parallel corpus by crawling the Georgian news site http://civil.ge. This site contains over 26 thousand news stories in both English and Georgian. The first one is from November 2002.
Such parallel corpora are the source of automatic machine translation software like Google Translate.
The fact that Google Translate (at the time of writing) makes a mistake with translating საქართველოს (the genitive of “Sakartvelo”, the Georgian word for Georgia) shows that such parallel corpora are still useful.
All data mentioned in this blog post is available in a zip file (32M).
| lees verder…

Handelingen 2012-2013 in Folia formaat beschikbaar in Dans Easy

Geplaatst op 30-09-2013 door Maarten Marx | data, ODE, parliament | tags: , | comment image Geen reacties »

De Handelingen der Staten Generaal uit het Parlementaire jaar 2012-2013 in XML formaat volgens het proceedings.rncl schema zijn beschikbaar gemaakt via DANS Easy op met identifier urn:nbn:nl:ui:13-l67p-ty.
De teksten in de paragrafen in de Handelingen zijn opgedeeld in zinnen en vervolgens in woorden.
Aan elk woord is het lemma en de woordsoort toegevoegd. Named entities zijn herkend en hun meest waarschijnlijke Wikipedia paginas zijn daarmee verbonden.
Deze informatie staat in het Folia formaat en is gemaakt met de Frog software.

De kenmerkende woorden voor elke bewindslid

Geplaatst op 25-09-2013 door Maarten Marx | data, ODE, parliament | tags: | comment image Geen reacties »

In samenwerking met Vrij Nederland heeft PoliticalMashup voor elk lid uit het Kabinet Rutte II de meest kenmerkende woorden bepaald. We hebben gekeken naar werkwoorden, zelfstandige en bijvoegelijke naamwoorden.
Als voorbeeld hieronder die van Staatssecretaris Teeven. Klik op het plaatje om naar een grotere versie te gaan.
Wordle: teeven-nouns Wordle: teeven-werkwoorden Wordle: teeven-adjectief
| lees verder…

Vrij Nederland: kabinetsleden tijdens eerste jaar Rutte II

Geplaatst op 23-09-2013 door Maarten Marx | data, ODE, parliament | | comment image Geen reacties »

PoliticalMashup heeft samen met Vrij Nederland een analyse gemaakt van de debatten door de kabinetsleden tijdens het eerste jaar van Rutte II. Ter vergelijking is een zelfde analyse gemaakt van het eerste jaar van het laatste “vergelijkbare” kabinet, Balkenende IV.
Interrupties
We hebben voor elk kabinetslid, voor elk debat waar dat lid aan meedeed in de Handelingen van de Tweede Kamer geturfd hoeveel interrupties er waren, door wie, of er ook fractievoorzitters aanwezig waren, en hoeveel moties er werden ingediend.
Op basis daarvan heeft VN per bewindspersoon een score bepaald.

De gegevens zijn vrij beschikbaar als twee Google Fusion tables: Rutte II en Balkenende IV.
Deze spreadsheets bevatten naast de tellingen ook links naar alle debatten die in de analyse zijn gebruikt.

Hieronder een voorbeeld van wat je met deze gegevens kan doen: een taartdiagram dat per kabinetslid aangeeft hoeveel moties dat lid in het eerste jaar van Rutte II ontvangen heeft, zowel absoluut als relatief ten opzichte van het hele kabinet.

| lees verder…

De Tweede Kamer in 2012-2013

Geplaatst op 17-06-2013 door Maarten Marx | data, parliament | tags: | comment image Geen reacties »

We geven een overzicht van het afgelopen politieke jaar op basis van de Handelingen van de Tweede Kamer. We richten ons daarbij op 2 dingen: hoe succesvol zijn afzonderlijke politici in het maken of veranderen van beleid (via moties en amendementen), en hoeveel aandacht geven en ontvangen ze in de Tweede Kamer?

Alle gegevens die we gebruiken zijn automatisch door computers uit de Handelingen gehaald met behulp van text mining. Hieronder geven we die gegevens in spreadsheet formaat.

Deze gegevens zijn gebruikt voor het overzichtsartikel over het afgelopen politieke jaar in de Vrij Nederland van 20 Juni, geschreven door Jaco Alberts en Thijs Broer.

De analyses zijn gedaan op 6 en 7 Juni 2013. Op dat moment waren via overheid.nl de Handelingen tot en met zitting 68 (28 Maart 2013) beschikbaar.

Voorbeeld: aantal interrupties

Onderstaande grafiek laat het totaal aantal interrupties per persoon zien. De blauwe lijn geeft het aantal gepleegde interrupties, de rode het aantal ontvangen interrupties. Hier tonen we de 20 politici die het meest interrumpeerden. We zien dat Pechtold het meeste aandacht geeft. Hij ontvangt zelf echter relatief weinig aandacht. Het geven en ontvangen van aandacht is het meest in evenwicht in deze top 20 bij Kees Verhoeven.
De omgekeerde tabel, met de mensen met de langste rode lijn, wordt aangevoerd door Rutte.
Al dit soort grafieken zijn zelf te maken. Links naar de data staan hieronder.

Downloads

De meeste spreadsheets staan op Google Fusiontables. Alleen het overzicht van de stemmingen is hier als gzipped csv bestand aangehangen.

| lees verder…

« eerdere stukken