NWO Creatieve Industrie project ExPoSe

Geplaatst op 27-04-2013 door Maarten Marx | parliament | | Geen reacties »

Het ExPoSe (Exploratory Political Search) project van Jaap Kamps en Maarten Marx is in de Creatieve Industrie 2013 ronde van NWO toegekend.
In het project worden twee aio’s en één wetenschappelijke programmeur aangesteld.
Het project loopt 5 jaar en wordt door het volgende consortium uitgevoerd: Dispectu BV, Koninklijke Bibliotheek, Meertens Instituut, Nationaal Archief, Spinque BV, Tweede Kamer, Universiteit van Amsterdam.
| lees verder…

Wat zijn de belangrijkste themas in een verkiezingsprogramma?

Geplaatst op 06-03-2013 door Maarten Marx | Political Mashup, XML, idea, lecture, parliament, research | tags: | Geen reacties »

Die vraag beantwoorden we in deze post met behulp van een zogenaamd dispersie plot. In zo’n plot delen we een verkiezingsprogramma op de x-as op in alineas.

Op de y-as staan verkiezingsthemas. Elke paragraaf is “getagged” met 1 of meerdere van deze themas. Als dat zo is wordt dat in het plot aangegeven met een horizontaal streepje. Elk thema heeft dus de vorm van een barcode die aangeeft hoe verspreid dat thema over het hele programma behandeld wordt.

De dispersie waarde van een thema geeft de mate van spreiding weer: hoe hoger de waarde, hoe vaker en goed gespreid het thema voorkomt.

Deze dispersie waarde lijkt een prima indicator voor de belangrijkheid (saliency) van een thema voor een partij.

| lees verder…

PoliticalMashup wint NederLandse Dataprijs 2012

Geplaatst op 19-10-2012 door Maarten Marx | data, parliament | tags: | Geen reacties »

PoliticalMashup heeft de NederLandse Dataprijs 2012 gewonnen met de gemaakte XML versie van de Handelingen der Staten Generaal van 1814-2012.

De onvindbare logaritmes die tijdens de prijsuitrijking ter sprake kwamen zijn ondertussen alsnog gevonden. Jos Engelen had bijna helemaal gelijk, Minister Pronk zei alleen logaritmisch (Eerste Kamer, 2001-01-16), en niet logaritme. Te vinden met de query logarit*.


| lees verder…

Heel veel woorden uit het Parlement

Geplaatst op 11-10-2012 door Maarten Marx | parliament, trivia | tags: | Geen reacties »

Politici zijn erg creatief in hun taalgebruik. Een leuke vraag is dus

Hoeveel verschillende woorden zijn er uitgesproken in de Tweede Kamer sinds 1814?

Het jaar 1814 is gekozen omdat er vanaf dat moment zogenaamde Handelingen der Staten Generaal beschikbaar zijn.
Het antwoord is een gigantisch aantal: 2.773.826. Echter dit wordt nogal vertekend omdat de teksten zijn ingescand en de letters automatisch zijn herkend (OCR). Dit levert nogal wat fouten op. Maar kijken we naar het aantal woorden dat minstens 2 keer voorkomt, dan hebben we er nog steeds heel erg veel: 992.291, bijna 1 miljoen.
Deze woorden zijn allemaal te vinden met de politieke ngram viewer die PoliticalMashup en Dispectu BV samen hebben ontwikkeld.
| lees verder…

Automatische classificatie van documenten

Geplaatst op 05-10-2012 door Maarten Marx | Political Mashup, data, parliament, research | tags: | Geen reacties »

Het toekennen van trefwoorden uit een vaste lijst aan documenten (”taggen”) is een tijdrovende en dus kostbare taak. Vandaar dat veel onderzoek gedaan wordt naar automatiseren van die taak.
Die taak kan je op twee manieren automatiseren:

  1. Traditioneel De computer kent een beperkt aantal (3-6) trefwoorden aan een document toe, zonder ordening op die woorden.
  2. Anders De computer kent een flinke lijst (50-100) trefwoorden toe, allemaal met een “waarschijnlijkheids score”, die bijvoorbeeld zichtbaar gemaakt kan worden in een woordenwolk

Voor de traditionele manier maakt een computer nog te veel fouten om dit zonder menselijk ingrijpen uit te voeren. Het meest zinvolle is het maken van een term aanbevelings systeem.
Zo’n systeem geeft voor elk te taggen document een geordende lijst van de trefwoorden, en de menselijke tagger kan daar dan de juiste uitkiezen.
Dit lijkt wel wat op Google zoeken. Ook bij zo’n systeem is het van groot belang dat de juiste trefwoorden hoog in de lijst voorkomen. Dan leidt het gebruik van het aanbevelings-systeem tot tijdswinst.

Hoe werkt dat nou?

Lerend uit heel veel voorbeelden (documenten voorzien van trefwoorden) maken we een model op van elk trefwoord. Dat model bestaat simpelweg uit een lijst woorden voorzien van een gewicht. Die woorden kan je zien als een indicator dat een document over dat trefwoord gaat. De gewichten geven aan hoe belangrijk die indicator is.
Om een beeld te geven hebben we hier de 100 meest belangrijke indicatoren gezet die ons systeem geleerd heeft voor het trefwoord militaire vliegtuigen. In plaats van de gewichten laten we de woorden zien in een woordenwolk. Het is duidelijk dat de meeste woorden prima bij dat begrip passen.

Verdere beschrijving en uitleg

| lees verder…

Verbeelding van de Politiek

Geplaatst op 07-09-2012 door Maarten Marx | parliament | tags: | Geen reacties »

Maarten Marx spreekt zondag 9 September 2012 in een programma over 50 jaar Zendtijd voor Politieke Partijen over manieren waarop ICT politieke data beter inzichtelijk kan maken.
Hieronder staan links naar materiaal wat hij in de lezing gebruikt.

De Handelingen: 200 jaar gesproken woord

  • Voor elk woord gesproken in de Tweede Kamer weten we
    1. wie het zegt
    2. van welke partij diegene is (op dat moment)
    3. welke rol diegene speelt (op dat moment)
    4. tegen wie gesproken wordt
    5. wanneer het gezegd is
    6. in welke context het gezegd is
  • Dit wordt genoteerd in de Handelingen (voorbeeld).
  • Let op: mensen kunnen die informatie er makkelijk uithalen, computers niet!
  • Maar met wat moeite kan het wel!
  • Allerlei leuke applicaties worden dan mogelijk.

Toepassingen

Verdere toepassingen

Wat staat dit in de weg?

  1. Geneuzel over copyright.
  2. Angst bij ambtenaren dat met openbaarheid (minieme) foutjes aan het licht komen.
  3. Angst bij partijen om geconfronteerd te kunnen worden met het verleden.
  4. Onbekendheid, onzekerheid….

Hoe komen we verder?

Door gewoon te laten zien dat het wel kan, en helemaal niet zo eng is.

Vlaams Parlement

Geplaatst op 07-08-2012 door Maarten Marx | parliament | tags: | Geen reacties »

In samenwerking met PoliticalMashup hebben studenten informatica van de Universiteit Hasselt de Handelingen van het Vlaamse Parlement doorzoekbaar gemaakt. Zij hebben zich daarbij laten inspireren door de zoekmachine voor de Nederlandse Handelingen, maar wilden die natuurlijk verbeteren.

Dat lijkt goed gelukt. Oordeel zelf op deze voorlopige URLs:

De Master studenten Informatica van de Universiteit Hasselt werden begeleid door Professors Jan van den Bussche en Frank Neven.

Oppositie blaft, maar bijt niet

Geplaatst op 09-07-2012 door Maarten Marx | parliament | | Geen reacties »

Dit is de naam van een onderzoek gedaan door ANP/Sargasso naar het stemgedrag in de Tweede Kamer tijdens het kabinet Rutte. Het onderzoek is gedaan op basis van de stemmingen die in het kader van het PoliticalMashup project uit de tekst van de Handelingen zijn gehaald en omgezet naar een spreadsheet formaat.

Hieronder staan links naar dit spreadsheet, de XQuery code die gebruikt is om de stemmingen te extraheren en naar media dit het bericht overnamen.

Op verzoek zijn deze gegevens ook beschikbaar voor de periode 1995-2012. Neem contact op met Maarten Marx.
| lees verder…

Politicologenetmaal

Geplaatst op 11-06-2012 door Maarten Marx | Political Mashup, parliament, research | tags: | Geen reacties »

Johan van Doornik presenteerde werk over de rol van vrouwen in het Nederlandse parlement in de periode 1918-2011 tijdens het politicologenetmaal van 2012 in Amsterdam.
Een korte beschrijving van het werk staat in het abstract: Women in Parliament: what they did?
| lees verder…

Verkiezingsprogrammas van Lipschits Digitaal

Geplaatst op 08-05-2012 door Maarten Marx | Political Mashup, data, parliament, resultaten | tags: | 1 reactie »

PoliticalMashup heeft samen met het DNPP de bundels verkiezingsprogrammas gemaakt door Isaac Lipschits gedigitaliseerd. Het DNPP heeft de boeken ingescand en geOCRed. Suzan Verberne heeft de teksten vervolgens omgezet naar een uitgebreid XML formaat.
In deze blogpost laten we zien wat je daar dan mee kan. Om te beginnen een verkiezingsthemawolk van de VVD uit 1998. Hierin staan alle onderwerpen die volgens Lipschits minstens 2 maal in het programma van de VVD aan bod kwamen. De top tien bestaat inderdaad uit typische VVD onderwerpen.

werkgelegenheid:16
 Europese_samenwerking:12
 milieubeleid:11
 belastingen_algemeen:11
 onderwijs:11
 economische_groei:9
 gezondheidszorg:9
 criminaliteits_bestrijding:9
 loon-_en_inkomensbeleid:8
 gemeentelijk_bestuur_en_beleid:8

>
| lees verder…

« eerdere stukken