PoliticalMashup heeft samen met het DNPP de bundels verkiezingsprogrammas gemaakt door Isaac Lipschits gedigitaliseerd. Het DNPP heeft de boeken ingescand en geOCRed. Suzan Verberne heeft de teksten vervolgens omgezet naar een uitgebreid XML formaat.
In deze blogpost laten we zien wat je daar dan mee kan. Om te beginnen een verkiezingsthemawolk van de VVD uit 1998. Hierin staan alle onderwerpen die volgens Lipschits minstens 2 maal in het programma van de VVD aan bod kwamen. De top tien bestaat inderdaad uit typische VVD onderwerpen.
werkgelegenheid:16
Europese_samenwerking:12
milieubeleid:11
belastingen_algemeen:11
onderwijs:11
economische_groei:9
gezondheidszorg:9
criminaliteits_bestrijding:9
loon-_en_inkomensbeleid:8
gemeentelijk_bestuur_en_beleid:8
>
| lees verder…
Geplaatst op 04-05-2012 door Maarten Marx |
research | tags:
ner |
Geen reacties »
Binnen het Clarin project War In Parliament spelen named entities een belangrijke rol. In de Handelingen der Staten Generaal bepalen we voor elke woord wie het gesproken heeft. Met behulp van Named Entity Recognition technieken bepalen we in de uitgesproken tekst over welke entiteiten er dan gesproken wordt.
Nadat we de entiteiten herkend hebben proberen we ze te normaliseren door ze te verbinden met Wikipedia paginas.
We kunnen dan vragen beantwoorden als
- Wie spreekt over wie?
- Wie heeft het het meest over locatie X?
- Welke organisaties worden het meest in de Kamer besproken. Splits dat uit per partij.
- Welke Kamerlid spreekt het meest over zijn woonplaats of geboorteplaats?
- …
Lars Buitinck heeft een vernieuwende manier gevonden om een named entity recognizer te trainen op basis van geannoteerde data. De voordelen van zijn methode zijn simpelheid, inzichtelijkheid en snelheid. Lars presenteert de methode op de 17th International conference on Applications of Natural Language Processing to Information Systems (26-28/6/2012, Groningen).
Link naar het artikel: Two-stage named-entity recognition using averaged perceptrons
Lars Buitinck and Maarten Marx
@inproceedings{
title = {Two-stage named-entity recognition using averaged perceptrons},
author = {L. Buitinck and M. Marx},
booktitle = {Proc. 17th International Conference on
Applications of Natural Language Processing
to Information Systems},
editor = {G. Bouma and A. Ittoo and E. M\'{e}tais
and H. Wortmann},
publisher = {Springer},
address = {Groningen, Netherlands},
year = 2012
}
Geplaatst op 13-04-2012 door Maarten Marx |
Uncategorized | |
Geen reacties »
Donderdag 12 April heeft een groep burgers 5 aanbevelingen voor een Open Tweede Kamer aan Gerdi Verbeet overhandigd. PoliticalMashup heeft mee geschreven aan deze aanbevelingen en Arjan Nusselder was erbij.
Geplaatst op 10-04-2012 door Maarten Marx |
lecture | |
Geen reacties »
Maarten Marx will give an invited talk at the LREC workshop Exploring and Exploiting Official Publications on April 27 2012 in Istanbul.
Geplaatst op 10-04-2012 door Maarten Marx |
Uncategorized | |
Geen reacties »
Hier staat het materiaal dat hoort bij de lezing van Maarten Marx op 11 April 2012 voor de derdejaars Politicologie aan de Universiteit Leiden.
| lees verder…
Geplaatst op 22-03-2012 door Maarten Marx |
research | tags:
namescape |
Geen reacties »
Het NameScape project is van start gegaan. Alles daarover staan in de slides die Karina van Dalen liet zien op de Clarin 3 kickoff meeting.
| lees verder…
Geplaatst op 20-03-2012 door Maarten Marx |
parliament | tags:
twitter |
Geen reacties »
Met hulp van PoliticalMashup’s Twitter wizzards Bart de Goede en Justin van Wees (o.a. van pentapolitica.nl) hebben drie eerstejaars Informatiekunde studenten aan de Universiteit van Amsterdam in samenwerking met Sargasso.nl een analyse gemaakt van het getwitter van de Haagse intimi. Hun verslag en eindproduct stond al een tijdje op haagsetweet.nl en is nu ook door het ANP opgepikt en als persbericht verspreid.
Onder andere te lezen op nu.nl, rtl.nl, en sargasso.nl.
|
|
Het onderzoek is uitgevoerd door Hayo Bart, Frank Houweling en Liset Meijerman onder begeleiding van Maarten Marx en Dimitri Tokmetzis.
| lees verder…
Geplaatst op 15-03-2012 door Maarten Marx |
parliament | tags:
nrc |
Geen reacties »
Deze vraag vroeg NRC Next aan PoliticalMashup voor hun rubriek next checkt. Op 15 Maart
bekeek die rubriek of Rutte’s uitspraak
Eigenlijk zitten VVD en SGP heel dicht bij elkaar
waar is.
NRC Next heeft de verkiezingsprogrammas naast elkaar gelegd en PoliticalMashup heeft alle stemmingen uit 2011 uit de Handelingen gehaald en geturfd hoe vaak de twee partijen hetzelfde stemden. Dat bleek in driekwart van de gevallen zo te zijn. Kijk je meer gericht naar het soort stemming, dan is de gelijkenis nog sterker. Op de 99 stemmingen over wetsvoorstellen stemden VVD en SGP maar 4 keer verschillend.
Link naar blogpost behorend bij het artikel
Link naar scan van het artikel.
|
|
Geplaatst op 13-03-2012 door Maarten Marx |
Uncategorized | |
Geen reacties »
PoliticalMashup probeert de uitslag en de stemverdeling van de stemmingen over moties, amendementen en wetsontwerpen uit de Handelingen te halen. Dit wordt weer gebruikt door de Tweede Kamer, sites als politix.nl en politicologen.
Dit gaat aardig goed omdat de voorzitter de uitslag van de stemmingen met behulp van een aantal vaste formules aangeeft.
Maar soms wordt er tijdens de vergadering gezegd dat de voorzitter een foutje heeft gemaakt. De stemming wordt dan echter niet in de Handeling verbeterd. Zowel voor mensen als voor computers is het op deze manier erg moeilijk om gegarandeerd de juiste stemming uit de tekst op te maken.
| lees verder…
Geplaatst op 12-03-2012 door Maarten Marx |
XPath,
onderwijs | tags:
Add new tag,
XPadje |
Geen reacties »
We describe step by step how to make a basic wordcloud in XPath/XQuery.
In the tutorial we use two files:
input XML file en wordcloud XQuery file.
| lees verder…