Linguistische annotatie van de krant

Geplaatst op 07-02-2013 door Maarten Marx | data, Political Mashup, XPath | tags: | comment image Geen reacties »

Binnen het PoliticalMashup project koppelen we verschillende soorten politieke data met elkaar. Een belangrijke koppeling is op politieke actor: welke politieke spelers komen er in een document voor.

Om meer grip te krijgen op de informatie die in krantenartikelen staat, voegen we allerlei linguistische annotatie toe, gebruik makend van de Frog software uit Tilburg/Nijmegen, een Named Entity recognizer aan de UvA ontwikkeld door Lars Buitinck, en software die entities koppelt aan Wikipedia ontwikkeld door Edgar Meij aan de UvA. Het eindresultaat is een UTF-8 geëncodeerd XML bestand dat valideert met een variant op het Folia schema.
| lees verder…

Making WordClouds in XPath/XQuery

Geplaatst op 12-03-2012 door Maarten Marx | onderwijs, XPath | tags: , | comment image Geen reacties »

We describe step by step how to make a basic wordcloud in XPath/XQuery.
In the tutorial we use two files:
input XML file en wordcloud XQuery file.

| lees verder…

Dataontsluiting met XML, XQuery en XSLT

Geplaatst op 18-11-2011 door Maarten Marx | eXist, resultaten, XML, XPath, xquery, xslt | | comment image Geen reacties »

Anne Schuth en Maarten Marx hebben een artikel geschreven voor de <!ELEMENT, het blad van de XML Holland user-groep. Het artikel laat zien hoe je met gebruikmaking van alleen maar XML technologie een volledige applicatie kan bouwen. In het artikel wordt het voorbeeld van een video zoekmachine helemaal uitgewerkt.

  • Link naar het artikel
  • Anne Schuth and Maarten Marx, Dataontsluiting met XML, XQuery en XSLT. <!ELEMENT Vol 17, Nr 2, p. 21-25, 2011.

XPadje: allitererende volksvertegenvoordigers

Geplaatst op 28-12-2010 door Maarten Marx | trivia, XPath | tags: | comment image Geen reacties »

Vele vreemde volksvertegenwoordigers proberen te allitereren. In de wandelgangen schijnen geruchten te gaan dat volksvertegenwoordigers meer allitereren dan gewone stervelingen. NRC Next vroeg ons dit uit te zoeken, en een “Heerlijk Helder Heineken” query te schrijven.

In eerste instantie hebben we gezocht naar stukjes tekst met minstens drie woorden beginnend met dezelfde letter, maar dat leverde te veel hits op. In de resultaten hieronder zijn dus alleen de alliteraties van minstens 4 woorden meegenomen.
Hier zijn een aantal van de langste (6):

documenteren dan degenen die denken dat
dat de doelstellingen die door de
de draden die door dit debat
dat degenen die daar de directie
wij willen wel weten waarop we
van voorwaartse verrekening van verliezen van
dat deel daarvan dat door de

| lees verder…

XPadje: Halsema’s speeches van Twitter lengte

Geplaatst op 21-12-2010 door Maarten Marx | onderwijs, XPath | tags: , | comment image Geen reacties »

PoliticalMashup heeft al verschillende blogs geschreven waarin wordt getoond hoe handig XPath en XQuery zijn voor het maken van politieke analyses op politieke data in XML. We gaan daar een serie van maken. We noemen de afleveringen daarvan Xpadjes.
Elke aflevering bestaat uit

  • Een onderzoeksvraag
  • De benodigde ingrediënten
  • De uitwerking in XPath en XQuery
  • Links naar de uitkomsten van de queries

De aflevering van vandaag gaat over Femke Halsema en haar Twitter gedrag.

Wordle: HalsemaTwitterLengteSpeeches

| lees verder…