Wat zijn de belangrijkste themas in een verkiezingsprogramma?

Geplaatst op 06-03-2013 door Maarten Marx | idea, lecture, parliament, Political Mashup, research, XML | tags: | comment image Geen reacties »

Die vraag beantwoorden we in deze post met behulp van een zogenaamd dispersie plot. In zo’n plot delen we een verkiezingsprogramma op de x-as op in alineas.

Op de y-as staan verkiezingsthemas. Elke paragraaf is “getagged” met 1 of meerdere van deze themas. Als dat zo is wordt dat in het plot aangegeven met een horizontaal streepje. Elk thema heeft dus de vorm van een barcode die aangeeft hoe verspreid dat thema over het hele programma behandeld wordt.

De dispersie waarde van een thema geeft de mate van spreiding weer: hoe hoger de waarde, hoe vaker en goed gespreid het thema voorkomt.

Deze dispersie waarde lijkt een prima indicator voor de belangrijkheid (saliency) van een thema voor een partij.

| lees verder…

XML Holland 2012

Geplaatst op 14-09-2012 door Maarten Marx | onderwijs, XML, xquery | | comment image Geen reacties »

Het XML Holland 2012 congres vindt plaats op 19 September 2012 in Amsterdam. De dag daarvoor organiseert het congres samen met de UvA een MarkLogic tutorial op het Science Park 904 in Amsterdam (18 September 10.00-15.00).
Sprekers op de tutorial zijn Geert Josten (Dayon) en Jim Fuller (MarkLogic).
Aanmelding kan via Maarten Marx of Geert Josten (geert.josten@dayon.nl)

Computational Humanities: een voorbeeld

Geplaatst op 07-03-2012 door Maarten Marx | parliament, research, XML | tags: | comment image Geen reacties »

Door het beschikbaar komen van enorme digitale databestanden bestaande uit (meestal ingescande) teksten is er grote vraag bij Geesteswetenschappers ontstaan naar hulp bij het ontsluiten van die data.
In de projecten die ILPS doet met Geesteswetenschappers komen de volgende twee verzoeken steeds naar voren:

  1. uitgebreide “advanced search” zoekmogelijkheid, net zo goed als Google, maar dan op mijn specifieke collectie, met specifieke extra zoekmogelijkheden;
  2. het doen van data analyse op grote hoeveelheden tekst. Dit om hypotheses kwantitatief te kunnen toetsen.

Handelingen der Staten Generaal
Binnen het PoliticalMashup project wordt samengewerkt met geesteswetenschappers van DNPP, NIOD, ING-Huygens, Meertens, INL, ASCoR, en verschillende universiteiten en maatschappelijke instellingen.
Zij hebben grote interesse in een prachtig databestand: de complete Handelingen der Staten Generaal van 1814 tot vandaag. Die zijn digitaal beschikbaar bij de KB.

We demonstreren de kracht van informatie extractie samen met gestructureerde zoektechnologie in XML aan de hand van twee voorbeelden:

  • de drie van Breda
  • NWO

In deze demonstratie beperken we ons tot het uitgebreid zoeken.
| lees verder…

Dataontsluiting met XML, XQuery en XSLT

Geplaatst op 18-11-2011 door Maarten Marx | eXist, resultaten, XML, XPath, xquery, xslt | | comment image Geen reacties »

Anne Schuth en Maarten Marx hebben een artikel geschreven voor de <!ELEMENT, het blad van de XML Holland user-groep. Het artikel laat zien hoe je met gebruikmaking van alleen maar XML technologie een volledige applicatie kan bouwen. In het artikel wordt het voorbeeld van een video zoekmachine helemaal uitgewerkt.

  • Link naar het artikel
  • Anne Schuth and Maarten Marx, Dataontsluiting met XML, XQuery en XSLT. <!ELEMENT Vol 17, Nr 2, p. 21-25, 2011.

Quality of the XML web

Geplaatst op 04-08-2011 door Maarten Marx | research, resultaten, XML | | comment image Geen reacties »

A paper on the quality of the XML files found on the web will be published in the proceedings of the 2011 ACM Conference on Information and Knowledge Management (CIKM).

Abstract

We collect evidence to answer the following question: Is the quality of the XML documents found on the web sufficient to apply XML technology like XQuery, XPath and XSLT? XML collections from the web have been previously studied statistically, but no detailed information about the quality of the XML documents on the web is available to date. We address this shortcoming in this study. We gathered 180K XML documents from the web. Their quality is surprisingly good; 85.4% is well-formed and 99.5% of all specified encodings is correct. Validity needs serious attention. Only 25% of all files contain a reference to a DTD or XSD, of which just one third is actually valid. Errors are studied in detail. Automatic error repair seems promising. Our study is well documented and easily repeatable. This paves the way for a periodic quality assessment of the XML web.
The full paper and all data are publicly available at the url http://data.politicalmashup.nl/xmlweb.

University of Amsterdam XML Web Collection

Geplaatst op 07-06-2011 door Maarten Marx | data, XML | | comment image Geen reacties »

Steven Grijzenhout made a collection of XML files crawled from the web available for research purposes.
The collection is available at http://data.politicalmashup.nl/sgrijzen/xmlweb/. A description of the data and an analysis of it is in the paper The Quality of the XML Web .

PhD position in Logic/XML/Trees

Geplaatst op 07-04-2011 door Maarten Marx | research, XML | tags: | comment image Geen reacties »

The university of Amsterdam has a fully funded 4-year PhD position available. The research topic is on the interplay of logic, finite model theory, and the theory of (XML)-trees and motivated by a concrete problem in database research:

Data Exchange for Document Centric XML.

| lees verder…

XML Prague 2011

Geplaatst op 01-04-2011 door Anne | eXist, research, XML, xquery | | comment image Geen reacties »

PoliticalMashup was represented in Prague at the XML Prague conference. The day before, at the pre-conference, Anne presented his work on Fast Faceted Search in XML.

The captured livestream of that presentation is shown below. The slides are here.

Interview Search Engine

Geplaatst op 17-02-2011 door Maarten Marx | resultaten, XML | tags: | comment image Geen reacties »


SEARCH ENGINE for the SIGMOD RECORD INTERVIEWS with
DISTINGUISHED MEMBERS of the DATABASE COMMUNITY

http://xml.politicalmashup.nl/sigmod

By synchronizing the full text and the videos of the interviews by Marianne Winslett we made her collection of interviews on video full text searchable. The result of a keyword search is a relevance ranked list of best entry points to the videos, given a query. Clicking on a “hit” starts the video at the question whose answer is about the searcher’s query.

The set of interviews spans almost 10 years and presents a fascinating view on the database research in that period. We view this collection as an addition to other documenting and archiving initiatives as DBLP and the ACM Sigmod Anthology.

The whole system is written in XQuery and runs on the eXist XML database system.
More information.

The system was developed by Maarten Marx and Anne Schuth and supported by the FP7 FET program of the EU, under the FET-Open grant agreement FOX, number FP7-ICT-233599.

Federal Register 2.0

Geplaatst op 28-07-2010 door Maarten Marx | data, XML | | comment image Geen reacties »

Ed Summers posted the following message on the W3C EGov public mailing list:

I don’t know if this got discussed on here much yet, but I discovered
today via the Sunlight Foundation blog [1] that the Federal Register
2.0 site was recently released [2]. The Federal Register is one of the
most important government publications in the US, since it is the most
comprehensive publication of all the rules and regulations of the
various agencies that make up US federal government.

The new site is interesting to me for a few reasons:

– it uses opensource technologies (ruby, ruby on rails, mysql, sphinx,
nginx, apache2, varnish)
– the source code for the website itself is opensource, and available
to people to contribute changes/enhancements on github
– there is machine readable data available various flavors of xml
– there are permalinks for each entry in the Federal Register, which
incourages citability
– it is deployed in the cloud on Amazon’s ec2/s3
– it was the result of an egov software contest organized by the
Sunlight Foundation

I wrote up some more of my thoughts in my blog [3], if you care to
comment here or there. If anyone from NARA, GPO or Sunlight Foundation
are reading, nice work!

//Ed

[1] http://sunlightlabs.com/blog/2010/meet-the-new-federal-register/
[2] http://www.federalregister.gov/
[3]
http://inkdroid.org/journal/2010/07/27/federal-register-embraces-the-web-and
-opensource/

Some missing aspects
This XML collection is potentially a great resource, but at least three things need to be done before the XML can be reused reliably in a mashup:

  1. Provide a DTD or Schema
  2. The XML does not contain any of the metadata which is in the “infobox” on the right of the HTML page.
    In particular the reference/provenance information like the Document Citation and the Document ID are needed.
  3. Inside the XML there is no URI pointing persistently to itself, neither is there a URI pointing to the HTML-page based on the XML.

A fantastic aspect of the site is the ability to link to individual paragraphs in the documents.
Try for example http://www.federalregister.gov/a/2010-18383/p-12. This link is provided in the red ribbon to the right of the paragraph.
Mashups could potentially benefit from this feature. But unfortunately, these links are not present in the XML.

Conclusion
If you want to add this data to the Linked Open Data cloud, or if you want to create a mashup based on this data set, you have to screen scrape the HTML page which comes with each XML document.
This is a pity, because you are reverse engineering. Obviously this is not a reliable and stable solution.

« eerdere stukken