Computational Humanities: een voorbeeld

Geplaatst op 07-03-2012 door Maarten Marx | parliament, research, XML | tags: | comment image Geen reacties »

Door het beschikbaar komen van enorme digitale databestanden bestaande uit (meestal ingescande) teksten is er grote vraag bij Geesteswetenschappers ontstaan naar hulp bij het ontsluiten van die data.
In de projecten die ILPS doet met Geesteswetenschappers komen de volgende twee verzoeken steeds naar voren:

  1. uitgebreide “advanced search” zoekmogelijkheid, net zo goed als Google, maar dan op mijn specifieke collectie, met specifieke extra zoekmogelijkheden;
  2. het doen van data analyse op grote hoeveelheden tekst. Dit om hypotheses kwantitatief te kunnen toetsen.

Handelingen der Staten Generaal
Binnen het PoliticalMashup project wordt samengewerkt met geesteswetenschappers van DNPP, NIOD, ING-Huygens, Meertens, INL, ASCoR, en verschillende universiteiten en maatschappelijke instellingen.
Zij hebben grote interesse in een prachtig databestand: de complete Handelingen der Staten Generaal van 1814 tot vandaag. Die zijn digitaal beschikbaar bij de KB.

We demonstreren de kracht van informatie extractie samen met gestructureerde zoektechnologie in XML aan de hand van twee voorbeelden:

  • de drie van Breda
  • NWO

In deze demonstratie beperken we ons tot het uitgebreid zoeken.

We willen weten hoe er in het parlement over deze onderwerpen gesproken is in de periode 1930-1995.
Daartoe kunnen we zoeken bij statengeneraaldigitaal.nl, de website van de KB, of in de zoekinterface van PoliticalMashup. In beide gevallen zoeken we in exacte dezelfde tekst. Echter bij de KB is dat “slechts” platte tekst voorzien van metadata, en bij PoliticalMashup is dat rijk geannoteerde, gestructureerde en verbonden tekst.

NWO en andere wetenschappelijke subsidiegevers

Voorbeeld informatiebehoefte:

  • Alle speeches waarin NWO wordt genoemd. Antwoord
  • Wordt er ook wel eens over NWO gesproken zonder de afkorting? Antwoord
  • Geef nu de speeches waarin over NWO, ZWO, FOM of de KNAW wordt gesproken. Orden nu chronlogisch. Antwoord
  • Orden nu niet chronologisch, maar naar de belangrijkheid van het debat. Antwoord
  • Geef me nu alleen speeches door leden van de regering. Antwoord
  • Wat heeft de VVD over dit onderwerp gezegd? Orden op relevantie.Antwoord
  • Wat heeft Bolkestein erover gezegd? Antwoord

De kracht van het expliciet maken van impliciete informatie in XML is goed te voelen als men probeert om dezelfde informatie naar boven te halen uit exact dezelfde data bij statengeneraaldigitaal.nl.
Ondanks dat het een enorme winst op de papieren versie is horen wij toch erg veel frustratie bij de geesteswetenschappers die deze bron raadplegen.

Vier van Breda

Voorbeeld informatiebehoefte:

  • Alle speeches waarin de Twee, Drie of Vier van Breda worden genoemd.
    Antwoord.
  • Alle speeches waarin dhr. JGC Wiebenga van de VVD het had over de Twee van Breda, in omgekeerd chronologische volgorde.
    Antwoord.
  • Hebben ook andere VVD’ers over dit onderwerp gesproken?
    Antwoord.
  • Welke ministers of staatssecretarissen hebben zich met dit onderwerp beziggehouden?
    Antwoord

Vergelijk dit met een zoekopdracht op www.statengeneraaldigitaal.nl.

De zoekmachine van SGD kent geen ‘OR’ functie, kan niet zoeken op partij, en de restrictie op politicus werkt niet correct.

Reageer

Je moet ingelogd zijn om te kunnen reageren.