KB kranten bij PoliticalMashup

Geplaatst op 12-08-2014 door Maarten Marx | data, Political Mashup | tags: , | comment image Geen reacties »

Het KB kranten archief is een belangrijk corpus dat gebruikt wordt binnen het PoliticalMashup project.
In dat project zijn twee “zoekmachines” gemaakt waarmee dat archief bevraagd kan worden:

  1. Zoeken met reguliere expressies.
    Hier kan je zoeken in een gestratificeerde steekproef (rond de 8000 artikelen).
  2. KB ngram viewer

We hebben de krantenartikelen in een eigen XML formaat gegoten waarin de metadata en de tekst data van elk artikel overzichtelijk bij elkaar staan. De steekproef is hier op te halen. De XML valideert met betrekking tot het schema op http://schema.politicalmashup.nl/kbpaper/kbpaper-schema.rnc. Dit schema is ook beschikbaar in een meer leesbare HTML versie.

Code van KB ngram viewer

Neem contact op met Maarten Marx of Dispectu.com.