Oostenrijkse Parlement
Het Oostenrijkse Parlement (de Bundestag en de Nationalrat (dit is het equivalent van de Duitse Bundestag, en dus onze Tweede Kamer)) stelt haar Handelingen ook via het web beschikbaar, en op een bijzonder goede manier. We bespreken hier een aantal opmerkelijke punten, en noemen ook wat punten die nog verbeterd kunnen worden. We bespreken hier alleen de verslagen van de plenaire zittingen van de Bundestag.
De Oostenrijkse Handelingen zijn beschikbaar vanaf 1984 als facsimile PDF’s zonder onderliggende tekst, en als Word, PDF en HTML documenten vanaf 1996. Ze zijn hier te vinden.
Opmerkelijke positieve punten
- De Handelingen zijn zowel in Word, PDF als HTML verkrijgbaar. Ze zien er vrijwel hetzelfde uit, maar de HTML biedt extra functionaliteit omdat er hyperlinks in staan.
- De Handelingen zijn opgemaakt in een zeer overzichtelijk 1-koloms formaat met erg duidelijke scheidingen tussen paragrafen en paginas. De opmaak lijkt erg consequent te worden toegepast. Dit maakt text-mining eenvoudig en robuust te implementeren.
- Handelingen bevatten erg veel mogelijkheden tot het leggen van verbanden. In Nederland maakt de KB samen met de UvA ook verschillende verbanden expliciet in de Handelingen. Het is aardig om te zien dat in Oostenrijk voor dezelfde verbanden gekozen is. Dit zijn de volgende:
- interne hyperlinks van de inhoudsopgave naar de betreffende paginas
- elke spreker die aan het woord komt is voorzien van een hyperlink naar zijn/haar bio-pagina
- Nummers van dossiers (bijvoorbeeld wetten) zijn veelal voorzien van een hyperlink naar een pagina die de stukken van dat dossier bevat.
- De start tijd van elke spreker is expliciet in de Handelingen opgenomen. Hiermee is een direct verband met de werkelijkheid gelegd. Ook kan er hiermee heel eenvoudig een verband met audio of video opnames gemaakt worden. De lengte van elke toespraak is eenvoudig te berekenen, en daarmee ook bijvoorbeeld de spreeksnelheid van iedere spreker
Deze verbanden zijn allemaal te zien in het verslag van Donnerstag, 14. Jänner 1999: 9.03 – 20.11 Uhr.
- Bio paginas zijn dynamisch. Van elke persoon staat een mooie lijst met haar debatsbijdragen en nog veel meer. De debatsbijdragen zijn voorzien van hyperlinks naar de bladzijden waar de persoon spreekt. Heel netjes allemaal. Zie bijvoorbeeld de debatbijdragen van Erich Tadler.
Punten die verbeterd zouden kunnen worden
- De hyperlinks zouden net zo goed in de PDF aanwezig kunnen zijn.
- De HTML is geen welgevormde XML. Er zijn erg veel vervelende fouten, bijvoorbeeld in het nesten van tags. Zoals <b><i>Bundesrat</b>. Ik vermoed dat dit te pakken heeft met het feit dat de HTML volgens de metadata uit Word is gegenereerd.
<META NAME=”Generator” CONTENT=”Microsoft Word 97″> - De text is geencodeerd in een vreemd formaat, niet in Unicode (UTF-8 bijvoorbeeld). <META HTTP-EQUIV=”Content-Type” CONTENT=”text/html; charset=windows-1252″>
- De ingescande Handelingen zijn alleen als plaatje beschikbaar.
- De hyperlinks naar de namen zijn niet altijd consequent doorgevoerd. Niet elke naam krijgt een link. Hetzelfde geldt voor de dossiers.
- Partijen en kiesdistricten worden niet niet voorzien van een hyperlink.
- Commentaar vanuit de zaal wordt wel duidelijk gemaakt in de tekst (staat altijd binnen ronde haakjes en in italics), maar is niet structureel herkenbaar in de HTML. Zelfs de I-tag geeft niet de juiste scope weer (door de nesting problemen).
- De PDF file bevat geen metadata zoals de datum van de zitting. Dat is jammer, want dan moet dat soort metadata weer apart ergens vandaan gehaald worden. Met mogelijkheden tot fouten vandien.
De enige informatie die pdfinfo geeft is dit:Title: Microsoft Word - br775.doc Author: Creator: Acrobat PDFMaker 7.0.7 für Word Producer: Acrobat Distiller 7.0.5 (Windows) CreationDate: Fri Nov 20 08:05:36 2009 ModDate: Fri Nov 20 08:05:39 2009 Tagged: no Pages: 44 Encrypted: no Page size: 595.22 x 842 pts (A4) File size: 503939 bytes Optimized: yes PDF version: 1.4
24-12-2009 om 13:18 uur
Data en scripts op plus2 in /scratch/marx_plus/Parlando/scripts/Austria