SGD OCR perikelen deel 2

Geplaatst op 11-06-2008 door Maarten Marx | data | tags: , | comment image Geen reacties »

Voor de tweede batch kamerstukken die beschikbaar zijn bij de SGD lijkt er een nieuw OCR programma gebruikt. Dit heeft voor- en nadelen. Iets wat opvalt bij het herkennen van sprekers is dat in stukjes tekst die vet gedrukt zijn alle letters vaak worden gescheiden door spaties. Maar dit gebeurt ook niet altijd!. Hier staan wat voorbeelden op basis van de volgende files:
De file SG_HAN0000114252.xml is met behulp van het programma pdftohtml -xml verkregen uit de file SG_HAN0000114252.pdf.
Het is niet zo heel moeilijk deze OCR-foutjes te verbeteren, althans wat betreft de namen. De file SG_HAN0000114252MASHUP.xml is onze XML versie van de PDF waarin de foutjes verbeterd zijn. Dit is de file die op www.polidocs.nl getoond wordt.

Opvallende OCR foutjes

  • Zoeken met Ctrl F op Weijers in SG_HAN0000114252.pdf levert 1 hit op: in de aanwezigheidslijst. De vier keer dat hij spreekt wordt gemist door de gekke OCR fout.
  • De OCR maakt 111 keer de gekke fout met “voorzitter” (zie het voorbeeld) , maar 9 keer ook niet! (voor welke keren zie ook het voorbeeld).
  • Dit is nog helemaal niet zo makkelijk op te lossen, omdat je bepaalde spaties weer wel wilt hebben in namen. een lastige is bijvoorbeeld D e n O u d e n – D e k k e r s .

Reageer

Je moet ingelogd zijn om te kunnen reageren.