SGD OCR perikelen deel 2

Geplaatst op 11-06-2008 door Maarten Marx | data | tags: , |

Voor de tweede batch kamerstukken die beschikbaar zijn bij de SGD lijkt er een nieuw OCR programma gebruikt. Dit heeft voor- en nadelen. Iets wat opvalt bij het herkennen van sprekers is dat in stukjes tekst die vet gedrukt zijn alle letters vaak worden gescheiden door spaties. Maar dit gebeurt ook niet altijd!. Hier staan wat voorbeelden op basis van de volgende files:
De file SG_HAN0000114252.xml is met behulp van het programma pdftohtml -xml verkregen uit de file SG_HAN0000114252.pdf.
Het is niet zo heel moeilijk deze OCR-foutjes te verbeteren, althans wat betreft de namen. De file SG_HAN0000114252MASHUP.xml is onze XML versie van de PDF waarin de foutjes verbeterd zijn. Dit is de file die op www.polidocs.nl getoond wordt.

Opvallende OCR foutjes

  • Zoeken met Ctrl F op Weijers in SG_HAN0000114252.pdf levert 1 hit op: in de aanwezigheidslijst. De vier keer dat hij spreekt wordt gemist door de gekke OCR fout.
  • De OCR maakt 111 keer de gekke fout met “voorzitter” (zie het voorbeeld) , maar 9 keer ook niet! (voor welke keren zie ook het voorbeeld).
  • Dit is nog helemaal niet zo makkelijk op te lossen, omdat je bepaalde spaties weer wel wilt hebben in namen. een lastige is bijvoorbeeld D e n O u d e n - D e k k e r s .

1 reactie op “SGD OCR perikelen deel 2”

  1. Berry Feith zegt:
    17-06-2008 om 12:00 uur

    Hallo Maarten,

    kun je mij je emailadres sturen? Ik heb gekeken naar het OCR probleem dat jullie hebben met de periode 1985 - 1990 maar kan momenteel niet ontdekken wat het probleem veroorzaakt. Ik zou je een aantal van onze geOCRde bestanden willen sturen zodat jullie daar eens naar kunnen kijken.

    Met vriendelijke groet,

    Berry Feith

Reageer