Digitaal SonjaBakkeren

Geplaatst op 08-05-2009 door Maarten Marx | Uncategorized, onderwijs | |

Tim Gielissen en Maarten Marx hebben een artikel geschreven over Digitaal SonjaBakkeren waarin ze laten zien hoe ingescande en ge-OCRde Handelingen der Staten Generaal om te zetten zijn als nieuwe echt digitale bestanden. Het artikel is verschenen in de Proceedings of The Third Workshop on Analytics for Noisy Unstructured Text Data. Onderaan deze post staat de BibTex entry met de precieze referenentie.

Uitgebreide versie hier beschikbaar. Voor het blad International Journal of Document Analysis and Recognition hebben we het artikel uitgebreid met een studie naar de zoekinterface van de SGD. Dit artikel is momenteel onder submissie.

Rechts het origineel, links de herschapen versie

Rechts het origineel, links de herschapen versie

Een voorbeeld van een herschapen bestand staat hier. Het is 216KiloByte groot. Het origineel, te vinden op http://dl.getdropbox.com/u/657987/SG_HAN0000006.pdf is 14 MegaByte. De grootte in bytes van de herschapen file is dus slechts 1.5% van het origineel.

De techniek is nog niet helemaal geperfectioneerd. Dit is vooral goed zichtbaar in de bladzijden die steeds wat overlopen op een volgende pagina. Dit komt omdat we een net iets ander lettertype moesten gebruiken. Het onderzoek naar het herschapen van digitale documenten gaat verder.

Bibtex

@inproceedings{1568303,
 author = {Gielissen, Tim and Marx, Maarten},
 title = {Digital weight watching: reconstruction of scanned documents},
 booktitle = {AND '09: Proceedings of The Third Workshop
                  on Analytics for Noisy Unstructured Text Data},
 year = {2009},
 isbn = {978-1-60558-496-6},
 pages = {25--31},
 location = {Barcelona, Spain},
 doi = {http://doi.acm.org/10.1145/1568296.1568303},
 publisher = {ACM},
 address = {New York, NY, USA},
 }

Reageer