Trading space for time

Geplaatst op 07-10-2008 door Maarten Marx | data, Uncategorized | tags: , , | comment image Geen reacties »

De Handelingen zoals opgelagen bij de de KB in het StatenGeneraalDigitaal project worden vaak erg groot.
Dit komt omdat de PDF file bestaat uit plaatjes van elke bladzijde plus de tekst. In deze blog laten we zien dat er veel winst te behalen is door het omzetten van de Handelingen in XML, volgens het PoliDocs formaat zoals gebruikt wordt op www.polidocs.nl .

De resultaten met een willekeurige XML file van een vergadering bestaande uit 72 bladzijden zijn erg positief.
De XML file met vrijwel dezelfde informatie is meer dan 150 keer kleiner dan de oorspronkelijke PDF. De PDF die wij genereren op basis van deze XML file is 50 keer kleiner. Het omzetten van XML naar PDF op een gewone Linux machine kost minder dan anderhalve seconde. Dit kan dus prima op het moment dat iemand een bestand opvraagt. We hoeven de PDF file dus niet op te slaan. In plaats daarvan slaan we alleen de XML in een gzipped formaat op.

In dit voorbeeld is de besparing dus

  • 150 keer minder opslagruimte en
  • 50 keer minder bandbreedte nodig om de PDF file over te sturen.

De prijs is dat de gebruiker niet het origineel te zien krijgt maar een benadering daarvan. De kwaliteit van die benadering hangt af van de kwaliteit van de OCR en van de structuur extractie-software.

| lees verder…