Data deduplicatie

Geplaatst op 04-06-2008 door Maarten Marx | data | tags: , , | comment image Geen reacties »

Binnen Handelingen die beschikbaar zijn via Parlando en KB-SGD worden dezelfde entiteiten (personen, partijen) vaak op verschillende manieren gespeld. Dit maakt het natuurlijk erg moeilijk om alle gegevens van 1 entiteit netjes bij elkaar te zetten. De verschillende spellingswijzen komen door

  • OCR-foutjes (data voor 1995)
  • type-fouten
  • veranderende namen en wisselende conventies | lees verder…