Data deduplicatie
Geplaatst op 04-06-2008 door Maarten Marx | data | tags: data deduplication, named entities, normalization |
1 reactie »
1 reactie »Binnen Handelingen die beschikbaar zijn via Parlando en KB-SGD worden dezelfde entiteiten (personen, partijen) vaak op verschillende manieren gespeld. Dit maakt het natuurlijk erg moeilijk om alle gegevens van 1 entiteit netjes bij elkaar te zetten. De verschillende spellingswijzen komen door
- OCR-foutjes (data voor 1995)
- type-fouten
- veranderende namen en wisselende conventies | lees verder…