Uniqueness of Georgian Names

Geplaatst op 14-11-2013 door Maarten Marx | TI | tags: , | comment image Geen reacties »

We were told that Georgian names are often ambiguous, in the sense that there are many persons with the same first name, last name combination. Here we investigate to what extend this is true. In a sample of over 20K Georgian persons we found that at least 91.3% is uniquely determined by their first and last name, and 98.4% if we add the date of birth as well.
We can thus conclude that Georgian names are quite good in uniquely identifying persons.

| lees verder…

Data deduplicatie

Geplaatst op 04-06-2008 door Maarten Marx | data | tags: , , | comment image Geen reacties »

Binnen Handelingen die beschikbaar zijn via Parlando en KB-SGD worden dezelfde entiteiten (personen, partijen) vaak op verschillende manieren gespeld. Dit maakt het natuurlijk erg moeilijk om alle gegevens van 1 entiteit netjes bij elkaar te zetten. De verschillende spellingswijzen komen door

  • OCR-foutjes (data voor 1995)
  • type-fouten
  • veranderende namen en wisselende conventies | lees verder…