Suffixes of Georgian last names

Geplaatst op 12-11-2013 door Maarten Marx | TI | tags: , | comment image Geen reacties »

In a project for Transparency International Georgia we are creating a database of Asset Declarations of Georgian public officials. Besides a lot of worthy information about their income and relations to companies, having such a large database also gives the opportunity to do fun linguistic research.

Here we report on the names occuring in this database. These are names of Georgian public officials and their reported relatives. Georgian names are simple: they always consist of two tokens “firstname, surname”. There are 1604 different first names and 3883 different surnames in our database, coming from a total of 19522 different names.
| lees verder…

Zipf verdeelde modifiers

Geplaatst op 08-03-2013 door Maarten Marx | onderwijs | tags: , | comment image Geen reacties »

Binnen het KB kranten corpus gingen we op zoek naar modifiers van bijvoegelijke naamwoorden. Hier kijken we naar de woorden hard en harde.
We vonden in totaal 5041 verschillende prefixes van minstens 3 karakters, maar daar zitten ook veel valse positieve bij: OCR fouten, maar ook namen als richard en ‘beroepen’ als clochard. Zonder hapaxen zijn het er toch nog 1258.
| lees verder…