Cyber college over data-bases|mining|science

Geplaatst op 15-10-2014 door Maarten Marx | lecture, onderwijs, Uncategorized | tags: | comment image Geen reacties »

In het college over data-bases|mining|science in het vak Cyber hebben we het over de mogelijkheden om persoonlijke gegevens van mensen af te leiden uit hun online gedrag.

Die gegevens kunnen bijvoorbeeld zijn:

  • wie ze zijn
  • hun geslacht
  • sexuale geaardheid
  • leeftijd
  • ….

We kunnen deze heel persoonlijke dingen met nogal basale statistische methoden afleiden uit simpele gegevens als

  • je FaceBook likes
  • hoe vaak je welke 4-grammen gebruikt als je iets schrijft.

Een 4-gram is een combinatie van 4 opeenvolgende karakters in een tekst. Alle 4-grammen van de zin Mijn “facebook” likes zijn

Mijn
ijn 
jn "
n "f
 "fa
"fac
face
aceb
cebo
eboo
book
ook"
ok" 
k" l
" li
 lik
like
ikes

We passen het toe op onszelf

In het werkcollege gaan we kijken hoe goed de technieken werken door ze op onszelf toe te passen. Hiervoor hebben we natuurlijk gegevens nodig. Vul dus de vragen op dit formulier in.

Materiaal

Alle slides, data en Python programmas vindt je op http://maartenmarx.nl/teaching/Cyber/.

Literatuur

Additional Literature

Take away

  • Karakter n-grammen vormen, zelfs met weinig data, een effectieve manier om teksten aan onbekende auteurs te koppelen (Layton et al).
  • Karakter n-grammen zijn ook een hele efficiente methode hiervoor. Kennis van het alfabet, taal, cultuur of betekenis van de teksten is niet nodig om te toe te passen (Layton et al).
  • Uit zeer makkelijk verkrijgbare en op het eerste gezicht onschuldige digitale handelingen (een FaceBook Like plaatsen) kan met grote betrouwbaarheid zeer persoonlijke data worden voorspeld (bijv. leeftijd, geslacht, sexuele geaardheid) (Kosinski et al).
  • Openheid over de mogelijkheden tot voorspellen van iemands persoonlijkheid kan voorkomen dat gebruikers van sociale media zich bedrogen voelen en zich van het medium afkeren (Golbeck).
  • Waarom deze, op het oog erg “domme” technieken werken is vaak heel lastig te verklaren. In het college gaan we dan ook meer in op de technische details.

Opdracht

TBA

Slides

Authorship Attribution and Forensic Linguistics with Python/Scikit-Learn/Pandas by Kostas Perifanos from PyData