Skandal-Test
Um die Software zu testen, haben die Forscher das "Enron E-Mail Dataset" genutzt. Dieses umfasst über 200.000 echte E-Mails von 158 Autoren, die im Rahmen der Ermittlungen im Skandal um den Energiekonzern Enron gesammelt wurden. Je nach Feineinstellungen des Tools war es dabei möglich, anhand von je zehn Vergleichs-E-Mails von zehn möglichen Autoren den Verfasser einer Nachricht mit bis zu 90-prozentiger Sicherheit zu ermitteln. Das kann den Informatikern zufolge die Arbeit linguistischer Forensiker deutlich leichter machen.
Das Anwendungspotenzial des Tools ist Lung zufolge groß. "Die aktuelle Umsetzung funktioniert nur auf Englisch, aber die Methode ist auf alle Sprachen mit lateinischer Schrift anwendbar", meint er. Zudem sind die genutzten Algorithmen theoretisch auch geeignet, um die Verfasser anderer Texte wie beispielsweise anonymer SMS zu ermitteln. "Die Frage ist, wie effektiv das wäre. Daran arbeiten wir noch." (pte/rw)