Kimono

Die Schere für das Internet

23.07.2014 von Dirk Stähler

Informationen sind das Gold des 21. Jahrhunderts. Wer über die richtigen Informationen verfügt, spart oder verdient Geld und wer keinen Zugang hat wird schnell abgehängt.

Der wichtigste Zugangsweg zu Informationen ist heute das Internet. Soziale Netzwerke, Wikis, Blogs, Foren, Nachrichtenportale, Suchmaschinen, Vergleichsportale, Branchenverzeichnisse und viele andere Dienste stehen als Quellen bereit. Aber mit dem wachsenden Angebot entsteht auch ein neues Problem: ohne Unterstützung bei der automatischen Suche, Analyse und Verarbeitung wird es immer schwieriger aus digitalen Inhalten brauchbare Informationen zu gewinnen. Die Fähigkeit, individuell und computergestützt auf Inhalte im Netz zuzugreifen wird zur wichtigen Kompetenz. Aber nicht jeder ist Programmierer. Wie kann eine Lösung aussehen, die auch technisch weniger versierten Anwendern erlaubt die digitalen Schätze im Internet automatisiert zu nutzen?

So surfen Sie absolut anonym im Internet -

Private Browsing
Alle gängigen Internet-Browser bieten eine Funktion für so genanntes „Private Browsing“. Manche Nutzer glauben, mit dieser Funktion wären sie unerkannt im Internet unterwegs. Hier liegt ein Missverständnis vor. Die Private-Browsing-Funktion ist in erster Linie dafür gedacht, keine Surfspuren auf dem PC zu hinterlassen. Sie löscht am Ende eines Internetausflugs den Browser-Verlauf und die Cookies. Fazit: Unerkanntes Surfen klappt mit dieser Funktion nicht.

Tor - Der Anonymisierungs-Dienst
Die Software Tor-Browser kostet nichts und kommt fertig konfiguriert mit dem Internet-Browser Firefox in einer portablen, also sofort startfähigen Version. Tor arbeitet ähnlich wie ein Peer-to-Peer-Dateitauschprogramm. Ruft ein Nutzer eine Internetseite auf, verbindet ihn die Software zunächst mit einem anderen Tor-Nutzer, bei dem die Software läuft. Dieses Tor-Programm baut eine getrennte Verbindung zu einem weiteren PC auf, auf dem sich wiederum Tor befindet. Bei jedem PC ändert sich die IP-Adresse. Frühestens der vierte Tor-Computer arbeitet als so genannter „Tor-Exit-Server“ und ruft die angeforderte Seite aus dem Internet ab und liefert ihre Inhalte an alle Glieder der Verbindungskette zurück. Ein besuchter Internetdienst hat es sehr schwer, einen Tor-PC zu identifizieren. Allerding ist auch das Tor-System angreifbar. Bereits zwei mal ist bekannt geworden, dass ein Großteil der aktiven Tor-Rechner zumindest zeitweise von einem Geheimdienst betrieben wurden. Und wenn eine Partei genügend Tor-Rechner kontrolliert, dann kann er auch die Daten der anderen Teilnehmer verfolgen. Fazit: Tor ist ein wirkungsvolles System fürs unerkannte Surfen im Web. Perfekt ist auch dieser Schutz nicht.

JonDo / JAP
Die Software JonDo / JAP leitet Ihre Anfragen ins Internet über eine Kaskade von Anonymisierungs-Servern. Das System wurde an deutschen Universitäten entwickelt und ist gut dokumentiert. Die Version JAP (http://anon.inf.tu-dresden.de/) kann kostenlos genutzt werden. Wer eine höhere Übertragungsgeschwindigkeit nutzen möchte, kann den kommerziellen Ableger JonDo verwenden. Fazit: JAP ist sowohl in der freien als auch der kommerziellen Variante empfehlenswert. Ihre IP-Adresse wird effektiv verschleiert.

VPN-Dienst als Tarnkappe einsetzen
Per VPN (Virtual Private Network) baut Ihr PC eine verschlüsselte Verbindung zu einem VPN-Server im Internet auf. Von dort aus surfen Sie mit der IP-Adresse des VPN-Servers wie gewohnt im Internet. Sollte ein Gesetzeshüter oder jemand anderes die Internet-Spur eines VPN-Nutzers zurückverfolgen, würde er beim Betreiber des VPN-Servers landen. Fazit: VPN-Dienste verschleiern die IP-Adresse eines PCs effektiv. Abhängig von der Konfiguration des PCs und natürlich abhängig von Ihrem Surfverhalten, können Sie per VPN weitgehend unerkannt im Internet agieren.

Maschinenlesbares Internet für jeden

Das World Wide Web durchlief in den 25 Jahren seiner Entwicklung verschiedene Phasen. In der ersten Phase (Web 1.0) war das Netz nicht mehr als eine Sammlung von Webseiten, vergleichbar mit einer Bibliothek. Wer über einen Zugang verfügte konnte Inhalte aufrufen, betrachten und mit etwas Mühe auch kopieren. Viel mehr aber auch nicht.
In der zweiten Phase (Web 2.0) war die Erzeugung von Inhalten nicht mehr auf wenige Betreiber von Webseiten beschränkt. Heute kann sich jeder ohne technisches Wissen an deren Erstellung und Bearbeitung beteiligen. Facebook, Twitter und viele andere Dienste basieren auf der redaktionellen Einbindung der Nutzer. Mittlerweile haben wir mit dem Web 3.0 die dritte Phase erreicht. Eine Entwicklung, bei der es nicht primär um die Schaffung eines neuen technischen Netzes geht. Ziel ist vielmehr ein Netz zu etablieren, in dem Inhalte durch Maschinen interpretiert werden. Neben der Identifikation der passenden Quellen ist dafür ein maschinenlesbarer Zugriff auf die Inhalte im Netz zentrale Voraussetzung.

Wie dieser Zugriff aussehen könnte, zeigt ein Internet-Dienst der seinen Ursprung im Hanoi Social Club in Vietnam hat. Dort saßen im August 2013 Pratap Ranade und Ryan Rowe vor ihren Laptops und schrieben die ersten Programmzeilen für ein Werkzeug mit Potenzial die Art und Weise zu verändern, wie wir Inhalte im Internet sammeln und nutzen. Ranade und Rowe kannten sich aus dem Doktoranten-Programm der Columbia University in New York, das sie gemeinsam vorzeitig abgebrochen hatten, um eine Arbeit in der Wirtschaft aufzunehmen. Ranade wechselte zu McKinsey in New York, während Rowe einem Angebot von frog design in Shanghai folgte. Frog design, gegründet im Jahre 1969 von Hartmut Esslinger in Altensteig im Schwarzwald, ist bekannt als Design-Partner von Apple. Unter anderem war das Unternehmen in den frühen achtziger Jahren am Entwurf der ersten Macintosh Rechner beteiligt.

Ranade und Rowe verbrachten durch ihre Arbeit bei McKinsey und frog design viel Zeit auf Geschäftsreisen, oft verbunden mit Langstreckenflügen. Dabei stellten sie sich häufig die Frage, welche Spielfilme im Bordprogramm des nächsten Fluges gezeigt würden? Auf den ersten Blick keine Frage, die erkennen lässt, dass sich mit ihr der Zugriff auf Inhalte im Web 3.0 verändern könnte. Um zukünftig leichter eine Antwort zu finden, beschlossen sie im Winter 2012 das Angebot verschiedener Airlines zentral auf einer Webseite zusammenzufassen. Obwohl viele Fluggesellschaften die erforderlichen Daten veröffentlichen, stellte sich doch heraus, dass die Zusammenstellung keine leichte Aufgabe war. Während der Entwicklung des zentralen Portals standen sie regelmäßig vor der Herausforderung, verschiedene Datenquellen im Netz abzufragen und deren Inhalte in maschinenlesbare Form zu überführen. Immer wieder mussten die erforderlichen Schnittstellen individuell programmiert werden. Ein komplizierter, ermüdender und extrem zeitaufwändiger Prozess. Ranade erläutert das technische Motiv, das zur Entwicklung eines Programms zum Auslesen von Inhalten fremder Webseiten führte: "Wir fühlten die Schwierigkeit bei der Erstellung eines Web Scrapers aus erster Hand. Dabei wurde uns bewusst, dass die Entwicklung und Wartung individueller Scrapers oft der einzige Weg war Inhalte aus dem Netz zu beziehen, aber so auch wertvolle Entwicklungszeit für hochwertigere Tätigkeiten verloren ging". Aus diesem Grund entwickelten sie ein Werkzeug, um die erforderlichen Schnittstellen zum Auslesen von Webseiten graphisch zu erstellen. Damit konnten die Inhalte von den Webseiten der Airlines schnell und wiederholbar in maschinenlesbare Formate überführt werden.

Nach ein paar Monaten Programmierung war airpapa (www.airpapa.com) online. Anhand des Start- und Zielflughafens sowie des Reisedatums ist dort das aktuelle Bordprogramm für einige US Fluggesellschaften abrufbar. Was die beiden Gründer zunächst nicht ahnten, airpapa - oder genauer der entwickelte Scraper - war der Startpunkt für eine größere Idee. Bei McKinsey und frog design entdeckten sie ein viel attraktiveres Einsatzgebiet. Ranade beschreibt das betriebswirtschaftliche Motiv, das zur Entwicklung eines Dienstes zum Auslesen von Webseiten führte: "Als wir unsere Kollegen bei frog design und McKinsey beobachteten wurde uns klar, wir waren umgeben von extrem intelligenten Menschen mit einem sehr guten Verständnis und Expertenwissen über Daten und deren Analyse - aber ohne Programmierfähigkeiten. Oftmals Experten in einem bestimmten Fachbereich, die sehr genau wissen, welche Daten akkurat und für weiterführende Analysen geeignet sind. Leider sind sie aber oft nicht in der Lage die informationstechnologische Umsetzung zur Gewinnung der Daten vorzunehmen. Wir wollten die Lücke zwischen Domänenexperten und Programmierern schließen, indem wir jedem Zugang zu den Werkzeugen ermöglichten die sonst nur Programmierer haben".

Fast hätten Ranade und Rowe die Idee der Veröffentlichung ihres Web-Scrapers verworfen. Zu groß erschien das Risiko darauf basierend ein Unternehmen zu gründen. Erst nach der Veröffentlichung der Beta-Version im Januar 2014 vertrauten sie dem Potential. Auf die Frage, wann ihm klar wurde dass ihre Lösung auf einen größeren Bedarf stoßen würde antwortet Ranade: "Wir erstellten einen einzigen Eintrag auf dem Portal Hacker News. Er schoss direkt unter die am häufigsten gelesenen Nachrichten und wir erhielten mehr als 5000 Registrierungen innerhalb eines Tages". Ein Erfolg, auf den auch Investoren aufmerksam wurden. Der Venture-Kapitalgeber Y Combinator zeichnete das Startup im März 2014 auf den Demo-Days aus.

Als sie mit den Arbeiten begannen, verwendeten sie nicht viel Zeit darauf einen Namen für ihr Werkzeug festzulegen. Zunächst erhielt das Projekt den Codenamen Kimono, basierend auf dem Text 'Open the Kimono', was soviel bedeutet wie die Enthüllung des inneren Teils eines Projektes oder einer Organisation. "Den haben wir dann einfach beibehalten", beschreibt Ranade den pragmatischen Prozess der Namensgebung. Das zugehörige Unternehmen nannten sie einfach KimonoLabs.

Kimono Startbildschirm
Foto: KimonoLabs

Das Web 3.0 aus Sicht von KimonoLabs

Fragt man die Gründer nach ihrer Sicht auf die zukünftige Entwicklung des Web 3.0, beginnt Ranade direkt mit einer ausführlichen Erläuterung wie er sich die nahtlose Verknüpfung von Geräten und Daten vorstellt. Für ihn steckt noch viel ungenutzter aber wertvoller Inhalt im Netz: "Das Web 1.0 bestand aus Webseiten, die dafür gemacht waren von Menschen vor traditionellen Bildschirmen betrachtet zu werden. Je weiter wir uns in die Welt der verknüpften Geräte bewegen, wird es mehr und mehr darauf ankommen Daten im Netz maschinenlesbar für Programme und andere Geräte zugänglich zu machen. Daten und Dienste müssen im Netz über APIs erreichbar sein. Auch wenn die 'digitalen Ureinwohner' - wie zum Beispiel Facebook und Twitter - APIs für ihre Dienste bereitstellen, ist doch der größte Teil an Inhalten im Netz nicht maschinenlesbar. Der Ansatz des semantischen Netzes von Timothy Berners-Lee und dem W3C versucht eine Lösung aufzubauen, indem die Betreiber von Webseiten umschmeichelt werden ihre Inhalte mit dem Resource Description Framework maschinenlesbar zu kennzeichnen. Bei KimonoLabs verfolgen wir im Gegensatz dazu einen 'crowd sourcing' Ansatz. Eines der faszinierenden Dinge im Internet ist, wie viel Wert im 'Long Tail' des Netzes steckt. Dort liegen 'Tonnen' von Nischen-Informationen, individuell erzeugt durch Millionen Nutzer und kleine Organisationen. Wenn das Internet nur die Summe aus Diensten wie Facebook, Twitter, Google oder LinkedIn darstellen würde, wäre es ziemlich uninteressant. Es ist aber der 'Long Tail', der enorme Mengen an wertvollen Inhalten bietet. Und die Daten, die jeder von uns täglich im Netz hinterlässt bestätigen das".

In der Statistik versteht man unter einem 'Long Tail' eine Verteilungsform, bei der eine große Menge Zahlen erst weit entfernt vom Kopf oder dem zentralen Teil der Verteilung auftritt. Das Konzept wurde 2004 von Chris Anderson auf das Internet übertragen und beschreibt die Verteilung von populären und Nischeninhalten im Netz. Die zentrale Aussage ist, dass Millionen Anbieter von Inhalten in Nischen existieren und keinen maschinenlesbaren Zugriff bereitstellen. Diese Inhalte für jeden automatisiert zugänglich zu machen ist das Ziel von KimonoLabs.

Den größten Nutzen seiner individuellen APIs sieht Ranade deshalb beim Zugriff auf Nischenanbieter: "Größere Webseiten und Dienste stellen Inhalte über APIs zur Verfügung. Kleinere Dienste und Betreiber von Webseiten sind häufig nicht in der Lage dazu. Mit Hilfe von Kimono befähigen wir jeden User seine eigenen APIs für den 'Long Tail' des Internets zu erstellen und den Aufbau des Daten-Backbones im Web 3.0 zu unterstützen. Wir wollen den besten Web-Scraper entwickeln und die Notwendigkeit zur individuellen Programmierung von APIs zum Zugriff auf die Inhalte des 'Long Tails' überflüssig machen".
Heute erlaubt Kimono bereits Inhalte aus dem Internet ohne technisches Wissen zu analysieren, sammeln und maschinenlesbar zu extrahieren. (bw)