Melden Sie sich hier an, um auf Kommentare und die Whitepaper-Datenbank zugreifen zu können.

Kein Log-In? Dann jetzt kostenlos registrieren.

Falls Sie Ihr Passwort vergessen haben, können Sie es hier per E-Mail anfordern.

Der Zugang zur Reseller Only!-Community ist registrierten Fachhändlern, Systemhäusern und Dienstleistern vorbehalten.

Registrieren Sie sich hier, um Zugang zu diesem Bereich zu beantragen. Die Freigabe Ihres Zugangs erfolgt nach Prüfung Ihrer Anmeldung durch die Redaktion.

Web-Applikationen/Datenbank-Filtering versus dynamisches Filtering


11.05.2001 - 

Web-Missbrauch: Softwareriegel vorschieben

7,3 Millionen neue Internet-Seiten entstehen Tag für Tag. Doch werden hohe Akzeptanz und positive Wirkungen des Mediums wie steigende Produktivität, bessere Kommunikation und umfangreiche Informationsbereitstellung vom Missbrauch des Web-Zugangs überschattet. Internet-Filter-Lösungen sollen Abhilfe schaffen; es entwickelt sich ein eigener Markt dafür. Von Mark Anderson*

Mehr als 100 Millionen Angestellte weltweit haben laut Dataquest am Arbeitsplatz Zugriff auf das Internet. Allein in Europa sollen es im Jahr 2002 Schätzungen zufolge 73 Millionen sein. Der private Internet-Bummel durch die Seiten des Online-Aktienhandels, der Online-Auktionen und des pornografischen Angebots während der Arbeitszeit verursacht Kosten in Millionenhöhe in Gestalt verlorener Produktivität und Belastung der Bandbreite. Bei Downloads von Raubkopien und Musikdateien oder beim Aufrufen illegaler Sites kann der Arbeitgeber gar haftungsrechtlich in die Pflicht genommen werden.

Wie aber können Unternehmen Produktivitätsverluste und Haftungsrisiko einschränken und gleichzeitig ihren Angestellten den Internet-Zugang ermöglichen? Die Anwort liegt in einer zweckmäßigen Regelung für die Web-Nutzung und deren Umsetzung durch Softwarelösungen wie Internet-Filter.

Der Zugriff kann geblockt werdenEine Regelung, die für Arbeitgeber und Arbeitnehmer gleichermaßen akzeptabel ist, sollte auf die Unternehmenskultur abgestimmt sein. Sie kann Arbeitgebern helfen, den Internet-Gebrauch effektiv zu gestalten und Disziplinarmaßnahmen vorzubeugen. Der Zugriff auf als "unpassend" definierte Websites kann geblockt werden, während er auf nützliche oder unbedenkliche Seiten bestehen bleibt. Entsprechende Lösungen bieten eine detaillierte Rubrikeneinteilung, damit Unternehmen den Zugang zu bestimmten Kategorien wie Pornografie, Rassismus, Aktienhandel und Spieleseiten sperren können. Ebenso besteht die Möglichkeit, Sites für bestimmte Anwender oder Gruppen zu blocken. Zusätzlich bieten Internet-Filter-Lösungen dynamische Updates der Kategorien im Fall aktueller Medienereignisse wie etwa die neueste Staffel von Big Brother, Formel 1 oder Olympische Spiele. Diese Updates werden täglich via Web übermittelt. Reporting Tools zeigen die am häufigsten genutzen Kategorien auf und informieren den Arbeitgeber, welche Websites ihre Angestellten aufrufen.

Internet-Filtering kann seine volle Stärke nur dann ausspielen, wenn die Kategorieneinteilung der Seiten, die im Rahmen der unternehmensweiten Internet-Regelung gefiltert werden sollen, genau vorgenommen wurde. Nur dann lassen sich Auswertungen wie "Wer ruft welche Website zu welcher Tageszeit ab" oder "Stimmt diese Aktivität mit den Richtlinien überein" genau durchführen. Für die exakte Bestimmung des Inhalts einer Site gibt es zwei Möglichkeiten: Dynamisches oder Runtime Filtering analysiert den Inhalt einer Page, während sie aufgerufen wird, und legt die Kategorie in Echtzeit fest. Die zweite Methode vergleicht die aufgerufene Website mit einer vorher festgelegten Kontrollliste oder Datenbank. Diese Lösung hat eine theoretische Genauigkeit von hundert Prozent. In der Praxis besteht aber die Gefahr, dass die aufgerufene Website nicht in der Datenbank verzeichnet ist. Diese bewertet die Site als negativ und somit als nicht zu filtern, obwohl sie vielleicht nach menschlichem Ermessen geblockt werden sollte. Solche "falschen Negative" sind die Folge eines Underblocking. Die Herausforderung, die sich Unternehmen bei der Entwicklung dieser Lösung stellt, ist das regelmäßige und genaue Update der Website-Datenbank.

Runtime-Filter nicht präzise genugDagegen ist das dynamische Filtern mit seiner Inhaltsüberprüfung in Echtzeit per definitionem immer aktuell. Ob eine Website seit zehn Monaten oder zehn Minuten existiert, spielt durch die Festlegung der Kategorien genau zum Zeitpunkt der Anfrage keine Rolle. Allerdings sind dynamische Filter nicht so exakt, wie sie sein sollten. Sie sind anfällig für Overblocking, sperren teilweise Sites, die nicht gesperrt werden sollten, und produzieren so "falsche Positive". Kein dynamischer Filter ist heute in der Lage, zwischen einer Site zu unterscheiden, welche die Verwendung von Drogen befürwortet, und einer soziologischen Analyse des Drogenmissbrauchs. Pornografische Sites sind dagegen alles andere als schwer zu entdecken und können daher von dynamischen Filtern im Allgemeinen gut aufgespürt werden. Für andere Kategorien ist der Runtime-Filter einfach nicht präzise genug.

Bei der Entwicklung einer Internet-Filtering-Lösung muss der Systementwickler die gegensätzlichen Eigenschaften des dynamischen und des datenbankbasierenden Filters abwägen und je nach Priorität optimieren. Denn keiner der beiden Ansätze ist perfekt. Für bestimmte Applikationen müssen daher Prioritäten gesetzt werden: Sollen mehr Sites gefunden werden, oder ist eine präzisere Kategorisierung ausschlaggebend? Kompromisse sind zwangsläufig nötig.

Overblocking inakzeptabelDie Anforderungen an den Internet-Filter sind bei Unternehmen, Schulen und Konsumenten insofern gleich, als sie alle eine gewisse Genauigkeit des Filterprozesses erwarten und ein Blocking arbeitsrelevanter Seiten unerwünscht ist. Overblocking ist für Konsumenten und Schulen akzeptabel, da der Schutz der Kinder vor anstößigem Material Priorität genießt. Dagegen ist Overblocking im Enterprise-Markt inakzeptabel, es behindert Arbeitsprozesse und verhindert den Zugang zu legalen Seiten. Grundsätzlich erfordert der Unternehmensmarkt mehr Präzision beim Filtering. Auch unterschiedliche Kulturen haben verschiedene Anforderungen an den Filter. Manche Kulturen sind restriktiver als andere, was die Kategorie der Erwachsenenunterhaltung betrifft. Daher sollte eine Datenbank möglichst umfassend sein. Je mehr Kategorien die Datenbank einer Filtering-Lösung bietet, desto flexibler lassen sich Sites freigeben, sperren oder zeitlich eingrenzen. Manche Lösungen ermöglichen das Erstellen von auf die jeweilige Nutzung abgestimmte Kategorien und ihre Erweiterung um spezifische URLs, damit die Filtering-Ansprüche beispielsweise von einzelnen User-Gruppen oder Abteilungen erfüllt werden können.

In der Anfangszeit des Filtering wurden die nötigen Datenbanken per Hand und mit entsprechendem Zeitaufwand aufgebaut. Dagegen werden sie heute sehr präzise und hochautomatisiert entwickelt, gepflegt und auf dem neuesten Stand gehalten. Die Kategorien werden nach ausführlichen Diskussionen mit Unternehmen, Schulen und Anwendern über ihre Filtering-Ansprüche definiert und nach Analyse der Kundenvorschläge verfeinert. Doppeldeutigkeiten und Überlappungen in Kategorien und Subkategorien müssen minimiert werden. Kontrolle und Flexibilität sowie der Gebrauch einer klaren, modernen Sprache sind unverzichtbar.

Je nachdem, inwieweit der Inhalt einer Site der Kategorienbeschreibung entspricht, wird diese kategorisiert. Virtuelle Hosts und Web-Server, die so konfiguriert wurden, um mehrere Websites oder Domains aufzunehmen, haben den Kategorisierungsaufwand kompliziert. Obwohl die meisten Hosts jeder aufgenommenen Site eine IP-Adresse zuordnen, legen einige virtuelle Hosts für alle Websites und Domains die gleiche IP-Adresse an. So ordnet möglicherweise ein Web-Server einer Shopping-Site, einer Religions-Site und einer Site mit Erwachsenenunterhaltung die gleiche IP-Adresse zu. Dagegen wurden Tools entwickelt, um einzelne virtuell gehostete Sites zu identifizieren und sicherzustellen, dass sie angemessen kategorisiert sind.

Vorsortierte Listen erstelltAufbau und Pflege der Datenbank bestehen aus mehreren Schritten. An erster Stelle steht die Suche nach den zu sperrenden Sites. Mining-Tools ahmen das Suchverhalten der User nach. Das Ergebnis dieser unterschiedlichen Mining-Prozesse ist eine Liste von Site-Adressen, die mit Hilfe von Spezialsoftware kategorisiert werden. Zur Kontrolle der nicht klassifizierten Sites werden vorsortierte Listen von Web-Analysten erstellt und mit Hilfe spezieller Tools überprüft.

Hinsichtlich der Mining-Quellen und Tools können unterschiedliche Methoden genutzt werden. Mit Hilfe von Suchmaschinen und Marktdaten von Endanwendern lassen sich Listen von Domain-Namen der beliebtesten Seiten aufstellen. Durch die Verwendung auffälliger Ausdrücke, die durch die Analyse von Sites bereits existierender Kategorien gewonnen wurden, befragen Meta-Suchmaschinen gleichzeitig mehrere Suchmaschinen zu einer Anfrage und zeigen die Ergebnisse nach Relevanz geordnet an. Spezielle Websites, Hubs, sind Directories oder Link-Listen zu anderen Sites. Diese Adressensammlungen müssen mithilfe bestimmter Tools regelmäßig durchforstet werden, um neu gelistete Sites auszumachen und zu überprüfen.

Klassifizierung von WebsitesAngefangen bei einer "Seed" oder Ausgangs-Webpage werden mit der Intelligent-Crawling-Technik alle darauf aufgelisteten Links aufgerufen, analysiert und gegebenenfalls als zu sperrende Sites in eine Kategorie aufgenommen. Um dabei effizient vorzugehen, werden Logik und Algorithmen eingesetzt, damit die richtigen Links einer Prüfung unterzogen werden können. Fremdsprachige Seiten werden mit denselben Techniken durchsucht, jedoch mit Worten, Hubs und Suchmaschinen, die der jeweiligen Sprache entsprechen.

Nach Abschluss des Mining der Websites werden sie mit einem Softwaresystem zur Klassifizierung von Websites kategorisiert. Das System ist ein Algorithmus, der allgemein anerkannte Lerntechniken verwendet. Das heißt, die Software lernt, wie Sites einzuordnen sind, indem sie sich an der bestehenden Datenbank orientiert. Die Effizienz adaptiv trainierter Klassifizierer entspricht der Qualität der Daten ihrer Trainingsgrundlage. Bei einer ausführlichen, von Menschen entwickelten und überprüften Datenbank ist die Qualität der Trainingsgrundlage sehr hoch. Entsprechend hoch ist auch die Genauigkeit der Klassifizierung.

Die Software arbeitet mit einem Vertrauensfaktor. Liegt er über einer bestimmten Schwelle, wird die Site automatisch in die Datenbank integriert. Genauso kann das Programm festlegen, dass eine Webpage in keine der Kategorien passt und deshalb nicht in die Datenbank integriert wird. Alles, was dazwischen liegt, wird in Ergebnislisten sortiert, die dann überprüft werden. Die Datenbank muss regelmäßig auf den neuesten Stand gebracht werden. Ihre Qualität ist durch ständige Kontrolle durch Analyseprofis und automatische Prozesse zu gewährleisten.

Die meisten Vorteile bietet eine hybride Lösung auf der Basis einer benutzerfreundlichen und präzisen Filtering-Datenbank. Sie arbeitet sowohl mit dynamischem Filtering als auch mit einem umfassenden Datenbank-Filtering. Moorhühner und die strippenden Nachrichtensprecherinnen von "Naked News" haben so endlich Schonzeit.

*Mark Anderson ist Chief Scientist bei Websense in San Diego.

Produkt / Hersteller / Internet-Adresse

Webwasher / Webwasher / www.webwasher.com

I-Watch / Biodata Information Technology / www.biodata.com

Websense Enterprise 4.2 / Websense / www.websense.com

I-Gear / Symantec / www.symantec.com

Internet Manager / Elron / www.internetmanager.com

Smartfilter / Security Computing / www.smartfilter.de

Superscout / Surfcontrol / www.surfcontrol.de

N2H2 / N2H2 / www.n2h2.com

X-Stop / 8e6 Technologies / www.8e6technologies.com

Pure Sight / I cognito / www.icognito.com

Cyber Not / Sonic Wall / www.sonicwall.com

*eine Auswahl

Abb: Datenbank-Filtering

Je mehr Kategorien die Datenbank einer Filtering-Lösung bietet, desto flexibler lassen sich Sites freigeben, sperren oder zeitlich eingrenzen. Quelle: Websense