Melden Sie sich hier an, um auf Kommentare und die Whitepaper-Datenbank zugreifen zu können.

Kein Log-In? Dann jetzt kostenlos registrieren.

Falls Sie Ihr Passwort vergessen haben, können Sie es hier per E-Mail anfordern.

Der Zugang zur Reseller Only!-Community ist registrierten Fachhändlern, Systemhäusern und Dienstleistern vorbehalten.

Registrieren Sie sich hier, um Zugang zu diesem Bereich zu beantragen. Die Freigabe Ihres Zugangs erfolgt nach Prüfung Ihrer Anmeldung durch die Redaktion.

09.08.1996 - 

Tendenz zur Spezialisierung der Dienste

Suchmaschinen erschließen das WWW für Recherchen

Web-basierte Suchdienste setzen eine Internet-Tradition fort, die schon vor der Zeit des großen Booms Möglichkeiten anbot, sich in der Unübersichtlichkeit riesiger Netze zurechtzufinden. Zu den Veteranen gehören beispielsweise WAIS (Wide Area Information Server) und Archie (Verzeichnis von FTP-Servern).

Heute gibt es bereits Hunderte Web-basierte Suchmaschinen im globalen Netz. Abgesehen von wenigen mächtigen Allzwecksuchern wie Digitals "Altavista" http://www.altavista.digital.com , "Lycos" http://www.lycos.com oder "Opentext" http://www.opentext.com , beginnen Anbieter, ihren Service angesichts der riesigen Informationsmenge zu spezialisieren. Sie konzentrieren sich etwa auf bestimmte Regionen und Sprachgebiete (für deutsche Inhalte beispielsweise web.de) oder Themen http://www.iao.fhg.de/Library/conferences zu Konferenzen, Symposien, Seminaren und Ausstellungen . Ein Suchdienst der ersten Stunde, Yahoo, will sich zum Web-basierten Medienunternehmen wandeln. Er bietet schon heute redaktionell aufbereitete Themenkataloge, in denen Anwender gezielt Informationen nachschlagen können.

Die Notwendigkeit für Anbieter, ihrem Service ein individuelles Profil zu geben, rührt vor allem daher, daß sie sich über Werbeeinnahmen finanzieren. Nur wer sich von der Konkurrenz abhebt und den Bedürfnissen bestimmter Benutzergruppen entgegenkommt, kann Anzeigenkunden gegenüber mit der nötigen Anzahl von "Hits" aufwarten. Lediglich Softwarehersteller wie DEC haben andere Einnahmequellen im Sinn: So soll der Altavista-Dienst Anwendern Appetit machen, sich die Such-Engine für ihr Internet anzuschaffen.

In einer Hinsicht herrscht bei den Internet-Suchdiensten schon jetzt unbeabsichtigt Individualität, die den Benutzern aber zum Nachteil gereicht: Praktisch alle Anbieter unterscheiden sich bei den Abfragemöglichkeiten und in der Syntax, in der eine Suche eingegeben werden muß. Nicht nur deshalb liefern identische Anfragen auf verschiedenen Suchmaschinen unterschiedliche Ergebnisse: Entscheidend ist auch die Anzahl der beim Serviceanbieter registrierten Web-Seiten und die Aktualität der gesammelten Informationen. Vor allem aber wirkt sich das zugrundeliegende Indizierungsverfahren aus.

Beispielsweise berücksichtigen Altavista und Opentext jedes Wort auf jeder Web-Seite, Infoseek http://www.infoseek.com hingegen ignoriert sogenannte "Noise Words" wie Artikel, Präpositionen, Hilfsverben oder "www". Lycos begnügt sich mit Überschriften, Querverweisen auf andere Seiten, den ersten 20 Zeilen sowie den 100 meistbenutzten Wörtern.

Dienste mit weniger leistungsfähiger Hardware erlauben keine Volltextrecherche, sondern sammeln Informationen über Web-Seiten anhand einer Schlagwortliste. Die neu eingeführte Hypertext-Markup-Language-(HTML-)-Markierung "Head" erlaubt Web-Autoren, Schlagwörter für ihre Seiten selbst festzulegen. Ansonsten bedient sich der Indexer einer Liste von Wörtern, die er für signifikant hält.

Am vielversprechendsten sind Methoden zur konzeptbasierten Suche. Dabei versucht das System, mittels linguistischer Verfahren herauszufinden, worum es in den Texten einer Web-Seite geht. Auf Anfragen liefert es Verweise auf Web-Inhalte, die sich nach seiner Meinung am meisten mit den gesuchten Themen beschäftigen. Die Schwierigkeiten, semantische Gehalte natürlichsprachlicher Texte maschinell zu eruieren, machen sich in der Praxis jedoch häufig durch abwegige Ergebnisse bemerkbar. Die bekannteste Allzweck-Suchmaschine, die auf diesem Konzept beruht, ist Excite.

Angesichts der Unterschiede bei der Eingabe und Abarbeitung von Suchanfragen kommen sogenannte Metasucher (beispielsweise http://www.metacrawler.com) den Anwendern zu Hilfe. Sie führen selbst keinen Suchauftrag aus, sondern reichen diesen gleich an mehrere Suchdienste weiter und ersparen so dem Anwender die Auseinandersetzung mit den Eigenheiten der einzelnen Services.

Eine Schwäche der Internet-Sucher können auch diese Metadienste nicht ausbügeln: Im Vergleich zu ausgereifter Retrieval-Software sind die Abfragemöglichkeiten relativ beschränkt. So werden boolesche Operatoren wie AND und OR zwar ebenso unterstützt wie Platzhalter, für komplexere Suchausdrücke fehlen aber die Mittel. Quorum-Operatoren, Bereichs- und unscharfe Suche, die zum Standardrepertoire von Textretrieval-Programmen gehören, bieten die meistfrequentierten Internet-Dienste nicht an (Ausnahme "Advanced Search" von Alta Vista).

Nicht nur bei diesen Funktionen besteht noch Nachholbedarf, die Wegweiser im Internet müssen sich wohl auch auf den multimedialen Charakter des Internet-Angebots einstellen. Dieser beschränkt die Reichweite heutiger Suchdienste auf textbasierte Informationen, Inhalte von Audio- und Videodaten bleiben ihnen verborgen. Diese Tatsache machen sich zwielichtige Betreiber von Web-Servern zunutze, indem sie Texte als Grafik darstellen und sich so der Strafverfolgung durch Behörden entziehen, die sich auf die Spürnase von Search-Engines verlassen. Umgekehrt vermehren andere Web-Sites die Anzahl der heißbegehrten Hits, indem sie unauffällig zahlreiche, häufig benutzte Suchbegriffe über ihre Seiten verstreuen. Wenn Suchmaschinen keine Relevanzkriterien anlegen können (wie Altavista bei der voreingestellten "Simple Search"), fallen sie auf diese Praktiken herein. Die meisten Suchdienste reihen mittlerweile die Trefferliste nach Relevanz. Diese ermitteln sie zumeist anhand der Häufigkeit und der Position der Suchbegriffe innerhalb eines Dokuments. Ihr Auftreten im Titel oder der Überschrift verringert die Wahrscheinlichkeit, daß sie in keinem Zusammenhang mit dem übrigen Text stehen.

Bei aller Nützlichkeit der Suchdienste produzieren sie auch unerwünschte Nebeneffekte. Einer davon besteht darin, daß sie für die Aufbereitung ihrer Informationsbasis sogenannte "Softbots" (also Software-Roboter) einsetzen, die sich rekursiv durch das Spinnengeflecht der Web-Seiten arbeiten. Schlecht programmierte Roboter produzieren dabei eine erhebliche Netzlast und bombardieren Web-Server mit Anfragen. Deshalb wurde mittlerweile ein "Robot Exclusion Standard" (info.webcrawler.com/mak/projects/robots/norobots.html) entwickelt, der diese maschinell in Gang gesetzten Web-Wanderer draußen halten soll. Bedingung ist frei- lich, daß sich der Entwickler solcher Softbots an diese Vorgaben hält - sie gehören aber immerhin zur "Ethik von Web-Agenten" http://www.ncsa.uiuc.edu/SDG/IT94/Proceedings/Agents/eichmann.ethical/eichmann.html . Es liegt auf der Hand, daß die allzu restriktive Aussperrung von Robotern den Recherchemöglichkeiten der Suchmaschinen abträglich ist.

Für Irritationen sorgt eine weitere Tätigkeit der Suchdienste: In der Regel werden alle Abfragen protokolliert und statistisch ausgewertet. Auf diese Art können Interessengebiete von Benutzern festgestellt werden. Diese geben zwar in der Regel nicht ihren Namen an, deren IP- und Mail-Adresse läßt sich aber ohne großen Aufwand ermitteln.

Überblick über Suchdienste

Metasucher

Metacrawler http://www.metacrawler.com ,

Savvy Search http://www.cs.colostate.edu/dreiling/smartform.html ,

Search.Com http://www.search.com ,

Metasearch http://www.metasearch.com .

Allzwecksucher

Alta Vista: http://www.altavista.digital.com . Zugriff auf 16 Millionen Web-Seiten und 13000 News-Gruppen.

Opentext http://www.opentext.com : Index von zehn Milliarden Wörtern.

Infoseek http://www.infoseek.com : Durchsucht WWW und Usenet. Limit von 100 Treffern pro Anfrage.

Excite http://www.excite.com : Suche im Web und Usenet. Datenbank mit 50000 Beschreibungen von Web-Einrichtungen. Konzept- und Schlagwortsuche.

Nlightn http://www.nlightn.com : Index auf Web-Seiten, Usenet, Nachrichtenagenturen, literarische Werke, Dissertationen.

Lycos http://www.lycos.com .

Webcrawler http://www.webcrawler.com .

WWW Worm http://guano.cs.colorado.edu/home/mcbryan/WWWW.html .

Deutsche Suchmaschinen

Aladin http://www.aladin.de ,

Dino http://www.dino-online.de ,

Iosys http://www.iosys.de ,

Flipper http://flp.cs.tu-berlin.de/flipper ,

Flix http://www.flix.de ,

Kolibri http://www.kolibri.de ,

Web.de http://web.de .