Melden Sie sich hier an, um auf Kommentare und die Whitepaper-Datenbank zugreifen zu können.

Kein Log-In? Dann jetzt kostenlos registrieren.

Falls Sie Ihr Passwort vergessen haben, können Sie es hier per E-Mail anfordern.

Der Zugang zur Reseller Only!-Community ist registrierten Fachhändlern, Systemhäusern und Dienstleistern vorbehalten.

Registrieren Sie sich hier, um Zugang zu diesem Bereich zu beantragen. Die Freigabe Ihres Zugangs erfolgt nach Prüfung Ihrer Anmeldung durch die Redaktion.

04.10.2005

RSS als Mittler in Informationsnetzen

Siegfried Hirsch 
RSS begann als einfaches XML-Format für Nachrichtenticker. Mittlerweile etabliert es sich überall dort als Alternative zu HTML, wo Informationen automatisiert abgeholt, zusammengeführt oder gefiltert werden sollen.

Die etablierten Browser wie der "Internet Explorer", "Firefox" oder "Opera" sind in der Lage, praktisch jede Web-Seite darzustellen, selbst wenn sie fehlerhaftes HTML enthält. Damit wurden sehr viele Menschen in die Lage versetzt, Inhalte ins Internet zu bringen beziehungsweise sie von dort abzurufen.

Mehr zum Thema

www.computerwoche.de/go/

*74838: Ingredienzien für coole Websites: Ajax, Tags und RSS;

*69253: Soziale Netze statt anonymes Internet;

*77407: Windows Longhorn erhält RSS-Infrastruktur;

*78763: RSS, Podcasts und Phishing für viele Amerikaner noch Fremdwörter

Hier lesen Sie …

• Warum herkömmliche Methoden der Informationsgewinnung im Web an ihre Grenzen stoßen;

• bei welchen Anwendungsszenarien RSS dem Besuch von Websites per Browser überlegen ist;

• wieso RSS ein ideales Transportmedium in Informationsnetzen ist;

• wie sich bekannte Social Software RSS-Feeds zunutze macht.

Angesichts der großen Datenmengen, die tagtäglich im Web hinzukommen, ist der Browser häufig nicht mehr das ideale Instrument, um Informationen zu konsumieren. Das betrifft etwa alle jene Sites, die sehr oft aktualisiert werden, oder auch Inhalte, die nach bestimmten Kriterien gefiltert oder aus verschiedenen Quellen zusammengeführt werden. In diesen Fällen wäre der Besuch von Websites mit dem Browser wenig praktikabel: Der Benutzer weiß normalerweise nicht, wann sich die Inhalte einer Site verändert haben, so dass er immer wieder wegen Updates nachsehen müsste. Noch schwieriger wäre es, mit dem herkömmlichen Web-Frontend Daten unterschiedlicher Herkunft anhand bestimmter Begriffe zu filtern. Die etablierten Suchmaschinen sind für diese Aufgabe wenig geeignet: Zum einen können sie Veränderungen bei Web-Inhalten nur mit erheblicher Verspätung berücksichtigen. Zum anderen platzieren sie in ihren Trefferlisten solche Seiten ganz vorne, die sie für besonders relevant halten - und das sind meistens Texte, die schon länger existieren und auf die von anderen Sites verlinkt wurde.

Alternativen zum Browser

Mit der steigenden Bedeutung sozialer Aspekte im Web nimmt die Form der Informationsdistribution zu, für die sich Browser nicht so gut eignen. Unter diese neuen Phänomene fallen insbesondere vernetzte Publikationsformen wie Weblogs und Wikis, Tools zur Online-Zusammenarbeit, die Klassifizierung von Inhalten durch Benutzergruppen oder die kollektive geografische Verortung von Ressourcen. In allen diesen Fällen hat sich RSS als Medium zur Verteilung von häufig aktualisierten und auf persönliche Bedürfnisse zugeschnittenen Informationen etabliert. RSS steht für Really Simple Syndication oder auch Rich Site Summary und ist ein relativ simples XML-Format. Die typische Client-Software, mit der sich solche Daten abrufen lassen, ist der RSS-Reader. Dabei kann es sich um eine eigenständige Desktop-Software, um einen Web-basierenden Service oder eine Erweiterung gängiger Browser beziehungsweise von Mail-Clients handeln.

Kollektive Beschreibung des Web

Den Grundgedanken von Social Software, nämlich Vorteile aus der unkoordinierten Tätigkeit großer Benutzergruppen zu ziehen, haben sich Bookmark-Systeme zu Eigen gemacht. Sie firmieren unter so undurchsichtigen Namen wie Furl, Spurl oder auch Delicious. Mit Delicious werden die Lesezeichen, die gewöhnlich im Web-Browser des Benutzers gesammelt werden, in einer Online-Datenbank hinterlegt. Nach der Anmeldung an diesem Dienst lässt sich die URL der aktuell angezeigten Web-Seite mit Hilfe eines so genannten Bookmarklets - einer kleinen Javascript-Funktion - als Lesezeichen abspeichern.

Um Ordnung in das System zu bringen, setzt Delicious auf die Vergabe von Schlagworten, die es "Tags", also Etiketten, nennt. Das Tagging von Lesezeichen ist mittlerweile zum Volkssport geworden, denn die Lesezeichenlisten bei Delicious sind öffentlich, und man kann sich die Bookmarks zu einem bestimmten Schlagwort auflisten lassen, ebenso wie die Anzahl der anderen Benutzer, denen die Internet-Seite ein Bookmark wert war.

Auf seiner Startseite führt Delicous eine Liste populärer Begriffe, so dass man schnell sieht, welche Informationen am stärksten nachgefragt werden. Dabei kann man nicht nur nach den Schlagworten suchen, sondern auch bei gleich gesinnten Delicious-Nutzern spicken, was deren liebste Lektüre ist und wo ihre Interessen liegen. Diese Form des Informationskonsums wird allerdings schnell ineffizient, wenn man regelmäßig über neue Quellen zu mehreren Themen benachrichtigt werden will.

Deshalb bietet Delicious seine Daten in Form von RSS-Feeds an. Auf diese Weise kann man Listen von Bookmarks nach allen erdenklichen Kriterien abonnieren: entweder alle Lesezeichen eines bestimmtes Benutzers, alle von allen Benutzern zu einem bestimmten Thema oder solche, die auf Filter aus mehreren Begriffen zutreffen.

Die RSS-Feeds von Delicious lassen sich automatisiert verarbeiten. Das kann einerseits dadurch geschehen, dass die Information in HTML umgewandelt und in Web-Seiten eingebunden wird. Der Vorteil liegt klar auf der Hand: Die Inhalte werden dynamisch aktualisiert. Das bietet sowohl für die Leser einen Mehrwert, als auch für den Betreiber der Web-Seite. Denn Suchmaschinen wie Google lieben die häufige Aktualisierung von Web-Seiten und bewerten diese auch besser in ihrem Index.

Gemeinsam die Welt abbilden

Ein weiterer Dienst, der ebenfalls auf Tagging setzt, ist die kürzlich von Yahoo gekaufte Online-Community für digitale Fotos namens Flickr. Dort wird jedes gespeicherte Bild mit einem oder mehreren Schlüsselwörtern versehen. Damit lassen sich dann Diashows im besten Sinne des Wortes zu bestimmten Themen, Stichworten, Ereignissen oder Orten betrachten. Aktuelle Ereignisse schlagen sich dort in wahren Bilderfluten nieder, die von Flickr-Benutzern hochgeladen und entsprechend beschrieben werden. Ebenso wie bei Delicious werden hier virtuelle Pfade gelegt, an denen sich Neugierige orientieren können.

Die Ausbeute an neuen Informationen ist nicht zu vergleichen mit der einer großen Suchmaschine, aber die Einordnung erfolgt eben auch ganz anders. Flickr stellt auf seiner Seite mit den Tags auch die Häufigkeit dar, mit der diese benutzt werden. Je größer ein Tag erscheint, desto öfter wurde es beim Upload der Bilder verwendet. Diese Darstellung der Tags wird Tagcloud genannt. Mittlerweise wenden diese Form der Präsentation auch viele andere Dienste an.

Suchmaschine in den RSS-Strömen

Was Delicious für Lesezeichen und Flickr für Bilder, das ist Technorati für Textbeiträge, die von Weblogs stammen. Diese Online-Journale sind eigenständige Sites und ihre Inhalte nicht Teil eines Service wie bei Delicious oder Flickr. Wie integriert also Technorati Beiträge von Bloggern? Technorati hat wie andere Suchmaschinen einen Robot, der die Texte einsammelt. Allerdings kommt er nur dann, wenn ein neuer Beitrag vorhanden ist. Damit Technorati weiß, wann dies der Fall ist, gibt der Blogger mit einem so genannten Ping Bescheid, also einer kleinen Nachricht an einen zentralen Server, dass neue Inhalte vorhanden sind. Das Ping der Blogs hat übrigens nichts mit dem Ping, das vom TCP/IP-Protokoll bekannt ist, zu tun, außer dem Namen und der grundlegenden Funktionalität.

Der Technorati-Robot holt sich die neuen Beiträge eines Blogs aber nicht aus der HTML-Seite, die für uns Menschen so einfach zu lesen ist, sondern nutzt den RSS-Feed des Blogs. XML-Dateien sind für Maschinen wesentlich leichter zu lesen, da klar ist, welche Informationen zum Artikel gehören, und ein paar hilfreiche Meta-Informationen wie Datum, Titel und URL des Artikels leicht zu extrahieren sind.

Technorati hat also gegenüber einer herkömmlichen Suchmaschine, die sich mit den gesamten HTML-Informationen einer Web-Seite herumschlagen muss, den Vorteil, dass alles recht klar und eindeutig ist. RSS wird deshalb auch gerne mit dem Semantic Web in Verbindung gebracht. Allerdings leistet es bei weitem nicht das, was das Semantic Web tatsächlich ausmachen soll.

Die oben bereits erwähnte Verschlagwortung der Beiträge geschieht bei Technorati also nicht automatisch aufgrund des Inhaltes, sondern mit Hilfe der Meta-Information einer Kategorie, die der Blogger seinem Beitrag mitgegeben hat. Durch das Tagging lassen sich nun bei Technorati die Meldungen der Blogger sowie Bilder aus Flickr und Buzznet, einem ähnlichen Dienst, sowie die Lesezeichen aus Delicious gemeinsam anzeigen.

Technorati nutzt für diesen zusätzlichen Service selbst wiederum die Tatsache, dass sowohl Flickr als auch Delicious die bereits erwähnten RSS-Feeds anbietet. Informationen werden also gesammelt und aggregiert - sie stehen damit aus vielfältigen Quellen zur Verfügung. Dass diese Informationen als viele winzig kleine Informationseinheiten bei den Benutzern des Internets selbst entstehen, gibt den Informationen eine andere Wertigkeit, die erst durch das Zusammenwirken der vielen einzelnen Nutzer möglich wird. Keiner hat den Befehl bekommen, Bilder zu knipsen, Lesezeichen zu sammeln oder Beiträge zu einem bestimmten Thema oder Ereignis zu schreiben. Dennoch blubbern bestimmte Themen wie Luftblasen an die Oberfläche, wenn nur genügend einzelne Anstöße zusammenkommen, die den Auftrieb bewirken.

Durch das gemeinschaftliche Filtern und Aufbereiten der Informationshäppchen entsteht ein Prozess, der "Collaborative Filtering" genannt wird und einen wichtigen Teil von Web 2.0 ausmacht. Aus der Summe der Einzelteile entsteht ein größeres Ganzes, das durch Dienste wie Technorati, Flickr oder Delicious einen deutlichen Mehrwert ergibt.

Einfachheit macht stark

Immer mehr Dienste und Anbieter von Informationen setzen auf die Darstellung ihrer Daten in Form von RSS. Jüngste Beispiele sind das Microsoft-CRM-System, das Informationen von Kunden per RSS bereitstellt, oder auch eine Erweiterung für das CRM-System des Anbieters Salesforce.com.

So wie also für die Entwicklung des World Wide Web die Darstellung von Inhalten per HTML der Schlüssel war, so wird in Zukunft der Einsatz von RSS die Schnittstelle zu Daten und Informationen sein, die schnell und einfach verarbeitet werden müssen. Das denkt zumindest Adam Bosworth von Google, der hier Parallelen sieht. RSS ist tatsächlich so "Really Simple", dass fast jeder Programmierer in der Lage ist, Daten per RSS bereitzustellen. Damit ist RSS deutlich universeller als Datenbanken oder spezielle Web-Services, die von vielen Informationsanbietern offeriert werden. Komplizierte Formate und Standards haben es selten geschafft, sich langfristig durchzusetzen. Einfache Quasi-Standards, die jeder gleich versteht und selbst anwenden kann, haben da deutlich bessere Chancen. Dienste wie Technorati, Flickr und Delicious lassen im Augenblick erst ahnen, wo diese Reise noch hingehen wird. (ws) u