Archive for the 'deepweb' Category

Das unsichtbare Web 2.0

fischer.pngEiner der wichtigsten Punkte in der Wissenschaft 2.0 ist die Frage, wie man an die unzähligen Informationen herankommt. Bislang spielten Abstract-Zeitschriften (oder Abstracts von Abstracts) eine zentrale Rolle in der Suche nach spezifischen Informationen – das im Internet dezentral abgespeicherte Wissen lässt sich jedoch mit Aggregatoren dieser Art nicht mehr sinnvoll verwalten und durchforsten. Gerade die vielen Publikationsvorstufen, Manuskripte, Diskussionsgrundlagen, Präsentationen, Berichte, Personenprofile und vor allem Datensätze die zunehmend im wissenschaftlichen Web zu finden sind, können nicht mehr wie in einem Telefonbuch verzeichnet werden. Auch hier (wie im Web insgesamt) werden vermutlich Suchmaschinen die Kataloge und Portale nach und nach ablösen.

Aber die Sache wird dadurch verkompliziert, dass ein wichtiger Teil der wissenschaftlichen Informationen auch mit Suchmaschinen nicht gefunden werden kann: diese Informationen sind im Academic Invisible Web verborgen. Was versteht man unter diesem Begriff? Sherman und Price fassen darunter Texte, Daten und Informationen im WWW, die in den bisherigen Suchmaschinen (v.a. natürlich Google) nicht verzeichnet sind und daher für den WWW-Nutzer gar nicht existieren.

Wie groß dieser Teil des WWW ist, lässt sich nur abschätzen. Hier wird z.B. behauptet, dass sogar die besten Suchmaschinen nur zu 16% der WWW-Informationen Zugang haben, wobei das unsichtbare Netz sogar 500 Mal so sein soll wie das sichtbare und zudem schneller wächst (für eine Kritik dieser Zahlen sowie grundsätzlichen Fragen zur Messbarkeit des tiefen Webs vgl. hier). Interessanterweise geht es dabei nur in geringem Maß um nicht-öffentliche Seiten, sondern vor allem um dynamisch generierte Datenbankergebnisse. Aber auch einzelne, nicht verlinkte Seiten, Multimediainhalte und andere non-text-Formate (zip, rar), wenn sie nicht mit Metadaten versehen sind oder Echtzeitinformationen gehören zu dieser Kategorie.

Eindrucksvoll lässt sich dies an den neuen interaktiven Informationsangeboten der statistischen Ämter demonstrieren. Armin Grossenbacher sammelt zur Zeit hier eine Liste von solchen Anwendungen. Wenn man sich zum Beispiel den neuen “Atlas der Außenhandelsstatistik” des Statistischen Bundesamtes betrachtet, fällt zum einen auf, dass dem Nutzer eine Web 2.0-ähnliche Rich Internet Application angeboten wird. Man kann selbst auswählen, welche Daten wie visualisiert werden sollen und zum Teil ist auch der Export in verschiedenen Datenformaten möglich (zum Beispiel mit dem TGM-Modul (“table, graphs and maps”) von Eurostat). Zum anderen sind diese Inhalte nur über den Atlas verfügbar und können nicht über die Suche einer Suchmaschine entdeckt werden.

Möglicherweise lässt sich an dieser Stelle die These formulieren, dass interaktive, datenbankgestützte Web 2.0-Anwendungen dazu neigen, das “tiefe Web” auszudehnen, werden sie nicht mit Web 3.0-Elementen (“semantisches Netz”) ergänzt. Zum Beispiel durch Informationen darüber, welche Funktion bestimmte Eingabeformulare oder Datenbankschnittstellen haben und welche Inhalte damit abgerufen werden können. Aber die erwähnten Seiten besitzen nicht einmal Dublin Core-Metadaten, mit denen der Inhalt der Seite kurz charakterisiert werden könnte.

Wer mehr zu dem Thema lesen will, kann auf die beiden Weblogs The Invisible Web und Deep Web Research zurückgreifen sowie die umfangreiche Bibliographie auf “Beyond Google“.

(Abbildung: Claude Monet, “Zwei Fischer”, 1882, Quelle: http://www.zeno.org – Zenodot Verlagsgesellschaft mbH)



Verwandte Artikel:
  • Die Zukunft des WWW (Richard MacManus)
  • Failure notice – über die positive Funktion von Fehlern