Diese Website ist seit dem Ende des Studiengangs Informationswissenschaft
im Juni 2014 archiviert und wird nicht mehr aktualisiert.
Bei technischen Fragen: Sascha Beck - s AT saschabeck PUNKT ch
Drucken

Virtuelles Handbuch Informationswissenschaft

Exkurs: Information Retrieval

Besonderheiten des Indexierens und Abstrahierens von Webseiten

Heinz-Dirk Luckhardt

Das Information Retrieval (IR = Verfahren zum inhaltlichen und formalen Beschreiben, zum elektronischen Speichern und Wiederauffinden aller Arten von Dokumenten) hat sich in den letzten Jahrzehnten zum wichtigsten Lösungsansatz des Dokumentationswesens für die Bewältigung der ständig zunehmenden Zahl von Publikationen entwickelt. In den letzten Jahren hat dieses Problem in Gestalt des Worldwide Web eine neue Dimension erreicht, die die bis heute erreichten Fortschritte im Information Retrieval insofern in Frage stellt, als die für die Fachinformation, also das sachgebietsbezogene Dokumentationswesen, entwickelten Methoden und Verfahren bisher nur in Einschränkungen auf das WWW angewandt werden können.

Diese Behauptung wird im Folgenden durch einige besondere Anforderungen an das Indexieren und Abstrahieren von Webseiten begründet und illustriert. Insbesondere geht es um die Frage, inwieweit die Möglichkeiten der inhaltlichen Beschreibung von Webseiten durch Metadaten (vgl. Werner Schweibenz (1999): How To Use General Design Issues and Metadata In Order To Get Your Web Page Picked Up By Search Engines, aktualisiert und übersetzt in: „Proactive Web Design“. Nachrichten für Dokumentation 7/99, 389-396) den Standard des traditionellen Dokumentationswesens erreichen.

  • Keine absolute Einheitlichkeit der Vorgaben

    Zunächst ist zu sagen, dass weder im traditionellen Dokumentationswesen noch beim Information Retrieval im WWW von absoluter „Einheitlichkeit“ die Rede sein kann. Wenn auch im Bereich des traditionellen IR zahlreiche DIN-Normen existieren (z.B. DIN 1463: Erstellung und Weiterentwicklung von Thesauri. DIN 2331: Begriffssysteme und ihre Darstellung. DIN 31623: Indexierung zur inhaltlichen Erschließung von Dokumenten), gibt es zwischen den Suchmöglichkeiten der einzelnen Online-Informationsanbieter (Datenbankhosts) doch große Unterschiede (v.a. in den Suchsprachen). Letztere versuchen die Anbieter in ihren neuen Webinterfaces (Datenbankzugänge über das WWW) auszuräumen. Die Idee eines zentralen (und damit auch einheitlichen) Zugangs zu wissenschaftlichen Fachinformationen im WWW ist erst in den vergangenen Jahren durch die Entstehung von virtuellen Fachbibliotheken (auch Subject Gateways genannt) und deren Integration durch Internetportale (z.B. vascoda) realisiert worden. Trotzdem existieren die Fachportale und Online-Informationsanbieter weiterhin als eigenständige Systeme, die sich hinsichtlich der inhaltlichen Erschließung von WWW-Ressourcen voneinander unterscheiden.

    Eine noch sehr viel größere Uneinheitlichkeit finden wir allerdings bei den Suchmaschinen im WWW: unterschiedliche Ansätze der Verarbeitung der Webseiten, des Einsatzes von Suchoperatoren, der Berücksichtigung von Metadaten, der Frequenz der Updates der Datenbanken, der Trunkierung von Suchwörtern, der Klassifizierung von Webseiten etc. Für Metasuchmaschinen, die die Ergebnisse mehrerer Suchmaschinen vereinigen, hat das die Konsequenz, dass für sie nur sehr rudimentäre Suchmöglichkeiten bestehen, da Metasuchmaschinen ja nur die Funktionen nutzen können, die für alle Suchmaschinen implementiert sind.
  • Nutzung von Metadaten

    Für die Webseitenersteller und die Informationssuchenden besteht derzeit v.a. Unsicherheit darüber, ob Metadaten überhaupt (und wenn ja: wie und welche?) ausgenutzt werden. Da die automatische Indexierung von Webseiten mit Hilfe von Metadaten in der Vergangenheit auch zu Missbrauch führte (Spam) haben Suchmaschinenbetreiber technische Verfahren entwickelt, die die Bedeutung von Metadaten für das Relevance Ranking zunächst abschwächten. Es ist aber anzunehmen, dass sich die Verwendung von Metadaten in absehbarer Zeit wieder durchsetzen wird (vgl. Staab (2009): Metadaten, pfui? Metadaten, hui!). Es existieren zur Zeit zwei Ansätze: der Dublin-Core-Standard und ein nicht-standardisierter Ansatz, der teilweise von einigen Suchmaschinen berücksichtigt wird. Beide können parallel verwendet werden, d.h. eine sichere Vorgehensweise ist, die notwendigen tags sowohl mit Dublin-Core-tags als auch mit nicht standardisierten tags einzugeben. Beispiele für Metadatengeneratoren für die beiden Ansätze bieten http://www.metaner.de/metagen/metagenerator.html (Nicht-Standard) und der Dublin Core Metadaten Generator des Nordic Metadata Project.

  • Erhöhung der Trefferzahl

    Zur Erhöhung des Recall (= eine Webseite soll durch möglichst viele Anfragen gefunden werden) sind möglichst viele Deskriptoren beim metatag „keywords“ (bzw. nach Dublin Core: beim tag „DC.Subject“) einzugeben. Hier ist es sinnvoll, Lang- und Kurzform von Benennungen einzusetzen, um möglichst viele Anfragen zu bedienen. Auch ist in der Regel dazu zu raten, Schreibvarianten (Fotograf/Photograf), grammatische Varianten (Pluralform/Singularform) oder übersetzungen (Indexierung/indexing) einzugeben. Bei der Eingabe in den Metatag keywords/DC.Subject werden die einzelnen Deskriptoren durch „Komma + Leerstelle“ voneinander getrennt.

  • Erhöhung der Suchgenauigkeit

    Die Precision zu erhöhen (hier: die Zahl der unerwünschten Treffer zu reduzieren), ist im Web nicht einfach. Im Prinzip ist Precision am ehesten zu erreichen, wenn „eindeutige“ Suchbegriffe eingegeben werden. Dies ist nur durch folgende Mittel sicher zu erreichen, die ohne Einsatz eines Thesaurus oder einer Klassifikation (wie sie in der Fachinformation benutzt werden) kaum denkbar sind:

    • Vereindeutigung durch Zusätze (z.B. „BANK (Geldinstitut)“. Dies ist nur in Thesauri möglich, da Indexierer und Suchender einen gemeinsamen Wortschatz haben müssen, den beide kennen und benutzen. Das Gleiche gilt für die
    • Terminologische Kontrolle durch Vorschreiben bestimmter Vorzugsbenennungen (z.B. Eingabe von „Landwirt“ statt des mehrdeutigen „Bauer“, oder „Erbanlage“ bzw „Parkanlage“ anstelle von „Anlage“).
    • Thematische Begrenzung ist ein weiteres Mittel, das jedoch auch im WWW angewandt werden könnte, wenn man konsequent die Metatags einsetzen würde, die das Thema einer Seite beschreiben. So ließen sich Benennungen, die in verschiedenen Sachgebieten Verschiedenes bedeuten, vereindeutigen. Wenn die Suchmaschinen dies erlauben würden, könnte man z.B. die Suche nach „Krebs“ auf Seiten beschränken, die den Gebieten Medizin, Biologie, Gastronomie etc. zugeordnet sind, je nachdem, woran man interessiert ist. Die thematische Begrenzung lässt sich nach Dublin Core auf viele verschiedene Arten angeben, z.B. nach der universal decimal classification, der library of congress classification oder verschiedenen (thematisch stark eingeschränkten) Thesauri, wie sie für den Bereich der Fachinformation entwickelt wurden.

    Thesauri – also geordnete und normierte Zusammenstellungen miteinander verknüpfter relevanter Begriffe eines Sachgebiets – gibt es für das WWW derzeit nicht. Das erklärt sich durch die Notwendigkeit der Beschränkung eines Thesaurus auf ein Gebiet: allein schon die Erstellung und ständige Aktualisierung eines Thesaurus für ein überschaubares Sachgebiet ist eine sehr komplexe Aufgabe, die Erstellung eines Thesaurus für das gesamte Weltwissen, wie es im WWW enthalten ist, ist derzeit nicht vorstellbar. Zwar existiert mit der Entwicklung von Ontologien im Rahmen des semantic web ein wichtiger Ansatz zur semantischen Erschließung von Webinhalten, doch ist über den langfristigen Erfolg dieses Vorhabens noch keine eindeutige Aussage möglich.

    Klassifikationen gibt es im Fachinformationswesen für einzelne Sachgebiete und für das Weltwissen (z.B. die DDC = Dewey Decimal Classification (Deutsch)). Klassifikationen gibt es auch für das WWW: jeder Webkatalog (z.B. Yahoo) hat eine eigene.

    Das semantic web (vgl. Artikel dazu unter http://www.heise.de/tr/artikel/52516/, Interview mit Tim Berners-Lee ) soll im Laufe der kommenden Jahre auf der Basis von Erkenntnissen und Methoden aus dem Bereich der Wissensrepräsentation ein semantisches Netz über das WWW legen, mit dem nicht mehr nur mit Wörtern, sondern mit Bedeutungen gesucht werden kann. Damit könnten dann zielgenau Anfragen an das WWW gestellt werden.

  • Aussagekräftige Titel

    Eine einfache, aber wirkungsvolle Maßnahme, um Recall und Precision zu erhöhen, ist die Eingabe eines aussagekräftigen Titels, sowohl als Standard-HTML-tag als auch als Metatag.

  • „Recall“ und „Precision“ als Erfolgsfaktoren

    Ergänzend ist hier noch anzumerken, daß die Begriffe „Recall und Precision“ – im Unterschied zum traditionellen Dokumentationswesen – nicht gemessen und durch Zahlen ausgedrückt werden können (dazu müsste man die genaue Größe des WWW kennen), sondern nur als vage „Erfolgsfaktoren“ zu verstehen sind: „Recall“ soll bedeuten, dass möglichst viele der relevanten Webseiten gefunden werden, „Precision“, dass möglichst viele der gefundenen Webseiten relevant sind.

  • Abstracting/Kurzbeschreibungen

    Das Abstracting (Erstellen einer Zusammenfassung) einer Webseite und das Eintragen dieses Abstracts im Metatag „description“ ist deswegen wichtig, weil die Suchmaschinen dies als Seitenbeschreibung nutzen können, die dann in der Trefferanzeige die meist nutzlosen, weil nichtssagenden ersten Zeilen der Seite ersetzen kann, die ansonsten ausgegeben werden. Beim Abstracting sollten v.a. folgende Gesichtspunkte beachtet werden:

    • Abstracts sollten aus kurzen Sätzen oder Nominalphrasen bestehen. Auf inhaltsleere oder fragwürdige Aussagen und Einleitungsfloskeln ist zu verzichten („Darstellung des äußerst komplexen Zusammenhangs zwischen …“, „… are discussed, too“, „für … gibt es keine Definition“).

    • Ein Abstract muss aus sich heraus verständlich sein und soll auf engstem Raum eine allgemeinverständliche Zusammenfassung des Inhalts ergeben. Also keine unverständlichen oder wenig bekannten Abkürzungen verwenden (also z.B. statt „MÜ“ besser „maschinelle Übersetzung“). Bekannte Akronyme wie „NATO“ dürfen verwendet werden.

    • Der Bezug/Geltungsbereich muss klar sein. Wenn z.B. eine Aussage wie „Die linguistische Theorie ist die Dependenztheorie“ sich nur auf den vorliegenden Artikel beziehen soll, muss das auch so ausgedrückt werden, z.B. durch: „Der beschriebene Ansatz basiert auf der Dependenztheorie“.

    • Für das Abstract gelten die Anforderungen, die man allgemein an Texte stellt: Großschreibung am Satzanfang, Beachtung der Groß-/Klein-Schreibung und der Zeichensetzungsregeln, …

    • In die Metatags gehören keine Textauszeichnungen wie Fettdruck oder Unterstreichungen. Die fallen allerdings bei der Speicherung als ASCII-Text sowieso weg.

  • Platzbeschränkung in Metadaten-Generatoren

    Beim Indexieren und Abstrahieren besteht u.U. eine Schwierigkeit darin, abzuwägen zwischen der Platzbeschränkung bestimmter Metadaten-Generatoren (siehe z.B. bei searchcode.de: 255 Zeichen pro tag) und dem Wunsch, zur Erhöhung des Recall möglichst viele Deskriptoren einzugeben. Es ist zu vermuten, dass solche Suchmaschinen auch nur eine eingeschränkte Anzahl von Zeichen auswerten. Der Dublin-Core-Standard sieht eine solche Beschränkung nicht vor.

    Wenn man also einen Metatag-Generator wie den von searchcode.de benutzt, sollte man darauf achten, dass dieser auch wirklich komplette tags erstellt, und nicht z.B. am Ende Zeichen abschneidet, weil der eingegebene Text bzw. die Liste der eingegebenen Deskriptoren zu lang ist. Ein Beispiel für einen Metadaten-Generator nach dem Dublin-Core-Standard (ohne Längenbeschränkung) ist der Dublin Core Metadaten Generator des Nordic Metadata Project.

  • Namen ohne akademische Titel

    Namen werden in der Regel ohne akademische Titel eingegeben. Die (internationale) internet community legt weniger Wert auf Titel, als dies im deutsch-österreichischen Kulturraum üblich ist.

Literatur

__________________________________________

(Artikel zuletzt überarbeitet von Matthias Jentschke, 28.4.2010)