Identität und Geschichte der Informationswissenschaft
Informationserschließung und Information Retrieval
2. Aufbereitung von (Text-)Wissen (inhaltliche Erschließung)
Projekte: Identität und Geschichte der Informationswissenschaft
Thema: ‚Informationserschließung und Information Retrieval‘
Texte können direkt (in sogenannten „Volltextdatenbanken“) oder nach Aufbereitung in komprimierter Form (mit Titeln und/oder Zusammenfassungen/Abstracts) gespeichert werden. Die geläufigste Art, Informationen zu recherchieren (auch im WWW), ist die über Suchbegriffe (Deskriptoren), die während der Phase der Textaufbereitung mit den Texten verknüpft werden (vgl. Exkurs zur Indexierung). Deskriptoren – sie sollen so gewählt werden, daß sie etwas über den Inhalt eines Textes aussagen – werden durch Indexierer oder von automatischen Indexierungssystemen vergeben und sind entweder Stichwörter, die den Texten selbst entnommen werden, oder Schlagwörter, die in Relation zum Inhalt eines Textes stehen, aber selbst nicht im Text vorkommen.
Die vergebbaren Deskriptoren können in der Weise vorgeschrieben werden, daß man für ein Sachgebiet bzw. eine Datenbank eine Liste von Deskriptoren (Schlagwortliste) aufstellt, die zur Beschreibung eines Textdokuments aus diesem Sachgebiet benutzt werden dürfen. Damit soll eine gewisse Konsistenz der Inhaltsbeschreibung (Sprachregelung) erreicht werden. Damit diese Einschränkung nicht zu groß ist, erweitert man die Liste um weitere Deskriptoren (sogenannte „Nicht-Deskriptoren“), die mit dem Sachgebiet zu tun haben, die aber nicht direkt zur Inhaltsbeschreibung eingesetzt, sondern mit zulässigen Deskriptoren verknüpft werden. So könnte z.B. der Nicht-Deskriptor „Aufzug“ auf den Deskriptor „Lift“ verweisen („Aufzug“ USE „Lift“, „Lift“ USED FOR „Aufzug“). Ein Text, in dem es um „Aufzüge“ geht, würde also den Deskriptor „Lift“ erhalten, aber trotzdem könnten später bei der Recherche beide Begriffe benutzt werden.
Neben der Konsistenz soll auch eine Vereindeutigung erreicht werden, z.B. hat ja „Aufzug“ neben der Bedeutung „Lift“ noch eine Reihe anderer Bedeutungen (lt. Wahrig z.B.: Aufmarsch; Teil eines Bühnenstücks; Gesamtheit der Kettfäden). Wenn man also den Deskriptor „Aufzug“ vergeben würde, gäbe es in einer Datenbank u.U. eine große Menge von Dokumenten mit der Beschreibung „Aufzug“, die alle verschiedene Sachverhalte zum Inhalt hätten, von denen die meisten einen Informationssuchenden gar nicht interessieren. Wenn man aber bei der Indexierung gleich den Deskriptor „Lift“ vergibt, werden bei der Recherche – wenn der Rechercheur nur die zulässigen Deskriptoren benutzt – nur die relevanten Textdokumente angezeigt.
Solche Sprachregelungen werden in einem Thesaurus (vgl. Exkurs) festgehalten. Ein Thesaurus ist eine Liste zulässiger und nicht zulässiger Deskriptoren für ein bestimmtes Sachgebiet, wobei alle Deskriptoren miteinander in einem Geflecht von Beziehungen (Thesaurusrelationen) verbunden sind: Verweise von Nicht-Deskriptoren auf Deskriptoren, von Unterbegriffen auf Oberbegriffe, von Begriffen auf ihre Antonyme (das Gegenteil) etc. und jeweils die Rückverweise, also z.B. von Deskriptoren auf Nicht-Deskriptoren etc.. Diese Relationen ermöglichen es bei der Recherche, eine Dokumentsuche zu erweitern oder einzuschränken. Wenn man keine oder zu wenige Dokumente zu einem Thema findet, kann man die Anweisung geben: gib mir auch die Dokumente aus, in denen von den Oberbegriffen meiner Suchbegriffe die Rede ist. Umgekehrt kann man die Menge der ausgegebenen Dokumente einschränken, indem man nur nach bestimmten Unterbegriffen sucht.
Ein Thesaurus bestimmt also einerseits, welche Begriffe vor der Speicherung eines Dokuments zur Inhaltsbeschreibung vergeben werden sollen, und andererseits, welche Begriffe bei der Suche nach relevanten Dokumenten benutzt werden sollten. Damit man bei der Suche nach bestimmten Begriffen überhaupt solche Dokumente angezeigt bekommen kann, muß über einen „Index“ eine Verknüpfung zwischen Begriffen und den Dokumenten, in denen sie vorkommen, hergestellt werden. Ein solcher Index, „invertierter Index“, genannt, besteht aus einer riesigen Tabelle (Matrix), in der jedes Schlüsselwort (also: Deskriptor, Autorname, Verlag, Erscheinungsjahr etc.), das in mindestens einem Dokument vorkommt, eine eigene Zeile erhält. Jede Spalte dieser Matrix entspricht einem Dokument (einer Dokument-Identifikationsnummer). Da, wo sich eine Zeile und eine Spalte treffen, steht entweder eine „1“, wenn das entsprechende Schlüsselwort in dem entsprechenden Dokument vorkommt, andernfalls eine „0“.