Diese Website ist seit dem Ende des Studiengangs Informationswissenschaft
im Juni 2014 archiviert und wird nicht mehr aktualisiert.
Bei technischen Fragen: Sascha Beck - s AT saschabeck PUNKT ch
Drucken

Studium Informationswissenschaft

Virtuelles Handbuch Informationswissenschaft

10. Information und Dokumentation

Exkurs: Information Retrieval

Heinz-Dirk Luckhardt

1.Aufbereitung von (Text-)Wissen Information Retrieval im WWW
Besonderheiten des Indexierens
und Abstrahierens von Webseiten

2.Speicherung in Datenbanken
3.Retrieval (Recherche)
3.1 Grundlagen des Retrieval
3.2 Recall und Precision
3.3 Der Retrieval-Vorgang
Literatur

Unter dem Begriff „Information Retrieval“ [ritri:vl] – genauer wäre es, von „Information Storage and Retrieval“ zu sprechen – werden in der Fachinformation alle Verfahren zusammengefaßt, die mit der Aufbereitung, Speicherung und Wiedergewinnung (Recherche) von Wissen (Texte, Fakten) zu tun haben. Diese drei Begriffe hängen eng miteinander zusammen, denn die Aufbereitung der Daten geschieht ja im Hinblick auf die Speicherung und die spätere Recherche. Insofern können die Begriffe auch nicht voneinander losgelöst betrachtet werden. In den einzelnen der folgenden Kapitel sollte man also jeweils den Gesamtzusammenhang im Auge behalten.

1. Aufbereitung von (Text-)Wissen (inhaltliche Erschließung)

Texte können direkt (in sogenannten „Volltextdatenbanken“) oder nach Aufbereitung in komprimierter Form (mit Titeln und/oder Zusammenfassungen/Abstracts) gespeichert werden. Die geläufigste Art, Informationen zu recherchieren, ist die über Suchbegriffe (Deskriptoren), die während der Phase der Textaufbereitung mit den Texten verknüpft werden (vgl. Indexierung ). Deskriptoren – sie sollen so gewählt werden, daß sie etwas über den Inhalt eines Textes aussagen – werden durch Indexierer oder von automatischen Indexierungssystemen vergeben und sind entweder Stichwörter, die den Texten selbst entnommen werden, oder Schlagwörter, die in Relation zum Inhalt eines Textes stehen, aber selbst nicht im Text vorkommen.

Die vergebbaren Deskriptoren können in der Weise vorgeschrieben werden, daß man für ein Sachgebiet bzw. eine Datenbank eine Liste von Deskriptoren aufstellt, die zur Beschreibung eines Textdokuments aus diesem Sachgebiet benutzt werden dürfen. Damit soll eine gewisse Konsistenz der Inhaltsbeschreibung (Sprachregelung) erreicht werden. Damit diese Einschränkung nicht zu groß ist, erweitert man die Liste um weitere Deskriptoren (sogenannte „Nicht-Deskriptoren“), die mit dem Sachgebiet zu tun haben, die aber nicht direkt zur Inhaltsbeschreibung eingesetzt, sondern mit zulässigen Deskriptoren verknüpft werden. So könnte z.B. der Nicht-Deskriptor „Aufzug“ auf den Deskriptor „Lift“ verweisen („Aufzug“ USE „Lift“, „Lift“ USED FOR „Aufzug“). Ein Text, in dem es um „Aufzüge“ geht, würde also den Deskriptor „Lift“ erhalten, aber trotzdem könnten später bei der Recherche beide Begriffe benutzt werden.

Neben der Konsistenz soll auch eine Vereindeutigung erreicht werden, z.B. hat ja „Aufzug“ neben der Bedeutung „Lift“ noch eine Reihe anderer Bedeutungen (lt. Wahrig z.B.: Aufmarsch; Teil eines Bühnenstücks; Gesamtheit der Kettfäden). Wenn man also den Deskriptor „Aufzug“ vergeben würde, gäbe es in einer Datenbank u.U. eine große Menge von Dokumenten mit der Beschreibung „Aufzug“, die alle verschiedene Sachverhalte zum Inhalt hätten, von denen die meisten einen Informationssuchenden gar nicht interessieren. Wenn man aber bei der Indexierung gleich den Deskriptor „Lift“ vergibt, werden bei der Recherche – wenn der Rechercheur nur die zulässigen Deskriptoren benutzt – nur die relevanten Textdokumente angezeigt.

Solche Sprachregelungen werden in einem Thesaurus festgehalten. Ein Thesaurus ist eine Liste zulässiger und nicht zulässiger Deskriptoren für ein bestimmtes Sachgebiet, wobei alle Deskriptoren miteinander in einem Geflecht von Beziehungen (Thesaurusrelationen) verbunden sind: Verweise von Nicht-Deskriptoren auf Deskriptoren, von Unterbegriffen auf Oberbegriffe, von Begriffen auf ihre Antonyme (das Gegenteil) etc. und jeweils die Rückverweise, also z.B. von Deskriptoren auf Nicht-Deskriptoren etc.. Diese Relationen ermöglichen es bei der Recherche, eine Dokumentsuche zu erweitern oder einzuschränken. Wenn man keine oder zu wenige Dokumente zu einem Thema findet, kann man die Anweisung geben: gib mir auch die Dokumente aus, in denen von den Oberbegriffen meiner Suchbegriffe die Rede ist. Umgekehrt kann man die Menge der ausgegebenen Dokumente einschränken, indem man nur nach bestimmten Unterbegriffen sucht.

Ein Thesaurus bestimmt also einerseits, welche Begriffe vor der Speicherung eines Dokuments zur Inhaltsbeschreibung vergeben werden sollen, und andererseits, welche Begriffe bei der Suche nach relevanten Dokumenten benutzt werden sollten. Damit man bei der Suche nach bestimmten Begriffen überhaupt solche Dokumente angezeigt bekommen kann, muß über einen „Index“ eine Verknüpfung zwischen Begriffen und den Dokumenten, in denen sie vorkommen, hergestellt werden. Ein solcher Index, „invertierter Index“, genannt, besteht aus einer riesigen Tabelle (Matrix), in der jedes Schlüsselwort (also: Deskriptor, Autorname, Verlag, Erscheinungsjahr etc.), das in mindestens einem Dokument vorkommt, eine eigene Zeile erhält. Jede Spalte dieser Matrix entspricht einem Dokument (einer Dokument-Identifikationsnummer). Da, wo sich eine Zeile und eine Spalte treffen, steht entweder eine „1“, wenn das entsprechende Schlüsselwort in dem entsprechenden Dokument vorkommt, andernfalls eine „0“.

2. Speicherung in Datenbanken

Wir können grob drei Arten von Datenbanken (DB) unterscheiden: Referenz- oder Literatur-DB, Volltext-DB und Fakten-DB. Referenz-DB enthalten zu einem Textdokument (Buch, Zeitschriftenartikel etc.) außer dem Titel und ggf. einem Abstract nur die bibliographischen Angaben, die dem Rechercheur die weitere Suche nach dem eigentlichen Dokument möglich machen. Volltext-DB enthalten die kompletten Textdokumente, evtl. ohne etwaige Graphiken oder Bilder. In Faktenbanken sind i.d.R. numerische Daten oder Sachverhalte wie Firmenbeschreibungen gespeichert.

In großen Datenbanken wird meist online recherchiert, d.h. man wendet sich vom eigenen Computer aus über Telekommunikationsleitungen an Datenbank-Hosts, das sind Dienstleistungsunternehmen, die jeweils über ein großes Angebot an Datenbanken verfügen. DB-Host und DB-Produzent sind oft nicht identisch, d.h. DB werden von Fachorganisationen oder Firmen produziert und den Hosts zum Vertrieb überlassen. Die Hosts erhalten nur die Rohdaten und erstellen daraus die endgültige Datenbank, auf die die Benutzer mithilfe eines vom Host bereitgestellten einheitlichen Systems mit einer gemeinsamen Suchsprache/Suchsoftware zugreifen können.

3. Retrieval (Recherche)

3.1 Grundlagen des Retrieval

Das, was bei der Aufbereitung und Inhaltsbeschreibung der einzelnen Dokumente ermittelt und in der Datenbank gespeichert wurde, bildet jetzt die Grundlage für die Suche nach relevanten Dokumenten. Dies sind v.a. die über den Index mit den Dokumenten verknüpften Schlüsselbegriffe. Das einfachste wäre nun, einfach zu sagen: gib mir alle Dokumente, in denen z.B. „Textilien“ vorkommt. I.d.R. würde man daraufhin mit Dokumenten „zugeschüttet“. Man muß seine Anfrage genauer spezifizieren, und dazu benutzt eine Retrievalsprache die auf den englischen Mathematiker George Boole zurückgehende „Boolesche Logik“. Für unseren Zweck genügt es, die Funktion der Operatoren AND, OR und AND NOT zu verstehen:

Textil AND Industrie:  die Begriffe "Textil" und "Industrie" 
Textil OR  Textilien:  der Begriff "Textil" oder der Begriff "Textilien" 
Textil AND NOT Industrie:  der Begriff "Textil", aber nicht der Begriff "Industrie" 

Damit kann man bestimmen, welche Begriffe in den relevanten Dokumenten zusammen vorkommen sollen oder nicht zusammen vorkommen sollen oder von welchen zwei oder mehr Begriffen mindestens einer vorkommen soll. Aus Gründen der Eindeutigkeit werden Suchfragen, die man aus diesen Funktionen zusammenstellt, zusätzlich durch Klammern strukturiert, z.B.:

(Textil* AND NOT Industrie ) AND (Vortrag OR Artikel)

Damit würden Dokumente gefunden, in denen es um einen Vortrag oder Artikel über Textil(ien) geht, die aber den Suchbegriff „Industrie“ nicht enthalten sollen.

Man kann i.d.R. aus Gründen der Vereinfachung die Suchbegriffe verkürzen oder „variable“ Zeichenkombinationen eingeben (wie im vorstehenden Beispiel). Um „Textil“ und „Textilien“ und „Textilindustrie“ etc. zu finden, kann man ein „Trunkierungssymbol“ einfügen. Mit „Textil*“ würden alle Zeichenfolgen gefunden, die mit „Textil“ beginnen. Die Retrievalsprachen bieten i.d.R. auch die Möglichkeit, die Zahl der abzuschneidenden Buchstaben zu begrenzen oder Variablen einzufügen. Damit könnte „B!rt*“ z.B. zu den Begriffen „Bart“, „Bärte“, „Bartschneidemaschine“ etc. führen, natürlich noch zu viel mehr Begriffen, an die man nicht gedacht hat. Der Einsatz von solchen Variablen will also überlegt sein. Die Verwendung solcher Variablen ist übrigens von System zu System unterschiedlich, d.h. u.U. bedeutet „*“ einen Platzhalter für einen einzigen Buchstaben und „!“ oder „$“ etc. einen Platzhalter für mehrere.

Schließlich ist es oft sinnvoll zu fordern, daß bestimmte Begriffe nicht miteinander, sondern auch in unmittelbarer Nachbarschaft von einander vorkommen sollen. Man benutzt dafür „adjacency„-Funktionen, z.B. natürlich? ADJ Person?. Diese beiden Begriffe sollen direkt hintereinander im Text stehen, akzeptiert werden „natürliche Personen“, „natürlichen Personen“ etc. Dabei kann auch die Anzahl der Wörter angegeben werden, die maximal zwischen beiden stehen dürfen.

3.2 Recall und Precision

Diese beiden Begriffe erlauben zwei verschiedene Sichten auf die Effizienz eines Information-Retrieval-Systems. Mathematisch lassen sie sich folgendermaßen definieren:

              Anzahl der gefundenen relevanten Dokumente 
recall =      ----------------------------------------- 
              Anzahl aller relevanten Dokumente in der Datenbank 
 
              Anzahl der gefundenen relevanten Dokumente 
precision=    ------------------------------------------ 
              Anzahl aller gefundenen Dokumente 
 

Der Recall sagt also etwas darüber aus, wieviele der in der Datenbank vorhandenen relevanten Dokumente gefunden wurden – ins Verhältnis gesetzt zur Anzahl aller relevanten Dokumente in der Datenbank. Die Precision setzt jene Zahl ins Verhältnis zur Zahl der insgesamt gefundenen Dokumente, sie gibt an, wieviele der gefundenen relevant sind. Grob gesprochen: Recall – wieviel habe ich gefunden, wieviel Substanz hat die Datenbank ; Precision – wieviel Unbrauchbares habe ich gefunden, wie genau kann man in der Datenbank suchen?

Die Werte für Recall und Precision liegen jeweils zwischen 0 und 1, je näher an 1, desto besser. Recall = 1 bedeutet: alle relevanten Dokumente wurden gefunden, Precision = 1 bedeutet: alle gefundenen Dokumente sind relevant.

Im einzelnen liegt es am Benutzer, ob er einen höheren Recall will (eine größere Menge gefundener Dokumente, also die relevanten und darüberhinaus auch noch weitere möglicherweise interessante Dokumente) oder eine höhere Precision (möglichst nur die wirklich 100-%ig relevanten Dokumente, auf die Gefahr hin, daß ihm Einiges entgeht).

3.3 Der Retrieval-Vorgang

Das Wichtigste bei der Recherche ist – neben der Auswahl der richtigen Datenbank – die möglichst genaue Formulierung dessen, was man sucht (Suchanfrage). Das hängt zum einen davon ab, was man über das Sachgebiet weiß, und zum anderen von den Möglichkeiten (der Retrievalsprache), die die Datenbank bzw. der Host bietet. Recherchieren ist immer noch eine Wissenschaft für sich, und außerdem keine billige Angelegenheit, so daß ungeübten Informationssuchenden die Einschaltung einer Informationsvermittlungsstelle zu empfehlen ist. Abgesehen davon, daß die meisten nicht über die technischen Voraussetzungen für eine Online-Recherche verfügen, sind nämlich ausgeklügelte Suchstrategien vonnöten, um die Kosten gering zu halten. Kostenfaktoren sind die „Anschaltzeit“, d.h. die Dauer der reinen Verbindung mit einer bestimmten Datenbank, und die Zahl der in der Datenbank gefundenen und ausgegebenen (d.h. ausgedruckten, am Bildschirm gelesenen oder auf Diskette gespeicherten) Dokumente. Um beide Faktoren gering zu halten, ist folgende Grundstrategie zu verfolgen

  1. Studieren der Retrievalsprache: welche Möglichkeiten der Formulierung von Suchfragen gibt es?
  2. Genaue Eingrenzung des Problems: was will ich genau wissen?
  3. Umsetzung in die spezifische Suchfrage: Auswahl und Verknüpfung der Suchbegriffe
  4. Anwahl der Datenbank (jetzt läuft die Anschaltzeit)
  5. Suchfrage stellen
  6. Suchergebnis bewerten: genügend oder zu viele Dokumente gefunden
  7. Entsprechend die Dokumente abrufen oder die Suchanfrage umformulieren oder die Datenbank verlassen, um in Ruhe weiter zu überlegen.

Literatur

Becker, Christine (1995):
Zugang zum Wissen der Welt. Informationsermittlung aus internationalen Online-Datenbanken. WINGS-Band 3. Universität Potsdam: ZEIK
Ferber, Reginald (2003):
Information Retrieval. Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. http://information-retrieval.de/irb/ir.html
Fuhr, Norbert (2004):
Theorie des Information Retrieval I: Modelle. In: Kuhlen/Seeger/Strauch, Kap. B7, 207-214
Henrich, Andreas (2008):
Information Retrieval 1. Grundlagen, Modelle und Anwendungen. http://www.uni-bamberg.de/fileadmin/uni/fakultaeten/wiai_lehrstuehle/medieninformatik/Dateien/Publikationen/2008/henrich-ir1-1.2.pdf
Henzler, Rolf G. (1992):
Information und Dokumentation. Springer-Lehrbuch. Berlin et a.: Springer
Kind, Joachim (2004):
Praxis des Information Retrieval. In: Kuhlen/Seeger/Strauch, Kap. C2, 389-398
Kmuche, Wolfgang (1992):
Umgang mit externen Datenbanken. WRS-Computer-Praxis. Planegg/München: Verlag WRS
Kuhlen, Rainer; Thomas Seeger; Dietmar Strauch (Hrsg., 2004):
Grundlagen der praktischen Information und Dokumentation. 5. Auflage. München: K. G. Saur
Lewandowski, Dirk (2005):
Web Information Retrieval. Technologien zur Informationssuche im Internet. http://www.durchdenken.de/lewandowski/web-ir/
Nohr, Holger (2004):
Theorie des Information Retrieval II: Automatische Indexierung. In: Kuhlen/Seeger/Strauch, Kap. B8, 215-226
Salton, Gerald; Michael McGill (1983):
Introduction to Modern Information Retrieval. McGraw-Hill
Sandmaier, Wolfgang (1990):
Informationsvorsprung durch Online-Datenbanken. Blick durch die Wirtschaft. Frankfurt: Frankfurter Allg. Zeitung
Stock, Wolfgang (2007):
Information Retrieval. Informationen suchen und finden. München: Oldenbourg
Womser-Hacker, Christa (2004):
Theorie des Information Retrieval III: Evaluierung. In: Kuhlen/Seeger/Strauch, Kap. B9, 227-236