Diese Website ist seit dem Ende des Studiengangs Informationswissenschaft
im Juni 2014 archiviert und wird nicht mehr aktualisiert.
Bei technischen Fragen: Sascha Beck - s AT saschabeck PUNKT ch
Drucken

Identität und Geschichte der Informationswissenschaft

Informationserschließung und Information Retrieval

5. Retrieval (Recherche)

Projekte: Identität und Geschichte der Informationswissenschaft

Thema: ‚Informationserschließung und Information Retrieval‘

Das, was bei der Aufbereitung und Inhaltsbeschreibung der einzelnen Dokumente ermittelt und in der Datenbank gespeichert wurde, bildet jetzt die Grundlage für die Suche nach relevanten Dokumenten. Dies sind v.a. die über den Index mit den Dokumenten verknüpften Schlüsselbegriffe. Das einfachste wäre nun, einfach zu sagen: gib mir alle Dokumente, in denen z.B. „Textilien“ vorkommt. I.d.R. würde man daraufhin mit Dokumenten „zugeschüttet“. Man muß seine Anfrage genauer spezifizieren, und dazu benutzt eine Retrievalsprache die auf den englischen Mathematiker George Boole zurückgehende „Boolesche Logik“. Für unseren Zweck genügt es, die Funktion der Operatoren AND, OR und AND NOT zu verstehen:

Textil AND Industrie:  die Begriffe "Textil" und "Industrie"
Textil OR  Textilien:  der Begriff "Textil" oder der Begriff "Textilien"
Textil AND NOT Industrie:  der Begriff "Textil", aber nicht der Begriff "Industrie"

Damit kann man bestimmen, welche Begriffe in den relevanten Dokumenten zusammen vorkommen sollen oder nicht zusammen vorkommen sollen oder von welchen zwei oder mehr Begriffen mindestens einer vorkommen soll. Aus Gründen der Eindeutigkeit werden Suchfragen, die man aus diesen Funktionen zusammenstellt, zusätzlich durch Klammern strukturiert, z.B.:

(Textil* AND NOT Industrie ) AND (Vortrag OR Artikel)

Damit würden Dokumente gefunden, in denen es um einen Vortrag oder Artikel über Textil(ien) geht, die aber den Suchbegriff „Industrie“ nicht enthalten sollen.

Man kann i.d.R. aus Gründen der Vereinfachung die Suchbegriffe verkürzen oder „variable“ Zeichenkombinationen eingeben (wie im vorstehenden Beispiel). Um „Textil“ und „Textilien“ und „Textilindustrie“ etc. zu finden, kann man ein „Trunkierungssymbol“ einfügen. Mit „Textil*“ würden alle Zeichenfolgen gefunden, die mit „Textil“ beginnen. Die Retrievalsprachen bieten i.d.R. auch die Möglichkeit, die Zahl der abzuschneidenden Buchstaben zu begrenzen oder Variablen einzufügen. Damit könnte „B!rt*“ z.B. zu den Begriffen „Bart“, „Bärte“, „Bartschneidemaschine“ etc. führen, natürlich noch zu viel mehr Begriffen, an die man nicht gedacht hat. Der Einsatz von solchen Variablen will also überlegt sein. Die Verwendung solcher Variablen ist übrigens von System zu System unterschiedlich, d.h. u.U. bedeutet „*“ einen Platzhalter für einen einzigen Buchstaben und „!“ oder „$“ etc. einen Platzhalter für mehrere.

Schließlich ist es oft sinnvoll zu fordern, daß bestimmte Begriffe nicht miteinander, sondern auch in unmittelbarer Nachbarschaft von einander vorkommen sollen. Man benutzt dafür „adjacency„-Funktionen, z.B. natürlich? ADJ Person?. Diese beiden Begriffe sollen direkt hintereinander im Text stehen, akzeptiert werden „natürliche Personen“, „natürlichen Personen“ etc. Dabei kann auch die Anzahl der Wörter angegeben werden, die maximal zwischen beiden stehen dürfen.

Übersicht