Diese Website ist seit dem Ende des Studiengangs Informationswissenschaft
im Juni 2014 archiviert und wird nicht mehr aktualisiert.
Bei technischen Fragen: Sascha Beck - s AT saschabeck PUNKT ch
Drucken

Projekte

Buchbesprechungen

William T. Arms: Digital Libraries

10. Information Retrieval and Descriptive Metadata

�bersicht

  • Basic Concepts and Terminology
  • Panel 10.5: The Resource Description Framework
  • Panel 10.1: Medical Subject Headings
  • Boolean searching
  • Panel 10.2: The Art and Architecture Thesaurus
  • Ranking closeness of match
  • Panel 10.6: Inverted Files
  • Panel 10.3: The Dublin Core
  • Natural-Language Processing and Computing Linguists
  • User Intefaces and Information-Retrieval Systrems
  • Panel 10.4: Automatic Indexing
  • Attaching Metadata to Context
  • Panel 10.7: Tipster and TREC




In diesem Kapitel behandelt der Autor Methoden der Suche nach spezifischer Information. Viele Methoden der Informationssuche suchen nicht in den Objekten einer Sammlung, sondern vielmehr in Metadaten, den descriptive Metadata, �ber diese Objekte. Diese Metadaten k�nnen auf den Katalogeintritt des Objektes verweisen, eine Indexaufnahme oder ein Abstract. Sie werden meistens in Textformat dargestellt, doch es k�nnen auch andere Formate zur Anwendung kommen. Descriptive Metadata wird f�r gew�hnlich von Spezialisten erstellt, was sich als sehr teuer erweist und nur �ber einen l�ngeren Zeitraum erstellt geschehen kann. Es gibt auch Entwicklungen zu schnelleren und g�nstigeren M�glichkeiten, Metadaten zu erstellen, z.B. durch automatisches Indexieren.

Katalogaufnahmen sind kleine Aufnahmen, die zusammenfassende Informationen �ber ein Objekt in der Bibliotheken bereitstellen. neben dem Information Retrieval haben sie viele Funktionen. Einige Kataloge stellen bibliographische Informationen bereit, die nicht direkt aus einem Werk abgeleitet werden k�nnen. Dazu geh�ren z.B. Informationen zum Autor oder �ber die Herkunft von Artefakten in Museen. Die Informationen in Katalogaufnahmen sind f�r die verschieden Angaben in fields und subfields unterteilt. So werden die Anglo-American Cataloging Rules und das MARC Format f�r viele Materialtypen wie Monographien, mehrb�ndige Werke oder Archive verwendet.

nach oben

Wissenschaftler und andere technische Bereiche verwenden h�ufiger Abstact- und Indexierungsdienste. Diese stellen Aufnahmen mit grundlegenden bibliographischen Angaben wie Autor, Titel, Datum, etc. oder Angaben zum Inhalt. Da der Nutzer oft spezifische Informationen zu einm Gegenstand sucht, erscheint es sinnvoller, indexierte Informationen zu einem Thema bereitzustellen. Dieses k�nnen Abstracts, Schl�sselw�rter, etc. sein. Ein effektiver doch teurer Ansatz stellt das Kontrollieren des Vokabulars dar, d.h. wo es mehrere M�glichkeiten zur Beschreibung eines Konzeptes gibt, wird ausschlie�lich einer verwendet. Dies erfordert erfahrene Indexierer und ausgebildete Nutzer, da die Suchbegriffe mit denen vom Indexierer verwendeten �bereinstimmen m�ssen. Dazu kann ein Thesaurus verwendet werden, der die vom Nutzer verwendeten Termini mit dem kontrollierten Vokabular des Indexiers verbindet.

Ein Satz von Metadaten, der auf viele Materialien in einer digitalen Bibliotehk verwendet werden kann, ist der seit 1995 von einer Gruppe internationaler Wissenschaftler unter der F�hrung von Stuart Weibel entwickelte Dublin Core. Er enth�lt 15 Elemente, die der einfachen Beschreibung eines Dokumentes dienen. In Panel 10.3 gibt der Autor eine ausf�hrliche Beschreibung der einzelnen Elemente und ihre Verwendung innerhalb des Dublin Core.

Katalogisieren und Indexieren durch ausgebildete Fachleute ist teuer. Viele Titel in digitalen Bibliotheken sind es wert, gesammelt zu werden. Dabei tragen verschiedenen Faktoren zur Erh�hung der Kosten f�r die Katalogisierung digitalen Materials bei, z.B. dass solche Sammlungen sehr gro� w�ren und ununterbrochene Ver�nderung der Objekte erforderten Langzeitinvestitionen in die Katalogisierung. Daher sind Katalogierung und Indexierung f�r digitale Bibliotheken weniger wichtig als f�r herk�mmliche Bibliotheken. Automatische Indexierung, wie sie von Suchmaschinen verwendet wird, ist dazu eine Alternative, und obwohl die Aufnahmen oft von geringer Qualit�t sind, sind sie auch sehr g�nstig. Die N�tzlichkeit wird dennoch durch den Erfolg der Websuchmaschinen bewiesen, denn automatische Indexierung ist schnell und billig.

nach oben

In diesem Abschnitt behandelt der Autor die verschiedenen Methoden des Information Retrieval. Zun�chst wird grundlegende Terminologie besprochen. Dazu geh�ren die Begriffe query, search term, full-text searching, fielded searching und stop list. Genauer wird auf die Booleschen Operatoren und das Ranking eingegangen.

Die Effektivit�t von Information Retrieval Systemen h�ngt von der Verwendung der bereitgestellten Dienste durch den Nutzer ab. Statistisch bestehen die meisten Anfragen aus einem einzigen Wort, weil die Nutzer wenig Erfahrung haben. Sie verwenden auch h�ufig die Booleschen Operatoren f�r Suchanfragen. Generell gibt es eine Tendenz zur Suche mit „kurzen“ Anfragen und au�erdem lesen nur wenige die einfachen Instruktionen, die bereitgestellt werden.

Zwei wichtige Begriffe bei der Auswertung des Information Retrieval sind precision und recall, die der Autor auch im Glossar noch genauer erkl�rt. Die Kriterien precision und recall sind sehr wichtig f�r die Entwicklung des Information Retrieval gewesen, sie stammen jedoch aus der Zeit, als Computer wesentlich langsamer und auch teurer als heute waren. Viele neue Suchprogramme haben Strategien zum Ranking von allen m�glichen Treffern, was zwar einen hohen „recall“ schafft, jedoch die Anzahl der irrelevanten Treffer erh�ht.
Die Nutzer suchen aus den unterschiedlichsten Gr�nden nach Informationen und sie verwenden dazu unterschiedlche Strategien. Die Effektivit�t beim Auffinden von Informationen h�ngt von den Absichten des Nutzers ab und wie gut die digitale Bibliothek diese Absichten befriedigen kann.

nach oben