10. Information Retrieval and Descriptive Metadata

ï¿½bersicht

Descriptive Metadata	Techniques of Information Retrieval
Catalogs	Basic Concepts and Terminology
Abstracting and Indexing Services	Panel 10.5: The Resource Description Framework
Panel 10.1: Medical Subject Headings	Boolean searching
Panel 10.2: The Art and Architecture Thesaurus	Ranking closeness of match
The Dublin Core	Panel 10.6: Inverted Files
Panel 10.3: The Dublin Core	Natural-Language Processing and Computing Linguists
Automatic Indexing	User Intefaces and Information-Retrieval Systrems
Panel 10.4: Automatic Indexing	Evaluation
Attaching Metadata to Context	Panel 10.7: Tipster and TREC

In diesem Kapitel behandelt der Autor Methoden der Suche nach spezifischer Information. Viele Methoden der Informationssuche suchen nicht in den Objekten einer Sammlung, sondern vielmehr in Metadaten, den descriptive Metadata, ï¿½ber diese Objekte. Diese Metadaten kï¿½nnen auf den Katalogeintritt des Objektes verweisen, eine Indexaufnahme oder ein Abstract. Sie werden meistens in Textformat dargestellt, doch es kï¿½nnen auch andere Formate zur Anwendung kommen. Descriptive Metadata wird fï¿½r gewï¿½hnlich von Spezialisten erstellt, was sich als sehr teuer erweist und nur ï¿½ber einen lï¿½ngeren Zeitraum erstellt geschehen kann. Es gibt auch Entwicklungen zu schnelleren und gï¿½nstigeren Mï¿½glichkeiten, Metadaten zu erstellen, z.B. durch automatisches Indexieren.

Katalogaufnahmen sind kleine Aufnahmen, die zusammenfassende Informationen ï¿½ber ein Objekt in der Bibliotheken bereitstellen. neben dem Information Retrieval haben sie viele Funktionen. Einige Kataloge stellen bibliographische Informationen bereit, die nicht direkt aus einem Werk abgeleitet werden kï¿½nnen. Dazu gehï¿½ren z.B. Informationen zum Autor oder ï¿½ber die Herkunft von Artefakten in Museen. Die Informationen in Katalogaufnahmen sind fï¿½r die verschieden Angaben in fields und subfields unterteilt. So werden die Anglo-American Cataloging Rules und das MARC Format fï¿½r viele Materialtypen wie Monographien, mehrbï¿½ndige Werke oder Archive verwendet.

nach oben

Wissenschaftler und andere technische Bereiche verwenden hï¿½ufiger Abstact- und Indexierungsdienste. Diese stellen Aufnahmen mit grundlegenden bibliographischen Angaben wie Autor, Titel, Datum, etc. oder Angaben zum Inhalt. Da der Nutzer oft spezifische Informationen zu einm Gegenstand sucht, erscheint es sinnvoller, indexierte Informationen zu einem Thema bereitzustellen. Dieses kï¿½nnen Abstracts, Schlï¿½sselwï¿½rter, etc. sein. Ein effektiver doch teurer Ansatz stellt das Kontrollieren des Vokabulars dar, d.h. wo es mehrere Mï¿½glichkeiten zur Beschreibung eines Konzeptes gibt, wird ausschlieï¿½lich einer verwendet. Dies erfordert erfahrene Indexierer und ausgebildete Nutzer, da die Suchbegriffe mit denen vom Indexierer verwendeten ï¿½bereinstimmen mï¿½ssen. Dazu kann ein Thesaurus verwendet werden, der die vom Nutzer verwendeten Termini mit dem kontrollierten Vokabular des Indexiers verbindet.

Ein Satz von Metadaten, der auf viele Materialien in einer digitalen Bibliotehk verwendet werden kann, ist der seit 1995 von einer Gruppe internationaler Wissenschaftler unter der Fï¿½hrung von Stuart Weibel entwickelte Dublin Core. Er enthï¿½lt 15 Elemente, die der einfachen Beschreibung eines Dokumentes dienen. In Panel 10.3 gibt der Autor eine ausfï¿½hrliche Beschreibung der einzelnen Elemente und ihre Verwendung innerhalb des Dublin Core.

Katalogisieren und Indexieren durch ausgebildete Fachleute ist teuer. Viele Titel in digitalen Bibliotheken sind es wert, gesammelt zu werden. Dabei tragen verschiedenen Faktoren zur Erhï¿½hung der Kosten fï¿½r die Katalogisierung digitalen Materials bei, z.B. dass solche Sammlungen sehr groï¿½ wï¿½ren und ununterbrochene Verï¿½nderung der Objekte erforderten Langzeitinvestitionen in die Katalogisierung. Daher sind Katalogierung und Indexierung fï¿½r digitale Bibliotheken weniger wichtig als fï¿½r herkï¿½mmliche Bibliotheken. Automatische Indexierung, wie sie von Suchmaschinen verwendet wird, ist dazu eine Alternative, und obwohl die Aufnahmen oft von geringer Qualitï¿½t sind, sind sie auch sehr gï¿½nstig. Die Nï¿½tzlichkeit wird dennoch durch den Erfolg der Websuchmaschinen bewiesen, denn automatische Indexierung ist schnell und billig.

nach oben

In diesem Abschnitt behandelt der Autor die verschiedenen Methoden des Information Retrieval. Zunï¿½chst wird grundlegende Terminologie besprochen. Dazu gehï¿½ren die Begriffe query, search term, full-text searching, fielded searching und stop list. Genauer wird auf die Booleschen Operatoren und das Ranking eingegangen.

Die Effektivitï¿½t von Information Retrieval Systemen hï¿½ngt von der Verwendung der bereitgestellten Dienste durch den Nutzer ab. Statistisch bestehen die meisten Anfragen aus einem einzigen Wort, weil die Nutzer wenig Erfahrung haben. Sie verwenden auch hï¿½ufig die Booleschen Operatoren fï¿½r Suchanfragen. Generell gibt es eine Tendenz zur Suche mit „kurzen“ Anfragen und auï¿½erdem lesen nur wenige die einfachen Instruktionen, die bereitgestellt werden.

Zwei wichtige Begriffe bei der Auswertung des Information Retrieval sind precision und recall, die der Autor auch im Glossar noch genauer erklï¿½rt. Die Kriterien precision und recall sind sehr wichtig fï¿½r die Entwicklung des Information Retrieval gewesen, sie stammen jedoch aus der Zeit, als Computer wesentlich langsamer und auch teurer als heute waren. Viele neue Suchprogramme haben Strategien zum Ranking von allen mï¿½glichen Treffern, was zwar einen hohen „recall“ schafft, jedoch die Anzahl der irrelevanten Treffer erhï¿½ht.
Die Nutzer suchen aus den unterschiedlichsten Grï¿½nden nach Informationen und sie verwenden dazu unterschiedlche Strategien. Die Effektivitï¿½t beim Auffinden von Informationen hï¿½ngt von den Absichten des Nutzers ab und wie gut die digitale Bibliothek diese Absichten befriedigen kann.

nach oben

last update 23.12.2001

Universität des Saarlandes - Fachrichtung Informationswissenschaft

Projekte

Buchbesprechungen

William T. Arms: Digital Libraries

10. Information Retrieval and Descriptive Metadata

ï¿½bersicht