11. Distributed Information Discovery

Web Search Programs

Web Crawlers

Searching an index of Web Pages

Panel 11.1: Page Ranks and Google

Federated Digital Libraries

Panel 11.2:The University of Illinois Library of Scientific Literature

Online Catalogs and Z39.50

Panel 11.3: Z39.50

NCSTRL and Dienst

Panel 11.4: NCSTRL and the Dienst Model of Distributed Searching

Research on Alternative Approaches to Distributed Searching

Panel 11.5: The Harvest Architecture

Beyond Searching

Distributed computing ist der ï¿½berbegriff fï¿½r die technischen Aspekte bei der Koordinierung separater Computer um kohï¿½rente Dienste bereitzustellen. Es erfordert, dass verschiedene Computer gleiche technische Standards verwenden. Arms beschreibt distributed computing in seinem Glossar als computing systems in which services to users are provided by teams of computers collaborating over a network. Mit distributed searching z.B. kï¿½nnte ein Nutzer viele unabhï¿½ngige Sammlungen mit einer einzigen Anfrage durchsuchen, die Resultate vergleichen, die besten auswï¿½hlen und das Material aus den Sammlungen bekommen. Dies erfordert neben den Netzwerk-Standards Methoden zur Identifilation der Sammlungen, einheitliche Formulierungen fï¿½r die Anfragen, etc.

Die meist genutzten Systeme fï¿½r distributed searching sind Suchmaschinen wie Infoseek, Lycos, ALtaVista und Excite. Es sind automatische Systeme zur Indexierung von Material im Internet. Die Kombination von akzeptabler Funktionalitï¿½t mit fast keinen Schranken zur Nutzung machen Web-Suchmaschinen sehr beliebt. Die meisten dieser Programme haben die gleiche Architektur, wenn auch viele Unterschiede in den Details liegen. Eine Ausnahme bildet Yahoo, die ihre Wurzeln in der Klassifikationssystem hat. Die anderen Systeme bestehen aus zwei Hauptteilen: dem web crawler, der einen Index aus materiel im Internet erstellt, und ein retrieval engine, der es dem Internet-User erlaubt den Index zu durchsuchen.

nach oben

Ein Web Crawler ist ein Indexierungsprogramm, das kontinuierlich Hyperlinks verfolgt und diese in einer Liste gefundener Seiten zusammenstellt. Er erstellt einen stetig wachsenden Index von Webseiten, indem er wenige Grundschritte wiederholt. Intern besitzt er eine Liste von URLs, die dem System bekannt sind und ob die dazugehï¿½rigen Seiten schon indexiert wurden. Aus dieser Liste wï¿½hlt er eine noch nicht indexierte Seite aus, sucht sie und leitet sie zur Analyse an ein zentrales Computer-System weiter. Ein automatisches Indexierungs-Programm untersucht die Seite, erstellt eine Indexaufnahme, die dann zu dem Gesamtindex hinzugefï¿½gt wird. Auf der Seite enthaltene Hyperlinks werden aussortiert und fï¿½r spï¿½tere Untersuchung auf die URL-Liste gesetzt. Wenn diese Grundschritte auch sehr einfach erscheinen, stecken dennoch tiefere technische Probleme dahinter. Das grï¿½ï¿½te Problem betrifft dabei das Indexieren selbst. Web Crawler basieren auf automatischer Indexierung um Aufnahmen zu erstellen, die dem Nutzer bereitgestellt werden. Nun existieren aber Millionen von Seiten, erstellt von ebensovielen Menschen, mit verschiedenen Vorstellungen fï¿½r die Strukturierung von Information. Ohne besser strukturierte Seiten oder systematischen Metadaten wird die Qualitï¿½t solcher Indexierungsmethoden nie hoch sein, doch sie sind dennoch ausreichend fï¿½r einfaches Information Retrieval.

Web-Suchprogramme erlauben es dem Nutzer, ihren Index mittels Information Retrieval Methoden zu durchsuchen. Die Indexe sind so organisiert, dass sie ein effizientes und paralleles Suchen von vielen Nutzern erlauben. Da die Index-Aufnahmen von niedriger Qualitï¿½t sind und die User im Allgemeinen untrainiert sind, zeigen die Suchmaschinen jede Aufnahme an, die nur irgendeinen vagen Zusammenhang mit der Anfrage hat. Die Ranking-Algorithmen haben keine bestimmte Information zur Einstufung der Relevanz. Daher kommt es vor, dass Seiten mit geringer Relevanz einen hohen Rang bekommen und umgekehrt. Die Index-Programme haben Schwierigkeiten, Duplikate zu erkennen.

nach oben

Ein interessanter Ansatz zum Page ranking ist das Google search system, das Links zï¿½hlt. Google ist besonders effektiv beim Auffinden von einfï¿½hrendem bzw. ï¿½berblicksmaterial zu einem Thema. Im Panel 11.1 wird dieses Suchsystem genauer betrachtet. Die grundlegende Methode von Google ist danach einfach: Seiten, zu denen Links von vielen anderen Seiten fï¿½hren, werden im Ranking hï¿½her eingestuft als solche mit weniger Links. Links von hoch eingestuften Seiten wird ein grï¿½ï¿½eres Gewicht gegeben als Links von anderen Seiten. Dies wird am Beispiel der Stanford University veranschaulicht.

Viele Bibliotheken haben Online-Kataloge Ihrer Sammlungen, die ï¿½ber das Internet frei zugï¿½nglich sind. Diese Kataloge kann man als Zusammenschluss betrachten. Bibliotheken teilen Aufnahmen, um Kosten zu reduzieren. Die Bibliotheks-Gemeinschft hat das Protokoll Z39.50 entwickelt, das den Austausch von Aufnahmen und das distributed searching unterstï¿½tzt. Z39.50 ist ein Protokoll, das einem Computer (dem Client) erlaubt, auf einem anderen (dem Datenbak-Server) zu suchen und Informationen zu erhalten. Die Hauptanwendung von Z39.50 dient der Kommunikation zwischen Servern. Ein Katalogsystem einer grossen Bilbiothek kann das Protokoll dazu nutzen, in anderen Bibliotheken nach einer Kopie eines Werkes oder einer Katalogaufnahme zu suchen. Obwohl die Institutionen kompatible Versionen von Z39.50 haben, bleiben Unterschiede in Organisation und Reprï¿½sentation bestehen. Dieses Protokoll und seine Funktionen wird in Panel 11.3 genauer beschrieben.

nach oben

Die Entdeckung von Informationen ist mehr als nur eine Suche. Meistens wird eine Kombination aus „browsen“ und systematischer Suche verwendet. „Browsen“ ist immer ein wichtiger Weg, Informationen in einer Bibliothek ausfindig zu machen. Dabei reicht es schon, wenn man ï¿½berprï¿½ft, welche Bï¿½cher zusammen gespeichert sind. Ein mehr systematischer Ansatz ist es mit einem Titel zu beginnen und dann zu den Titeln zu gehen, die damit in Bezug stehen. Generell kann man sagen, dass das verfolgen von Links und Verweisen in digitalen Bibliotheken leichter ist, doch dass in traditionellen Bibliotheken die Qualitï¿½t hï¿½her ist. „Browsen“ ist daher relevanter in digitalen Bibliotheken anzusehen. Distributed searching verkï¿½rpert den gegenwï¿½rtigen Stand der digitalen Bibliotheken. Einerseits hat jede Technik ihre Schwï¿½chen. Es gibt noch keine technischen Standards, das Verstï¿½ndnis fï¿½r die Bedï¿½rfnisse des Users sind in einem Anfangsstadium und es gibt viele organisatorische Schwierigkeiten. Dennoch gibt es andererseits eine riesige Anzahl an Material, das ï¿½ber das Internet zugÃ¤,nglich ist, Web-Suchprogramme sind frei erhï¿½ltlich und Zusammenschlï¿½sse und kommerzielle Dienste weiten sich rasch aus. Wenn man daher Suche und browsen intelligent kombiniert, kann ein motivierter Nutzer jede gesuchte Information ausfindig machen.

nach oben

last update 22.10.2001

Universität des Saarlandes - Fachrichtung Informationswissenschaft

Projekte

Buchbesprechungen

William T. Arms: Digital Libraries

11. Distributed Information Discovery