Projekte
Buchbesprechungen
William T. Arms: Digital Libraries
11. Distributed Information Discovery
|
|
|
|
|
|
|
|
|
Distributed computing ist der �berbegriff f�r die technischen Aspekte bei der Koordinierung separater Computer um koh�rente Dienste bereitzustellen. Es erfordert, dass verschiedene Computer gleiche technische Standards verwenden. Arms beschreibt distributed computing in seinem Glossar als computing systems in which services to users are provided by teams of computers collaborating over a network. Mit distributed searching z.B. k�nnte ein Nutzer viele unabh�ngige Sammlungen mit einer einzigen Anfrage durchsuchen, die Resultate vergleichen, die besten ausw�hlen und das Material aus den Sammlungen bekommen. Dies erfordert neben den Netzwerk-Standards Methoden zur Identifilation der Sammlungen, einheitliche Formulierungen f�r die Anfragen, etc.
Die meist genutzten Systeme f�r distributed searching sind Suchmaschinen wie Infoseek, Lycos, ALtaVista und Excite. Es sind automatische Systeme zur Indexierung von Material im Internet. Die Kombination von akzeptabler Funktionalit�t mit fast keinen Schranken zur Nutzung machen Web-Suchmaschinen sehr beliebt. Die meisten dieser Programme haben die gleiche Architektur, wenn auch viele Unterschiede in den Details liegen. Eine Ausnahme bildet Yahoo, die ihre Wurzeln in der Klassifikationssystem hat. Die anderen Systeme bestehen aus zwei Hauptteilen: dem web crawler, der einen Index aus materiel im Internet erstellt, und ein retrieval engine, der es dem Internet-User erlaubt den Index zu durchsuchen.
nach oben
Ein Web Crawler ist ein Indexierungsprogramm, das kontinuierlich Hyperlinks verfolgt und diese in einer Liste gefundener Seiten zusammenstellt. Er erstellt einen stetig wachsenden Index von Webseiten, indem er wenige Grundschritte wiederholt. Intern besitzt er eine Liste von URLs, die dem System bekannt sind und ob die dazugeh�rigen Seiten schon indexiert wurden. Aus dieser Liste w�hlt er eine noch nicht indexierte Seite aus, sucht sie und leitet sie zur Analyse an ein zentrales Computer-System weiter. Ein automatisches Indexierungs-Programm untersucht die Seite, erstellt eine Indexaufnahme, die dann zu dem Gesamtindex hinzugef�gt wird. Auf der Seite enthaltene Hyperlinks werden aussortiert und f�r sp�tere Untersuchung auf die URL-Liste gesetzt. Wenn diese Grundschritte auch sehr einfach erscheinen, stecken dennoch tiefere technische Probleme dahinter. Das gr��te Problem betrifft dabei das Indexieren selbst. Web Crawler basieren auf automatischer Indexierung um Aufnahmen zu erstellen, die dem Nutzer bereitgestellt werden. Nun existieren aber Millionen von Seiten, erstellt von ebensovielen Menschen, mit verschiedenen Vorstellungen f�r die Strukturierung von Information. Ohne besser strukturierte Seiten oder systematischen Metadaten wird die Qualit�t solcher Indexierungsmethoden nie hoch sein, doch sie sind dennoch ausreichend f�r einfaches Information Retrieval.
Web-Suchprogramme erlauben es dem Nutzer, ihren Index mittels Information Retrieval Methoden zu durchsuchen. Die Indexe sind so organisiert, dass sie ein effizientes und paralleles Suchen von vielen Nutzern erlauben. Da die Index-Aufnahmen von niedriger Qualit�t sind und die User im Allgemeinen untrainiert sind, zeigen die Suchmaschinen jede Aufnahme an, die nur irgendeinen vagen Zusammenhang mit der Anfrage hat. Die Ranking-Algorithmen haben keine bestimmte Information zur Einstufung der Relevanz. Daher kommt es vor, dass Seiten mit geringer Relevanz einen hohen Rang bekommen und umgekehrt. Die Index-Programme haben Schwierigkeiten, Duplikate zu erkennen.
nach oben
Ein interessanter Ansatz zum Page ranking ist das Google search system, das Links z�hlt. Google ist besonders effektiv beim Auffinden von einf�hrendem bzw. �berblicksmaterial zu einem Thema. Im Panel 11.1 wird dieses Suchsystem genauer betrachtet. Die grundlegende Methode von Google ist danach einfach: Seiten, zu denen Links von vielen anderen Seiten f�hren, werden im Ranking h�her eingestuft als solche mit weniger Links. Links von hoch eingestuften Seiten wird ein gr��eres Gewicht gegeben als Links von anderen Seiten. Dies wird am Beispiel der Stanford University veranschaulicht.
Viele Bibliotheken haben Online-Kataloge Ihrer Sammlungen, die �ber das Internet frei zug�nglich sind. Diese Kataloge kann man als Zusammenschluss betrachten. Bibliotheken teilen Aufnahmen, um Kosten zu reduzieren. Die Bibliotheks-Gemeinschft hat das Protokoll Z39.50 entwickelt, das den Austausch von Aufnahmen und das distributed searching unterst�tzt. Z39.50 ist ein Protokoll, das einem Computer (dem Client) erlaubt, auf einem anderen (dem Datenbak-Server) zu suchen und Informationen zu erhalten. Die Hauptanwendung von Z39.50 dient der Kommunikation zwischen Servern. Ein Katalogsystem einer grossen Bilbiothek kann das Protokoll dazu nutzen, in anderen Bibliotheken nach einer Kopie eines Werkes oder einer Katalogaufnahme zu suchen. Obwohl die Institutionen kompatible Versionen von Z39.50 haben, bleiben Unterschiede in Organisation und Repr�sentation bestehen. Dieses Protokoll und seine Funktionen wird in Panel 11.3 genauer beschrieben.
nach oben
Die Entdeckung von Informationen ist mehr als nur eine Suche. Meistens wird eine Kombination aus „browsen“ und systematischer Suche verwendet. „Browsen“ ist immer ein wichtiger Weg, Informationen in einer Bibliothek ausfindig zu machen. Dabei reicht es schon, wenn man �berpr�ft, welche B�cher zusammen gespeichert sind. Ein mehr systematischer Ansatz ist es mit einem Titel zu beginnen und dann zu den Titeln zu gehen, die damit in Bezug stehen. Generell kann man sagen, dass das verfolgen von Links und Verweisen in digitalen Bibliotheken leichter ist, doch dass in traditionellen Bibliotheken die Qualit�t h�her ist. „Browsen“ ist daher relevanter in digitalen Bibliotheken anzusehen. Distributed searching verk�rpert den gegenw�rtigen Stand der digitalen Bibliotheken. Einerseits hat jede Technik ihre Schw�chen. Es gibt noch keine technischen Standards, das Verst�ndnis f�r die Bed�rfnisse des Users sind in einem Anfangsstadium und es gibt viele organisatorische Schwierigkeiten. Dennoch gibt es andererseits eine riesige Anzahl an Material, das �ber das Internet zugä,nglich ist, Web-Suchprogramme sind frei erh�ltlich und Zusammenschl�sse und kommerzielle Dienste weiten sich rasch aus. Wenn man daher Suche und browsen intelligent kombiniert, kann ein motivierter Nutzer jede gesuchte Information ausfindig machen.
nach oben