4. Innovation and Research

Panel 4.1: The Coalition for Network Information	Organisation
Panel 4.2: The Digital Libraries Initiative	Archiving and Preservation
Object Models
User Interfaces and Human-Computer Interaction	Conversion
Information Discovery	Interoperability
Descriptive Metadata: Cataloging and Indexing	Scale
Natural-Language Processing	Reliability and Robustness
Non-textual Material	Economic, social and legal issues
Managing and Preserving Collections	Research around the World

Innovation durch Bibliotheken und Publisher ist bei weitem nicht systematisch. Meistens fehlt es an Geldern fï¿½r Forschung und Entwicklung. Publisher steuern nicht viel zur Forschung bei, obwohl sie dem Markt viele Ideen zufï¿½hren. Groï¿½e Verlage haben die Mittel, um grï¿½ï¿½ere Investitionen in neue Ideen zu stecken. doch Projekte werden hier als Geschï¿½ftsentwicklung betrachtet, nicht als Forschung. Der Trend, wissenschaftliche Zeitschriften online zugï¿½nglich zu machen, kann nicht als Forschung bezeichnet werden. Bibliotheken neigen dazu, innovativer zu sein, obwohl sie oft schlecht organisiert erscheinen. Fast das gesamte Budget wird in gegenwï¿½rtige Aktivitï¿½ten gesteckt. Innovation wird hï¿½ufig als ein Extra angesehen, nicht als der Schlï¿½ssel fï¿½r die Zukunft. Groï¿½e Bibliotheken verfï¿½gen ï¿½ber groï¿½e Budgets, die jedoch so unflexibel sind, dass Forschung und Innovation dï¿½nn bestetzt sind.

Das Library of Congess National Library Program ist wahrscheinlich das wichtigste Bibliothek-Projekt in den USA. Es ist ein Beispiel dafï¿½r, wie sich eine Bibliothek trotz ihrer traditionellen Rolle vergrï¿½ï¿½ern kann. Die Sammlungen werden mit neuen Materialien verwaltet und stellen grï¿½ï¿½eren Zugang bereit. Und doch stellt die die Library of Congress wenig finanzielle Mittel bereit. Die meisten Gelder kommen aus privaten Foundations und anderen Spenden, die Mitarbeiter sind in Kurzzeitvertrï¿½gen gebunden.
Bibliotheken verï¿½ndern sich auf breiter Front, insbesondere an Universitï¿½ten. Viele Projekte haben ihren Ursprung in Universtitï¿½tsbibliotheken. Einige konvertieren Materialien in digitale Formate, andere arbeiten mit Publizisten zusammen, um Materialien online zugï¿½nglich zu machen. Die meisten Projekte werden durch Fonds aus Foundations, Industrie und der Regierung ermï¿½glicht.

nach oben

Bis in die 90er waren digitale Bibliotheken nicht ausschlieï¿½lich Thema der Forschung der Regierung. 1992 grï¿½ndete DARPA das Computer Science Technical Reports Projekt, das von der Coporation for National Research Initiatives koordoniert wurde und fï¿½nf Bibliotehken einbezog: Carnegie Mellon, Cornell, MIT, Stanford und Berkeley. Die Initiative, die das Gebiet digitale Bibliotheken als Forschungsfeld etablierte, wurde 1994 durch NSF, DARPA und die National Aeronautic and Space Agency geschaffen: die Digital Libraries Iniative. So wurde internationale Aufmerksamkeit auf das Forschungsgebiet der digitalen Bibliotheken gezogen. In Panel 4.2 vertieft Arms die einzelnen Projekte an den Universitï¿½ten.

Mit Information Discovery bezeichnet der Autor das generelle Problem des Auffindens von Information, wobei in digitalen Bibliotheken Information Retrieval und Browsing vermischt werden. Die meisten dieser Information Discovery-Systeme nutzen Katalog- oder Indexierungsmetadaten, die von Experten wie Bibliotheksindexierern oder Abstract- und Indexingdienste erstellt werden. Manuelles Indexieren ist jedoch zu langsam und teuer. Die groï¿½en Mengen an Material, das sich stetig verï¿½ndert, erfordert andere Maï¿½nahmen. Einige Metadaten werden automatisch generiert, andere durch ausgebildete Spezialisten, wiederum andere durch weniger erfahrenen Leute oder einfach durch Bitten des Erstellers der digitalen Information, die Metadaten mitzuliefern. Diese kï¿½nnen dan in ein automatisches Indexierungssystem eingegeben werden. Die Forschung fï¿½r automatisches Indexieren nutzt Computerprogramme um digitale Objekte zu scannen, die Information herauszuziehen und einen durchsuchbaren Index zu genenerieren. Suchmaschinen wie Alta Vista, Lycos und Infoseek sind Produkte dieser Forschungsarbeit.

nach oben

Textsuche hï¿½ngt davon ab, ob das Suchprogramm Sprachstrukturen versteht. Relevante Forschung in der Computerlinguistik beinhaltet dabei das automatische parsing, um grammatische Strukturen zu identifizieren, oder arbeiten an der Morphologie, um Wortvarianten zu erfassen. Die meisten Methoden der Informationssuche nutzen Text, doch es werden Fortschritte erziehlt, um spezifische Inhalte in anderen Formaten zu erfassen. Die Spracherkennung wird gerade erst fï¿½r die Indexierung von Radioprogrammen und Videos nutzbar. Derzeit wird auch intensiv an der Bilderkennung zur Erfassung von Bildmerkmalen geforscht.

Die Langzeitaufbewahrung von digitalem Material ist zeit kurzem ein Hauptforschungsfeld auf dem Gebiet der Verwaltung von Sammlungen. Die Speichermedien fï¿½r digitale Daten sind – im Vergleich zu physischen Material wie Bï¿½cher – eher kurzlebig. Die Daten mï¿½ssen periodisch in andere Medien kopiert werden. Erschwerend kommt hinzu, daï¿½ die Formate, in denen Informationen gespeichert sind, hï¿½ufig durch neuere Versionen ersetzt werden. Text- und Bildverarbeitungsprogramme, die noch vor zehn Jahren allgemein gebrï¿½uchlich waren, sind heute schwer zu verwenden und der Nutzer hat Probleme, archiviertes Material anzuzeigen.

Eine weitere Herausforderung fï¿½r digitale Bibliotheken ist die Interoperabilitï¿½t – wie bringt man die Vielfalt der Computersysteme dazu, zusammenzuarbeiten? Weltweit sind viele unabhï¿½ngig verwaltete digitale Bibliotheken geschaffen worden. Diese haben verschiedene Verwaltungsvorschriften und Computersysteme. Interoperabilitï¿½t und Standardisierung sind eng miteinander verbunden. Der Prozeï¿½ der Schaffung von internationalen Standards ist jedoch fï¿½r die kurzlebige digitale Welt zu langsam. Fï¿½r Interoperabilitï¿½t gibt es verschiedene Aspekte.

User interfaces – Der Nutzer soll sich unahï¿½ngig von Computersystem und der Handhabung von Sammlungen Materialien aus digitalen Bibliotheken beschaffen kï¿½nnen.

Naming and identification – Arms zufolge gibt es keine ausreichenden Wege, um Materialien in digitalen Bibliotheken zu identifizieren. Es gibt zwar URLs zur Anzeige der Location, doch es werden Identifier fï¿½r das darin enthaltene Material benï¿½tigt. Location unabhï¿½ngige Identifier werden auch Uniform Resource Names (URN) genannt.

Formats – Es werden Materialien in allen bekannten digitalen Formaten gespeichert. Durch das Internet haben sich Formate wie HTML fï¿½r Text, GIF und JPEG fï¿½r Bilder dals Standard durchgesetzt. Dahinter gibt es jedoch wenig ï¿½bereinstimmungen in Bezug auf die Interoperabilitï¿½t.

Metadata – Metadaten werden hï¿½ufig in drei Kategorien aufgeteilt:
Descriptive Metadata, fï¿½r bibliographische Zwecke und zur Suche und Retrieval.
Structural Metadata, das verschiedene Objekte miteineander verbindet.
Administrative Metadata, zur Verwaltung der Sammlungen und zur Kontrolle des Zugriffs.
Da Metadaten zwischen Computern ausgetauscht werden, wird eine ï¿½bereinstimmung bei der Benennung der Metadatenfelder und der Formate, mit denen diese generiert werden benï¿½tigt, zumindest aber eine gewisse semantische ï¿½bereinstimmung.

Distributed Searching – Der Nutzer will hï¿½ufig Informationen finden, die auf viele Sammlungen verteilt ist, was jedoch zu Problemen fï¿½hren kann. Denn obwohl die Sammlungen etwa gleich organisiert sind, variieren die Metadaten oder die verfï¿½gbaren Suchmï¿½glichkeiten. Bisher wollte man erreichen, dass alle Sammlungen einen Standard fï¿½r Metadaten befolgen und die gleichen Suchprotokolle. Heute hï¿½lt man dies in der Forschung fï¿½r unrealistisch.

Network Protocols – Auch auf der Netzwerk-Ebene ist Interoperabilitï¿½t erforderlich, da die Internetprotokolle Schwï¿½chen bei der ï¿½bertragung von groï¿½en Datenmengen zeigen.

nach oben

Retrieval Protocols – Neben dem einfachen Internetprotokoll HTTP gibt es noch Komplexere. Ideal wï¿½re ein Protokoll, das die Authentifikation der beiden „kommunizierenden“ Computer unterstï¿½tzt, erweiterte Suchmï¿½glichkeiten, um gegenseitig Informationen zu finden, mehrere Suchmï¿½glichkeiten, Methoden zur Speicherung und Modifizierung von Zwischenergebnissen, sowie eine Oberflï¿½che fï¿½r verschiedene Formate und Vorgï¿½nge.

Authentication and Security – Eines der grï¿½ï¿½ten Probleme in puncto Interoperabilbitï¿½t zwischen digitalen Bibliotheken stellt die Authentizitï¿½t bezï¿½glich der Nutzer, der Computer und des Materials in Bibliotheken dar.

Semantic Interoperability – Computer benï¿½tigen einheitliche semantische Interpretationen der ausgetauschten Daten und Informationen.

Interoperabilitï¿½t ist Arms zufolge leicht zu beschreiben, doch schwer erreichbar. Wenn neue Konzepte mit Verbesserungen entwickelt werden, sind sie schwer einzufï¿½hren. Neue Methoden sollten funktionell sein und dennoch nicht zu teuer sein.

Digitale Bibliotheken hï¿½ngen von komplexen sozialen ï¿½konomischen und gesetzlichen Rahmenbedingungen ab. Die gesetzlichen Bereiche gehen von national bis international und beinhalten Copyright, Kommunikation, Moral oder nationale Sicherheit. Die sozialen Komponenten reichen von Autorenschaft, Eigentum, Authenizitï¿½t oder Integritï¿½t.
Bibliotheken und Publizisten wollen den Zugriff zu ihrem Material kontrollieren. Diesen Vorgang kann man als access management bezeichnen, da der Bereich „Zugriff“ nicht nur Copyrightkontrolle oder Verdienst beinhaltet. Viele Methoden des Access Management beinhalten auch Kodierung. Dies ist ein komplexes Feld, indem Technologie, Gesetze und allgemeine Grundsï¿½tze eng miteinander verknï¿½pft sind.

Digitale Bibliotheken und die Forschung auf diesem Gebiet sind ein weltweites Phï¿½nomen. Artikel ï¿½ber Forschung zu digitalen Bibliotheken, die monatlich im D-Lib Magazine verï¿½ffentlicht werden, zeigen die Internationalitï¿½t dieses Feldes.

nach oben

last update 18.12.2001

Universität des Saarlandes - Fachrichtung Informationswissenschaft

Projekte

Buchbesprechungen

William T. Arms: Digital Libraries

4. Innovation and Research