Diese Website ist seit dem Ende des Studiengangs Informationswissenschaft
im Juni 2014 archiviert und wird nicht mehr aktualisiert.
Bei technischen Fragen: Sascha Beck - s AT saschabeck PUNKT ch
Drucken

Diskussionsbeiträge

Informationswissenschaftlicher Reader

Informationstechnik

Datenbanken

Was ist eine Datenbank

Eine Datenbank ist eine Ansammlung der verschiedensten Daten und Informationen. Sinn und Zweck einer solchen Sammlung ist jedoch nicht die Anhäufung der Daten alleine, es geht vielmehr darum, den Zugriff auf verfügbare Daten zu erleichtern bzw. erst zu ermöglichen. Hierzu ist es notwendig, daß diese Daten organisiert und verwaltet werden. Zur Erleichterung besonders bei großen Datenmengen wurden für die verschiedenen Anwendungsbereiche Datenbankprogramme konzipiert.

1. Der Datensatz
2. Datensatz-Typologie
2.1. Bibliographischer Datensatz
2.2. Statistischer Datensatz (Numerischer Datensatz)
2.3. Lexikalischer Datensatz
2.4. Volltext-Datensatz
3. Datenbank-Typologie
3.1. Faktendatenbanken
3.2. Referenz-Datenbanken (Bibliographische Datenbanken)
3.3. Volltextdatenbanken
4. Dateistrukturen
4.1. Die lineare Liste
4.2. Sequentielle Dateien
4.3. Invertierte Dateien
5. Indexierungs-Typologie
5.1. Wortweise Indexierung (word indexing)
5.2. Mehrwortweise Indexierung (phrase indexing)
5.3. Kombinierte Indexierung
5.4. Numerische Indexierung
5.6. Numerische Klassenbildung
Literatur

1. Der Datensatz

Ein Datensatz ist eine Informationseinheit innerhalb einer Datenbank. Vergleicht man eine Datenbank mit einem Karteikasten, so entspricht ein Datensatz einer Karteikarte. Die Informationen in einem Datensatz sind in der Regel nochmals in sogenannten Feldern strukturiert. Bei einer Adressdatenbank können in einem Datensatz z.B. die Felder Nachname, Vorname, Straße, Hausnummer, Postleitzahl, Ort und Telephonnummer existieren.

Alle Datensätze zusammengefaßt entsprechen einer Datei. Eine Datenbank besteht aus mindestens einer Datei.

2. Datensatz-Typologie

Datenbanken lassen sich aufgrund ihres Inhalts und ihrer Struktur unterscheiden. Nach dem jeweiligen Informationsbedarf richtet sich der Aufbau einer Datensatzstruktur, die für eine ganze Datenbank gilt.

2.1. Bibliographischer Datensatz

Bibliographische Datensätze enthalten lediglich Sekundärinformationen, jedoch nicht die Originalliteratur. Es wird der Inhalt einer Veröffentlichung beschrieben, ähnlich wie in einer gedruckten Bibliographie oder einem Referateorgan.

Dies geschieht durch sogenannte bibliographische Angaben (Autor, Titel, Verlag etc.), Klassifikationen, Schlagworte (Deskriptoren), evtl. eine kurze Inhaltserschließung (Abstract), z.B. von Monographien, Zeitschriftenaufsätzen, Reports, Konferenzbeiträgen, Dissertationen, Patenten.

2.2. Statistischer Datensatz (Numerischer Datensatz)

Statistische Datensätze bestehen aus numerischen Informationen. Ökonomische, ökologische, fiskalische oder demographische Entwicklungen sind in Form von dynamischen Zeitreihen (nach Tagen, Wochen, Monaten oder Jahren gegliederte Tabellen) abgebildet.

2.3. Lexikalischer Datensatz

Ein lexikalischer Datensatz erinnert in seiner Struktur an einen Lexikoneintrag, z.B. aus einem Personen-, Firmen- oder Produktlexikon. Mögliche Datensatzfelder wären bei einer Firmendatenbank z.B. die Firmenadresse, die Zahl der angestellten Arbeitnehmer, der Jahresumsatz etc..

2.4. Volltext-Datensatz

Volltext-Datensätze enthalten Primärinformationen, d.h. neben bibliographischen und inhaltlichen Informationen den vollen Text eines Dokuments.

3. Datenbank-Typologie

Datenbanken lassen sich auf unterschiedliche Weise typologisieren. Die hier vorgenommene Typologie ist eine von mehreren Möglichkeiten. Eine noch feinere Untergliederung wäre auf jeden Fall denkbar.

3.1. Faktendatenbanken

Faktendatenbanken enthalten im Gegensatz zu bibliographischen Datenbanken Primärinformationen. Diese sind direkte, „verdichtete“, „veredelte“ und fachlich geprüfte Informationen, zu deren Nutzung allerdings oft erhebliche Fachkenntnisse erforderlich sind.

Bei diesen Primärinformationen kann es sich z.B. auch um Strukturformeln oder graphische Datstellungen handeln. Hierzu zählen Datenbanken mit statistischen bzw. numerischen, sowie lexikalischen Datensätzen.

3.2. Referenz-Datenbanken (Bibliographische Datenbanken)

Referenzdatenbanken beinhalten immer nur die Sekundärinformation. Auf die Originaldokumente wird hier lediglich verwiesen. Datenbanken mit bibliographischen Datensätzen zählen zu den Referenzdatenbanken.

3.3. Volltextdatenbanken

Volltextdatenbanken enthalten neben wenigen bibliographischen Angaben, den vollen Text eines Dokuments. Sie bestehen aus Volltext-Datensätzen.

4. Dateistrukturen

Der grundlegende systemtechnische Bestandteil einer Datenbank ist eine Datei, die eine definierte Struktur aufweist. Die einfachste Dateistruktur ist die lineare Liste. Weitere für den Aufbau einer Datenbank wichtige Dateistrukturen sind die sequentiell geordnete Datei und die invertierte Datei.

4.1. Die lineare Liste

Eine Datenbank, die aus einer einzigen Datei besteht, nennt man lineare Liste. Eine lineare Liste ist eine völlig ungeordnete Zusammenstellung von Datensätzen.

Ein Vorteil der linearen Listenstruktur ist das problemlose Hinzufügen von Datensätzen am Dateiende, ohne daß die Ordnung der alten Datensätze verändert werden muß.

Der große Nachteil dieser Struktur ergibt sich bei der Informationssuche. Hierbei müssen alle Datensätze vollständig durchsucht werden, um für die Suchanfrage relevante Datensätze bestimmen zu können. Die potentielle Verwendbarkeit einer linearen Liste hängt demnach von der Größe der Datei und der Zugriffsgeschwindigkeit ab.

4.2. Sequentielle Dateien

Dateien, die nach einem bestimmten Suchkriterium geordnet sind, nennt man sequentielle Dateien. Hier wird bei der Informationssuche nicht mehr der gesamte Datensatz herangezogen, sondern nur ein ganz bestimmter Teil, sogenannte Felder. So kann beispielsweise bei einer Literaturdatenbank der Autor eines Werkes ein eigenes Feld erhalten. Wird die gesamte Datenbank nun nach dem Alphabet der Nachnamen der Autoren geordnet, so wird das Autorenfeld zum Schlüsselfeld. Sucht man nun das Werk eines ganz bestimmten Autors, so läßt sich die Suche auf das Autorenfeld begrenzen. Dies hat zur Folge, daß bei der Informationssuche weniger Zeit verbraucht wird und es zu einer genaueren Trefferzahl kommt.

Der große Nachteil der sequentiellen Struktur ist der, daß eine schnelle Suche nur über das Schlüsselfeld, in diesem Fall die Autorennamen, erfolgen kann. Lautet die Suchanfrage anders und es wird zum Beispiel nach einem bestimmten Titel eines Werkes gesucht, dann muß wieder nach dem Prinzip der linearen Liste die gesamte Datei nach den relevanten Datensätzen durchsucht werden.

Ein weiterer Nachteil einer sequentiell geordneten Datei macht sich beim Einfügen eines neuen Dokuments bemerkbar. An der Stelle, an der das Dokument eingefügt wird, muß zunächst einmal Platz geschafft werden, wofür wieder andere Dokumente verschoben werden müssen. Dieser Vorgang nimmt wiederum Rechenzeit in Anspruch.

4.3. Invertierte Dateien

Dateien, die mit Registern bzw. Indizes arbeiten nennt man invertierte Dateien. „Werden beim Aufbau einer Datenbank Register benutzt, dann werden mindestens zwei Dateien benötigt. In der ersten Datei sind die Datensätze abgelegt, die die eigentliche Information enthalten, und in der zweiten Datei ist das Register abgelegt, das als Suchhilfe benutzt wird. Ein Datensatz der Registerdatei ist demnach ein Registereintrag, der aus einem Suchkriterium und aus einem Verweis auf den Originaldatensatz aus der ersten Datei besteht. Die Verbindung zwischen der ersten und der zweiten Datei wird durch eine Kennziffer, den Datensatzverweis, hergestellt. Um die Informationssuche so schnell wie möglich durchführen zu können, sind die Datensätze der Registerdatei nach dem entsprechenden Suchkriterium geordnet, während die Datensätze der Originaldatensatzdatei nach den Datensatzverweisen geordnet sind.“ (1) Von einer Originaldatensatzdatei lassen sich nicht nur eine, sondern prinzipiell beliebig viele Registerdateien ableiten. „Die Verwendung von Registerdateien hat den Vorteil, daß die Datensätze in der Originaldatensatzdatei unabhängig von der Zahl und der Art der Register lediglich nach einer beim Datenbankaufbau vergebenen Datensatzkennziffer geordnet sein müssen, während die Registerdateien je nach Suchkriterien ganz unterschiedlich geordnet sein können.“ (2) Dies beschleunigt den Zugriff auf die Originaldatensätze erheblich, weshalb für das Information-Retrieval invertierte Dateisysteme am geeignetsten sind.

5. Indexierungs-Typologie

Bei einer Datenbank gibt es verschiedene Möglichkeiten der Registerbildung. Meistens wird der Inhalt der wichtigsten Datenbankfelder in jeweils ein Register (Index) übertragen (Indexierung). Außerdem wird geregelt wie der Inhalt eines Datenbankfeldes indiziert werden soll. Hierbei wird zwischen verschiedenen Indexierungsarten unterschieden.

5.1. Wortweise Indexierung (word indexing)

Mit Ausnahme von Stopwörtern (z.B. und, mit, aber, oder, ein…) wird jedes einzelne Wort eines Datensatzfeldes in alphabetischer Reihenfolge in das Register eingetragen.

5.2. Mehrwortweise Indexierung (phrase indexing)

Hier besteht der Index nur aus Wortgruppen, d.h. mindestens zwei Wörter, die in einem Sinnzusammenhang stehen. Oft wird hier ein Eintrag eines Datensatzfeldes (z.B. der gesammte Buchtitel im Titelfeld) als ein Eintrag in den Index eingetragen. Dies muß bei der Informationssuche bedacht werden. Es funktioniert nämlich nur die Suche nach Wortgruppen und nicht nach Teilbegriffen aus der Wortgruppe.

5.3. Kombinierte Indexierung

Bei der kombinierten Indexierung werden bestimmte Datensatzfelder sowohl wort- wie auch mehrwortweise indexiert.

5.4. Numerische Indexierung

Datensatzfelder, die ausschließlich numerische Daten enthalten, werden numerisch indexiert. Ein solches Register ist numerisch aufsteigend sortiert, was bedeutet das die Ziffer mit dem kleinsten numerischen Wert am Registeranfang und die Ziffer mit dem größten numerischen Wert am Registerende steht.

5.6. Numerische Klassenbildung

Bei der numerischen Klassenbildung werden Werte klassenweise indexiert. Dies bedeutet, daß die Zahlen zu den beiden linken Ziffern hin abgerundet werden. Der Wert 1.596 wird mit 1500 indexiert. Die Suche mit dem Wert 1500 findet alle Dokumente mit den Wertangaben 1500 bis 1599.

1 Keitz, Saideh von: Modernes Online Retrieval : der Weg zu den Wissensspeichern der Welt am Beispiel der DIALOG-Datenbanken. Weinheim [u.a.] : VCH S.34

2 Keitz, Saideh von: Modernes Online Retrieval : der Weg zu den Wissensspeichern der Welt am Beispiel der DIALOG-Datenbanken. Weinheim [u.a.] : VCH S.35

Literatur:

Henzler, Rolf: Information und Dokumentation : Sammeln, Speichern und Wiedergewinnen von Fachinformationen in Datenbanken. Berlin [u.a.] : Springer, 1992. S.81-85

Keitz, Saideh von: Modernes Online Retrieval : der Weg zu den Wissensspeichern der Welt am Beispiel der DIALOG-Datenbanken. Weinheim [u.a.] : VCH, 1993. S.31-50

Salton, Gerard: Information Retrieval – Grundlegendes für Informationswissenschaftler. Hamburg [u.a.] : McGraw-Hill, 1987. S.13-23

Staud, Josef L.: Online Datenbanken – Aufbau, Struktur, Abfragen. Bonn [u.a.] : Addison-Wesley, 1991. S.217-221