Was ist eine Datenbank
Eine Datenbank ist eine Ansammlung der verschiedensten Daten und Informationen.
Sinn und Zweck einer solchen Sammlung ist jedoch nicht die Anhäufung
der Daten alleine, es geht vielmehr darum, den Zugriff auf verfügbare
Daten zu erleichtern bzw. erst zu ermöglichen. Hierzu ist es notwendig,
daß diese Daten organisiert und verwaltet werden. Zur Erleichterung
besonders bei großen Datenmengen wurden für die verschiedenen
Anwendungsbereiche Datenbankprogramme konzipiert.
1. Der Datensatz
2. Datensatz-Typologie
2.1. Bibliographischer Datensatz
2.2. Statistischer Datensatz (Numerischer Datensatz)
2.3. Lexikalischer Datensatz
2.4. Volltext-Datensatz
3. Datenbank-Typologie
3.1. Faktendatenbanken
3.2. Referenz-Datenbanken (Bibliographische Datenbanken)
3.3. Volltextdatenbanken
4. Dateistrukturen
4.1. Die lineare Liste
4.2. Sequentielle Dateien
4.3. Invertierte Dateien
5. Indexierungs-Typologie
5.1. Wortweise Indexierung (word indexing)
5.2. Mehrwortweise Indexierung (phrase indexing)
5.3. Kombinierte Indexierung
5.4. Numerische Indexierung
5.6. Numerische Klassenbildung
Literatur
1. Der Datensatz
Ein Datensatz ist eine Informationseinheit innerhalb einer Datenbank.
Vergleicht man eine Datenbank mit einem Karteikasten, so entspricht ein
Datensatz einer Karteikarte. Die Informationen in einem Datensatz sind
in der Regel nochmals in sogenannten Feldern strukturiert. Bei einer
Adressdatenbank können in einem Datensatz z.B. die Felder Nachname,
Vorname, Straße, Hausnummer, Postleitzahl, Ort und Telephonnummer
existieren.
Alle Datensätze zusammengefaßt entsprechen einer Datei. Eine
Datenbank besteht aus mindestens einer Datei.
2. Datensatz-Typologie
Datenbanken lassen sich aufgrund ihres Inhalts und ihrer Struktur unterscheiden.
Nach dem jeweiligen Informationsbedarf richtet sich der Aufbau einer Datensatzstruktur,
die für eine ganze Datenbank gilt.
2.1. Bibliographischer Datensatz
Bibliographische Datensätze enthalten lediglich Sekundärinformationen,
jedoch nicht die Originalliteratur. Es wird der Inhalt einer Veröffentlichung
beschrieben, ähnlich wie in einer gedruckten Bibliographie oder einem
Referateorgan.
Dies geschieht durch sogenannte bibliographische Angaben (Autor, Titel,
Verlag etc.), Klassifikationen, Schlagworte (Deskriptoren), evtl. eine
kurze Inhaltserschließung (Abstract), z.B. von Monographien, Zeitschriftenaufsätzen,
Reports, Konferenzbeiträgen, Dissertationen, Patenten.
2.2. Statistischer Datensatz (Numerischer Datensatz)
Statistische Datensätze bestehen aus numerischen Informationen.
Ökonomische, ökologische, fiskalische oder demographische Entwicklungen
sind in Form von dynamischen Zeitreihen (nach Tagen, Wochen, Monaten oder
Jahren gegliederte Tabellen) abgebildet.
2.3. Lexikalischer Datensatz
Ein lexikalischer Datensatz erinnert in seiner Struktur an einen Lexikoneintrag,
z.B. aus einem Personen-, Firmen- oder Produktlexikon. Mögliche Datensatzfelder
wären bei einer Firmendatenbank z.B. die Firmenadresse, die Zahl der
angestellten Arbeitnehmer, der Jahresumsatz etc..
2.4. Volltext-Datensatz
Volltext-Datensätze enthalten Primärinformationen, d.h. neben
bibliographischen und inhaltlichen Informationen den vollen Text eines
Dokuments.
3. Datenbank-Typologie
Datenbanken lassen sich auf unterschiedliche Weise typologisieren.
Die hier vorgenommene Typologie ist eine von mehreren Möglichkeiten.
Eine noch feinere Untergliederung wäre auf jeden Fall denkbar.
3.1. Faktendatenbanken
Faktendatenbanken enthalten im Gegensatz zu bibliographischen Datenbanken
Primärinformationen. Diese sind direkte, „verdichtete“, „veredelte“
und fachlich geprüfte Informationen, zu deren Nutzung allerdings oft
erhebliche Fachkenntnisse erforderlich sind.
Bei diesen Primärinformationen kann es sich z.B. auch um Strukturformeln
oder graphische Datstellungen handeln. Hierzu zählen Datenbanken mit
statistischen bzw. numerischen, sowie lexikalischen Datensätzen.
3.2. Referenz-Datenbanken (Bibliographische Datenbanken)
Referenzdatenbanken beinhalten immer nur die Sekundärinformation.
Auf die Originaldokumente wird hier lediglich verwiesen. Datenbanken mit
bibliographischen Datensätzen zählen zu den Referenzdatenbanken.
3.3. Volltextdatenbanken
Volltextdatenbanken enthalten neben wenigen bibliographischen Angaben,
den vollen Text eines Dokuments. Sie bestehen aus Volltext-Datensätzen.
4. Dateistrukturen
Der grundlegende systemtechnische Bestandteil einer Datenbank ist eine
Datei, die eine definierte Struktur aufweist. Die einfachste Dateistruktur
ist die lineare Liste. Weitere für den Aufbau einer Datenbank wichtige
Dateistrukturen sind die sequentiell geordnete Datei und die invertierte
Datei.
4.1. Die lineare Liste
Eine Datenbank, die aus einer einzigen Datei besteht, nennt man lineare
Liste. Eine lineare Liste ist eine völlig ungeordnete Zusammenstellung
von Datensätzen.
Ein Vorteil der linearen Listenstruktur ist das problemlose Hinzufügen
von Datensätzen am Dateiende, ohne daß die Ordnung der alten
Datensätze verändert werden muß.
Der große Nachteil dieser Struktur ergibt sich bei der Informationssuche.
Hierbei müssen alle Datensätze vollständig durchsucht werden,
um für die Suchanfrage relevante Datensätze bestimmen zu können.
Die potentielle Verwendbarkeit einer linearen Liste hängt demnach
von der Größe der Datei und der Zugriffsgeschwindigkeit ab.
4.2. Sequentielle Dateien
Dateien, die nach einem bestimmten Suchkriterium geordnet sind, nennt
man sequentielle Dateien. Hier wird bei der Informationssuche nicht mehr
der gesamte Datensatz herangezogen, sondern nur ein ganz bestimmter Teil,
sogenannte Felder. So kann beispielsweise bei einer Literaturdatenbank
der Autor eines Werkes ein eigenes Feld erhalten. Wird die gesamte Datenbank
nun nach dem Alphabet der Nachnamen der Autoren geordnet, so wird das Autorenfeld
zum Schlüsselfeld. Sucht man nun das Werk eines ganz bestimmten Autors,
so läßt sich die Suche auf das Autorenfeld begrenzen. Dies hat
zur Folge, daß bei der Informationssuche weniger Zeit verbraucht
wird und es zu einer genaueren Trefferzahl kommt.
Der große Nachteil der sequentiellen Struktur ist der, daß
eine schnelle Suche nur über das Schlüsselfeld, in diesem Fall
die Autorennamen, erfolgen kann. Lautet die Suchanfrage anders und es wird
zum Beispiel nach einem bestimmten Titel eines Werkes gesucht, dann muß
wieder nach dem Prinzip der linearen Liste die gesamte Datei nach den relevanten
Datensätzen durchsucht werden.
Ein weiterer Nachteil einer sequentiell geordneten Datei macht sich
beim Einfügen eines neuen Dokuments bemerkbar. An der Stelle, an der
das Dokument eingefügt wird, muß zunächst einmal Platz
geschafft werden, wofür wieder andere Dokumente verschoben werden
müssen. Dieser Vorgang nimmt wiederum Rechenzeit in Anspruch.
4.3. Invertierte Dateien
Dateien, die mit Registern bzw. Indizes arbeiten nennt man invertierte
Dateien. „Werden beim Aufbau einer Datenbank Register benutzt, dann werden
mindestens zwei Dateien benötigt. In der ersten Datei sind die Datensätze
abgelegt, die die eigentliche Information enthalten, und in der zweiten
Datei ist das Register abgelegt, das als Suchhilfe benutzt wird. Ein Datensatz
der Registerdatei ist demnach ein Registereintrag, der aus einem Suchkriterium
und aus einem Verweis auf den Originaldatensatz aus der ersten Datei besteht.
Die Verbindung zwischen der ersten und der zweiten Datei wird durch eine
Kennziffer, den Datensatzverweis, hergestellt. Um die Informationssuche
so schnell wie möglich durchführen zu können, sind die Datensätze
der Registerdatei nach dem entsprechenden Suchkriterium geordnet, während
die Datensätze der Originaldatensatzdatei nach den Datensatzverweisen
geordnet sind.“ (1) Von einer Originaldatensatzdatei lassen
sich nicht nur eine, sondern prinzipiell beliebig viele Registerdateien
ableiten. „Die Verwendung von Registerdateien hat den Vorteil, daß
die Datensätze in der Originaldatensatzdatei unabhängig von der
Zahl und der Art der Register lediglich nach einer beim Datenbankaufbau
vergebenen Datensatzkennziffer geordnet sein müssen, während
die Registerdateien je nach Suchkriterien ganz unterschiedlich geordnet
sein können.“ (2) Dies beschleunigt den Zugriff auf
die Originaldatensätze erheblich, weshalb für das Information-Retrieval
invertierte Dateisysteme am geeignetsten sind.
5. Indexierungs-Typologie
Bei einer Datenbank gibt es verschiedene Möglichkeiten der Registerbildung.
Meistens wird der Inhalt der wichtigsten Datenbankfelder in jeweils ein
Register (Index) übertragen (Indexierung). Außerdem wird geregelt
wie der Inhalt eines Datenbankfeldes indiziert werden soll. Hierbei wird
zwischen verschiedenen Indexierungsarten unterschieden.
5.1. Wortweise Indexierung (word indexing)
Mit Ausnahme von Stopwörtern (z.B. und, mit, aber, oder, ein…)
wird jedes einzelne Wort eines Datensatzfeldes in alphabetischer Reihenfolge
in das Register eingetragen.
5.2. Mehrwortweise Indexierung (phrase indexing)
Hier besteht der Index nur aus Wortgruppen, d.h. mindestens zwei Wörter,
die in einem Sinnzusammenhang stehen. Oft wird hier ein Eintrag eines Datensatzfeldes
(z.B. der gesammte Buchtitel im Titelfeld) als ein Eintrag in den Index
eingetragen. Dies muß bei der Informationssuche bedacht werden. Es
funktioniert nämlich nur die Suche nach Wortgruppen und nicht nach
Teilbegriffen aus der Wortgruppe.
5.3. Kombinierte Indexierung
Bei der kombinierten Indexierung werden bestimmte Datensatzfelder sowohl
wort- wie auch mehrwortweise indexiert.
5.4. Numerische Indexierung
Datensatzfelder, die ausschließlich numerische Daten enthalten,
werden numerisch indexiert. Ein solches Register ist numerisch aufsteigend
sortiert, was bedeutet das die Ziffer mit dem kleinsten numerischen Wert
am Registeranfang und die Ziffer mit dem größten numerischen
Wert am Registerende steht.
5.6. Numerische Klassenbildung
Bei der numerischen Klassenbildung werden Werte klassenweise indexiert.
Dies bedeutet, daß die Zahlen zu den beiden linken Ziffern hin abgerundet
werden. Der Wert 1.596 wird mit 1500 indexiert. Die Suche mit dem Wert
1500 findet alle Dokumente mit den Wertangaben 1500 bis 1599.
1 Keitz, Saideh von: Modernes Online Retrieval : der
Weg zu den Wissensspeichern der Welt am Beispiel der DIALOG-Datenbanken.
Weinheim [u.a.] : VCH S.34
2 Keitz, Saideh von: Modernes Online Retrieval : der
Weg zu den Wissensspeichern der Welt am Beispiel der DIALOG-Datenbanken.
Weinheim [u.a.] : VCH S.35
Literatur:
Henzler, Rolf: Information und Dokumentation : Sammeln, Speichern und
Wiedergewinnen von Fachinformationen in Datenbanken. Berlin [u.a.] : Springer,
1992. S.81-85
Keitz, Saideh von: Modernes Online Retrieval : der Weg zu den Wissensspeichern
der Welt am Beispiel der DIALOG-Datenbanken. Weinheim [u.a.] : VCH, 1993.
S.31-50
Salton, Gerard: Information Retrieval – Grundlegendes für Informationswissenschaftler.
Hamburg [u.a.] : McGraw-Hill, 1987. S.13-23
Staud, Josef L.: Online Datenbanken – Aufbau, Struktur, Abfragen. Bonn
[u.a.] : Addison-Wesley, 1991. S.217-221