Identität und Geschichte der Informationswissenschaft
Information und Sprache
Thema:Information und Sprache
Projekte: Identität und Geschichte der Informationswissenschaft
II.III. Ressourcen der Informationslinguistik
II.III.I. Lexika
a) Definition
(1) Zusammenstellung der Wörter einer Sprache (bzw. eines regionalen, soziolektalen oder fachspezifischen Ausschnitts) in alphabetischer oder begrifflicher Ordnung zum Zwecke des Nachschlagens.
(2) Im allgemeinsten Sinn: Beschreibungsebene, die den Wortschatz einer Sprache insofern kodifiziert, als seine Formen und Bedeutungen nicht aus allgemeinen Regularitäten des Sprachsystems ableitbar sind.
(3) In der generativen Transformationsgrammatik: Teil der Basiskomponente der Grammatik in Form einer ungeordneten Liste aller lexikalischen Formative./p>
(Bußmann:1990:Lexikon der Sprachwissenschaft)
b) Computerlexika
Hier wird unterschieden zwischen Lexika, die für den menschlichen Benutzer konzipiert worden sind und solchen, die für die maschinelle Verarbeitung entwickelt worden sind. Für den Menschen entworfene Wörterbücher sind zum Beispiel die Duden-Rechtschreibung oder Duden Deutsches Universalwörterbuch A-Z. Alle computerlinguistischen Methoden können ohne umfangreiche Computerwörterbücher, in denen morphologisches, syntaktisches und semantisches Wissen über Wörter und deren grammatische und semantische Relationen festgehalten sind, nicht auskommen. Bei den Computerwörterbüchern unterscheidet man:
1) Wortformenlexika:
Diese beinhalten alle Wortformen aller aufgeführten Wörter nebst ihren grammatischen Angaben (Kasus, Numerus etc. bei Substantiven; Tempus, Person etc. bei Verben usw.) und die Grundform, den „Lemmanamen“, der für alle vorkommenden Formen des Wortes steht. (vgl. Luckhardt:1996:Automatische und intellektuelle Indexierung).
2) Stammlexika:
Bei diesen wird nur die Grundform aufgeführt.
Vorteil von Computerlexika:
– sie bieten weitaus größere Speichermöglichkeiten als Bücher
– sie können die Möglichkeiten des PCs nutzen (Verlinkung, Querverweise, semantische Relationen, sprachliche Konzepte und grammatikalische Zusatzinformationen)
– bei professionellen Systemen lassen sich die Terminologie-Datenbanken erweitern
II.III.II. Enzyklopädien
Seit den 80er Jahren nimmt die Zahl der auf elektronischen Medien veröffentlichten Enzyklopädien stark zu. Die erste Enzyklopädie, die für User online abrufbar war, war die Academic American Encyclopedia (1985). 1995 folgte die Encyclopedia Britannica, die man gegen eine Jahresgebühr nutzen kann. Online-Enzyklopädien haben den Vorteil, dass man das darin gespeicherte Wissen schnellstmöglich auf den aktuellsten Stand bringen, Verzögerungen, wie sie bei den gedruckten Fassungen auftreten, umgehen kann. In den achtziger Jahren begann man auch, CD-ROM-Enzyklopädien zu entwickeln. Das erste derartige Lexikon erschien 1985 in den USA. Durch Einsatz multimedialer Elemente (Audio-Bild-/Videodateien) soll Wissen möglichst anschaulich und einprägsam präsentiert werden (vgl. MS Encarta 1999).
II.III.III. Dokumentationssprachen
Dokumentationssprachen sind „Sprachen“, um Dokumente inhaltlich zu beschreiben, damit sie sich bei einer späteren Recherche möglichst problemlos wiederfinden lassen. Diese Beschreibung kann in natürlicher Sprache oder in künstlicher Sprache erfolgen. Bei den Dokumentationssprachen unterscheidet man Thesauri und Klassifikationen.
a) Klassifikationen
Unter einer Klassifikation versteht man eine Einteilung/Ordnung von Wissen in/nach bestimmten Klassen. Wissenseinheiten werden nach bestimmten Charakteristika in verschiedene Klassen eingeteilt. Eine Klassifikation ist präkoordiniert, d.h., man erstellt zunächst ein System von unterschiedlichen Klassen und ordnet erst dann die Dokumente diesen Klassen zu. Die Entwicklung der Klassen kann auf verschiedene Arten erfolgen. Man unterscheidet starke und schwache Hierarchien. Bei einer starken Hierarchie wird einem Oberbegriff genau ein Unterbegriff zugeordnet. In einer schwachen Hierachie werden einem Oberbegriff mehrere Unterbegriffe zugewiesen. Im Gegensatz zu einem Thesaurus ist eine Klassifikation künstlichsprachig, d.h., sie benutzt zur Beschreibung Kombinationen von Buchstaben, Ziffern und anderen Zeichen.
b) Thesauri
Bei Thesauri handelt es sich um Bezeichnungssysteme, welche Begriffe und deren Beziehungen zueinander definieren. Im Unterschied zu einer Klassifikation bestehen Thesauri selbst aus natürlichsprachigen Ausdrücken (Deskriptoren). Aus diesem Grund stehen Thesauri der Sprache des Benutzers näher. Thesauri sind postkoordiniert, d.h. man analysiert zunächst die vorhandenen Dokumente und richtet dann erst die auf diese zugeschnittenen Thesaurusbeziehungen ein. „Ein Thesaurus (vgl. z.B. Wersig 1985 oder DIN 1463 ‚Erstellung und Weiterentwicklung von Thesauri‘) ist die Menge der zur Inhaltsbeschreibung eines Dokuments einer bestimmten Textsammlung zulässigen Bezeichnungen und u.U. anderer mit diesen Bezeichnungen in einer genau definierten Beziehung stehenden Bezeichnungen“ (Luckhardt:1996:Automatische und intellektuelle Indexierung). Ein Thesaurus kann folgende semasiologische Beziehungen beschreiben:
1) Polysemie
Polyseme Wörter haben ein gemeinsames semantisches Merkmal. Bsp.: Pferd (Tier) – Pferd (Turngerät) (gemeinsames Merkmal: vier Beine)
2) Homonymie
Homonyme Wörter werden gleich geschrieben und gleich ausgesprochen, sind jedoch nicht bedeutungsverwandt. Bsp.: der Bauer (Landwirt) – das Bauer (Vogelkäfig)
3) Synonymie
Synonyme Wörter sind bedeutungsgleich. Bei der Erstellung eines Thesaurus muss festgelegt werden, welchen dieser gleichen Bezeichnungen der Vorzug gegeben werden soll (Vorzugsbezeichnungen). Bsp.: anfangen – beginnen
4) Komplementarität
Komplementäre Wörter stehen in einem Entweder/Oder-Verhältnis. Bsp.: tot – lebendig
5) Antonymie
Antonyme Wörter geben Endpunkte einer Skala an. Bsp.: groß – klein
6) Hyperonomie/Hyponymie
Hyperonyme und Hyponyme stehen in einem Oberbegriff-/ Unterbegriff-Verhältnis zueinander. Bsp.: Pflanze – Tulpe
7) partitive Beziehung
Eine partitive Beziehung ist eine Teil-Ganzes Beziehung. Bsp.: Dach – Haus
8) generische Beziehung
Generische Beziehungen beschreiben Gattungen. Bsp.: Tier – Pferd
Diese semasiologischen Beziehungen dienen dazu, das Suchergebnis zu erweitern oder einzuschränken. Außerdem erfüllen sie die wichtige Aufgabe, Ambiguitäten aufzulösen (z.B. bei Homonymie). Um eine konsistente Beschreibung der Textdokumente zu erzielen, benötigt man eine terminologische Kontrolle, womit gewährleistet werden soll, dass identische Sachverhalte auch stets identisch beschrieben werden. Dies wird erreicht, indem man eine Liste der Ausdrücke aufstellt, die man zur Beschreibung eines Fachgebiets benutzen darf (Deskriptoren) und der Begriffe, die nicht zulässig sind. Damit man bei der Recherche nicht mit dieser eingeschränkten Anzahl von Suchbegriffen auskommen muss, weitet man die Liste mit sogenannten Nicht-Deskriptoren aus. Das sind Ausdrücke, die zwar in das betreffende Sachgebiet hineingehören, die aber nicht unmittelbar zur Inhaltsbeschreibung verwendet, sondern nur mit den richtigen Deskriptoren verknüpft werden. Auf diese Art kommt der User auch mit äquivalenten Begriffen ans Ziel.
II.III.IV. Wissensrepräsentation
Die Wissensrepräsentation ist ein Bereich der Künstlichen Intelligenz, in der man Methoden entwickelt, um Wissen – speziell Alltagswissen – zu verarbeiten und darzustellen, um es z.B. später als Hintergrundwissen bei der Sprachverarbeitung einsetzen zu können (vgl. Bußmann:1990: Lexikon der Sprachwissenschaft). Während man mit Dokumentationssprachen Texte lediglich durch Einzelausdrücke beschreiben kann, lassen sich bei der Wissensrepräsentation ganze Wissenseinheiten (Propositionen) darstellen, das heißt, man bezieht sich nicht nur einfach auf einen Referenten (bspw. Dalmatiner), sondern sagt zusätzlich noch etwas über diesen aus (bspw. Der Dalmatiner ist ein Hund). In der Repräsentation würde unser Beispiel folgendermaßen dargestellt: ist_ein (Dalmatiner, Hund) (vgl. Luckhardt:2000:Teilbereiche der Informationslinguistik und Verbindungen zu anderen Disziplinen).
II.III.V. Expertensysteme
„In der Künstlichen Intelligenz anwendungsorientiertes wissensbasiertes System, das spezielle Aufgaben in Art und Leistungsumfang menschlicher ‚Experten‘ lösen soll (Bußmann:1990: Lexikon der Sprachwissenschaft). Zur Interaktion mit Expertensystemen verwendet man in der Regel natürlichsprachliche Schnittstellen.