Virtuelles Handbuch Informationswissenschaft
Exkurs: Informationslinguistik
Teilbereiche der Informationslinguistik und Verbindungen zu anderen Disziplinen
Heinz-Dirk Luckhardt
Die Zusammenhänge zwischen den Begriffen „Sprache“ und „Information“ werden in den verschiedensten Bereichen durchleuchtet, die neben der Informationslinguistik den Disziplinen Computerlinguistik, Künstliche Intelligenz, Kognitionswissenschaft, Sprachwissenschaft und Informatik zuzuordnen sind. Einige dieser Zusammenhänge werden im Folgenden aufgeführt.
Information Retrieval
Sinn und Ziel von Informationssystemen ist das Information Retrieval (IR). Dabei sind die einfachsten und benutzungsfreundlichsten Verfahren diejenigen, die es den Benutzern erlauben, ihre eigene Sprache zu benutzen (anstatt systemspezifische Codes oder Kommandos eingeben zu müssen). Hier ist eine große Bandbreite an Benutzungsfreundlichkeit denkbar und zum Teil auch schon realisiert, angefangen von der Eingabe einzelner Suchwörter in Suchmaschinen bis zur sprachgesteuerten Abfrage von Datenbanken.
Textproduktion
Texte haben im IR Bedeutung als Input für und Output von Informationssysteme(n). Es ist also wichtig zu wissen, wie Texte überhaupt entstehen bzw. in einem konkreten Fall entstanden sind, wenn man das in ihnen enthaltene Wissen voll erfassen will, und es ist wichtig, die zahlreichen Faktoren, die bei der Generierung von Texten eine Rolle spielen, zu kennen und zu berücksichtigen, wenn man zu den Originaltexten Abstracts erstellen will, die ja eine Art kleines Spiegelbild des Originaltextes sein sollen.
Maschinelle und intellektuelle Indexierung
Alle Verfahren, die die Beschreibung v.a. von Textdokumenten mithilfe von Deskriptoren zum Ziel haben (maschinelle und intellektuelle Indexierung), sind im wesentlichen linguistische Verfahren, auch wenn sie – technisch gesehen – mathematisch, statistisch oder probabilistisch genannt werden. In jedem Fall geht es um die Beschreibung natürlichsprachiger Texte mit Mitteln der natürlichen Sprache, die Informationssuchende aufgrund ihrer sprachlichen Fähigkeiten zum Retrieval von Dokumenten benutzen.
Dokumentationssprachen
Dokumentationssprachen sind listenartig, hierarchisch oder netzwerkartig strukturierte Sammlungen von Elementen natürlicher (Thesauri) oder künstlicher (Klassifikationen) Sprachen, die zur inhaltlichen Beschreibung von Dokumentsammlungen benutzt werden. Dazu gehören (hierarchisch organisierte) Klassifikationen und (listen- oder netzwerkförmige) Thesauri. In letzter Konsequenz werden sie nur bei der intellektuellen Indexierung und beim Retrieval verwendet. Automatische Verfahren, die die Vorteile von Klassifikationen oder Thesauri als Normen konsequent nutzen, sind in der Praxis recht selten.
Wissensrepräsentation
Während sich durch Dokumentationssprachen lediglich (in der Regel unzusammenhängende) Begriffe darstellen lassen, bietet die Wissensrepräsentation die Möglichkeit, Sachverhalte (Aussagen, Propositionen), also durch Prädikate miteinander verknüpfte Begriffe zu repräsentieren (z.B.: ist_ein (Löwe, Säugetier) => „Der Löwe ist ein Säugetier“, s. obiges „magisches Quadrat der Wissensorganisation“). Die Methoden und Werkzeuge dazu werden in der Künstlichen Intelligenz entwickelt.
(vgl. den Beitrag zu Wissensrepräsentation und -organisation)Automatische Spracherkennung
Dieser und die nächsten Absätze beschreiben Teilprozesse, die alle zusammen unter die Überschrift „(automatische) Verarbeitung natürlicher Sprache“ gehören. Damit sind Verfahren gemeint, die – zusammen genommen – den menschlichen Sprachverarbeitungsprozeß simulieren helfen sollen. Es handelt sich also um Versuche, in Anlehnung an das (gedachte) menschliche Sprachverstehen, -verarbeiten, -repräsentieren, -analysieren und -übersetzen, Systeme zu entwickeln, die die unübersehbare Flut menschlicher Sprachäußerungen verarbeiten helfen sollen. Am Anfang stehen unter der Überschrift „Automatische Spracherkennung“ Verfahren, die gesprochene Äußerungen verschriftlichen, also überhaupt maschinell weiterverarbeitbar machen sollen.
Morphologische Analyse
Mit der Struktur der Wörter einer Sprache befasst sich die morphologische Analyse. Sie ist eines der wichtigsten Verfahren im Rahmen der automatischen Indexierung, da sie die Voraussetzung für die Zuordnung von Grundformen von Textwörtern als Deskriptoren schafft. Teilprozesse sind die Flexions-, Derivations- und Kompositionsanalyse.
Syntaktische Analyse
Mit größeren Einheiten auf Satzebene befasst sich die syntaktische Analyse. Sie untersucht das Zusammenwirken von Wörtern in Wortgruppen (Nominal-, Präpositional-, Verbalgruppen), Teilsätzen und Sätzen. Die s. Analyse ermöglicht die Feststellung der kleinsten Wissenseinheiten (Propositionen) und trägt auch zur Vereindeutigung mehrdeutiger Textwörter bei.
Semantische Analyse
Während sich die syntaktische Analyse mit Strukturen beschäftigt, untersucht die semantische Analyse Bedeutungen, also z.B. ob eine analysierte syntaktische Struktur „Sinn macht“ oder welche von mehreren Bedeutungen eines Wortes in einem gegebenen Kontext zutrifft. Wenn z.B. eine syntaktische Analyse die Wortfolge „A + frisst + B“ als korrekt erkennt und ihr zwei Strukturen zuweist mit A als Subjekt und B als Objekt und umgekehrt, muss die semantische Analyse die erste Lösung verwerfen, wenn der Satz lautet „Die Maus frisst die Katze“.
Pragmatische Analyse
Um eine Äußerung zur verstehen, ist mehr als nur das im Text vorhandene Wissen erforderlich. Alles zum Verständnis notwendige Wissen über die (Sprech-)Situation, die (Gesprächs-)Partner, Mimik, Gestik, soziale Normen etc. wird in der pragmatischen Analyse verwertet. Eine besondere Anwendungssituation ist z.B. ein Gespräch zwischen einem Informationsvermittler und einem Informationssuchenden, in dem der Vermittler das genaue Informationsbedürfnis des Gesprächspartners ausloten muss.
Textanalyse (Inhaltserschließung)
Die Textanalyse untersucht die Beziehungen, die über die Satzebene hinausgehen, die einen Text erst zum Text machen und die insb. auch bei der Inhaltserschließung und beim Abstracting zu berücksichtigen sind. Die Analyse linearer Texte steht in einer gewissen Opposition zur Verarbeitung von Hypertexten (s.u.).
Masch. Übersetzung
Hierunter wird die vollautomatische und die computergestützte Übersetzung von Sprache verstanden. Parallel zu der Notwendigkeit, Texte in der Textsprache zu verarbeiten, wird es immer wichtiger (und dies nicht erst seit dem Aufkommen der „Globalisierung“), Sprachbarrieren zu überwinden, indem man Texte per Computer übersetzt oder ihnen Deskriptoren in mehreren Sprachen zuweist. Verfahren hierzu sind sehr komplex und von unterschiedlicher Qualität und Einsetzbarkeit.
Lexika/Lexikondatenbanken
Linguistische Verfahren sind undenkbar ohne große Computerwörterbücher mit morphologischem, syntaktischem und semantischem Wissen über die Strukturen der Wörter und darüber, wie sich Wörter zu größeren Strukturen verbinden. Unabhängig von der tatsächlichen Art der Repräsentation sind natürlich enge Beziehungen zum „mentalen Lexikon“ zu sehen, in dem im menschlichen Gedächtnis das Wissen über Wörter abgelegt ist.
Expertensysteme
Expertensysteme / wissensbasierte Systeme sind ein wichtiges Anwendungsgebiet für Verfahren zur Verarbeitung natürlicher Sprache. Zum einen deshalb, weil in ihnen sprachliches Wissen repräsentiert ist, zum anderen wegen der Möglichkeit des Zugangs zu derartigen Systemen über natürliche Sprache.
Information Extraction
Information Extraction ist eine Technologie zum automatischen Extrahieren strukturierter Informationen aus Texten. Einsatzgebiete sind z.B. die Auswertung von Berichten bzw. das Durchsuchen einer Nachrichtendatenbank nach spezifischen Themen.
Kognitive Linguistik
Die Kognitive Linguistik befasst sich mit der Aufnahme, Verarbeitung, Speicherung und Produktion sprachlich repräsentierter Informationen durch den Menschen. Die „Sprachfähigkeit“ des Menschen umfasst eine strukturelle Komponente (das Wissen über sprachliche Elemente, das mentale Lexikon) und eine prozedurale Komponente (die Fähigkeit, Sprache zu verarbeiten). Es gibt viele konkurrierende Annahmen darüber, wie der Mensch Sprache tatsächlich verarbeitet.
Hypertext
Auch in Hypertexten ist sprachliches Wissen repräsentiert, aber auf eine andere Art, als in (herkömmlichen) linearen Texten. Es ist sicher nicht so, dass die textlinguistische Forschung noch einmal „von vorne“ anfangen muss, aber es ist wohl richtig, dass für die Produktion und die Verarbeitung (Rezeption) von Hypertexten zum Teil andere Gesetzmäßigkeiten gelten als für lineare Texte.
Natürliche Sprache und das Internet
Das Internet als neues Informations- und Kommunikationsmedium hat Einfluss auf das wichtigste Kommunikationsmittel „Sprache“. Insbesondere in den neuen Kommunikationsforen und -diensten wie z.B. eMAIL, Chat oder Newsgruppen werden eigene Sprachstile und -konventionen entwickelt und gepflegt und finden Eingang in die Netiquette, den Internet-Ehrenkodex. Ein weiterer Aspekt sind die verbesserten Möglichkeiten des Austauschs linguistischer Forschungsergebnisse und der Verbreitung von Systemen zur Verarbeitung natürlicher Sprache (Parser, Tagger, maschinelle Übersetzung) über die Internetdienste.