Diese Website ist seit dem Ende des Studiengangs Informationswissenschaft
im Juni 2014 archiviert und wird nicht mehr aktualisiert.
Bei technischen Fragen: Sascha Beck - s AT saschabeck PUNKT ch
Drucken

Virtuelles Handbuch Informationswissenschaft

Exkurs: Informationslinguistik

Teilbereiche der Informationslinguistik und Verbindungen zu anderen Disziplinen

Heinz-Dirk Luckhardt

Die Zusammenhänge zwischen den Begriffen „Sprache“ und „Information“ werden in den verschiedensten Bereichen durchleuchtet, die neben der Informationslinguistik den Disziplinen Computerlinguistik, Künstliche Intelligenz, Kognitionswissenschaft, Sprachwissenschaft und Informatik zuzuordnen sind. Einige dieser Zusammenhänge werden im Folgenden aufgeführt.

Information Retrieval

Sinn und Ziel von Informationssystemen ist das Information Retrieval (IR). Dabei sind die einfachsten und benutzungsfreundlichsten Verfahren diejenigen, die es den Benutzern erlauben, ihre eigene Sprache zu benutzen (anstatt systemspezifische Codes oder Kommandos eingeben zu müssen). Hier ist eine große Bandbreite an Benutzungsfreundlichkeit denkbar und zum Teil auch schon realisiert, angefangen von der Eingabe einzelner Suchwörter in Suchmaschinen bis zur sprachgesteuerten Abfrage von Datenbanken.

Textproduktion

Texte haben im IR Bedeutung als Input für und Output von Informationssysteme(n). Es ist also wichtig zu wissen, wie Texte überhaupt entstehen bzw. in einem konkreten Fall entstanden sind, wenn man das in ihnen enthaltene Wissen voll erfassen will, und es ist wichtig, die zahlreichen Faktoren, die bei der Generierung von Texten eine Rolle spielen, zu kennen und zu berücksichtigen, wenn man zu den Originaltexten Abstracts erstellen will, die ja eine Art kleines Spiegelbild des Originaltextes sein sollen.

Maschinelle und intellektuelle Indexierung

Alle Verfahren, die die Beschreibung v.a. von Textdokumenten mithilfe von Deskriptoren zum Ziel haben (maschinelle und intellektuelle Indexierung), sind im wesentlichen linguistische Verfahren, auch wenn sie – technisch gesehen – mathematisch, statistisch oder probabilistisch genannt werden. In jedem Fall geht es um die Beschreibung natürlichsprachiger Texte mit Mitteln der natürlichen Sprache, die Informationssuchende aufgrund ihrer sprachlichen Fähigkeiten zum Retrieval von Dokumenten benutzen.

Dokumentationssprachen

Dokumentationssprachen sind listenartig, hierarchisch oder netzwerkartig strukturierte Sammlungen von Elementen natürlicher (Thesauri) oder künstlicher (Klassifikationen) Sprachen, die zur inhaltlichen Beschreibung von Dokumentsammlungen benutzt werden. Dazu gehören (hierarchisch organisierte) Klassifikationen und (listen- oder netzwerkförmige) Thesauri. In letzter Konsequenz werden sie nur bei der intellektuellen Indexierung und beim Retrieval verwendet. Automatische Verfahren, die die Vorteile von Klassifikationen oder Thesauri als Normen konsequent nutzen, sind in der Praxis recht selten.

Wissensrepräsentation

Während sich durch Dokumentationssprachen lediglich (in der Regel unzusammenhängende) Begriffe darstellen lassen, bietet die Wissensrepräsentation die Möglichkeit, Sachverhalte (Aussagen, Propositionen), also durch Prädikate miteinander verknüpfte Begriffe zu repräsentieren (z.B.: ist_ein (Löwe, Säugetier) => „Der Löwe ist ein Säugetier“, s. obiges „magisches Quadrat der Wissensorganisation“). Die Methoden und Werkzeuge dazu werden in der Künstlichen Intelligenz entwickelt.

(vgl. den Beitrag zu Wissensrepräsentation und -organisation)

Automatische Spracherkennung

Dieser und die nächsten Absätze beschreiben Teilprozesse, die alle zusammen unter die Überschrift „(automatische) Verarbeitung natürlicher Sprache“ gehören. Damit sind Verfahren gemeint, die – zusammen genommen – den menschlichen Sprachverarbeitungsprozeß simulieren helfen sollen. Es handelt sich also um Versuche, in Anlehnung an das (gedachte) menschliche Sprachverstehen, -verarbeiten, -repräsentieren, -analysieren und -übersetzen, Systeme zu entwickeln, die die unübersehbare Flut menschlicher Sprachäußerungen verarbeiten helfen sollen. Am Anfang stehen unter der Überschrift „Automatische Spracherkennung“ Verfahren, die gesprochene Äußerungen verschriftlichen, also überhaupt maschinell weiterverarbeitbar machen sollen.

Morphologische Analyse

Mit der Struktur der Wörter einer Sprache befasst sich die morphologische Analyse. Sie ist eines der wichtigsten Verfahren im Rahmen der automatischen Indexierung, da sie die Voraussetzung für die Zuordnung von Grundformen von Textwörtern als Deskriptoren schafft. Teilprozesse sind die Flexions-, Derivations- und Kompositionsanalyse.

Syntaktische Analyse

Mit größeren Einheiten auf Satzebene befasst sich die syntaktische Analyse. Sie untersucht das Zusammenwirken von Wörtern in Wortgruppen (Nominal-, Präpositional-, Verbalgruppen), Teilsätzen und Sätzen. Die s. Analyse ermöglicht die Feststellung der kleinsten Wissenseinheiten (Propositionen) und trägt auch zur Vereindeutigung mehrdeutiger Textwörter bei.

Semantische Analyse

Während sich die syntaktische Analyse mit Strukturen beschäftigt, untersucht die semantische Analyse Bedeutungen, also z.B. ob eine analysierte syntaktische Struktur „Sinn macht“ oder welche von mehreren Bedeutungen eines Wortes in einem gegebenen Kontext zutrifft. Wenn z.B. eine syntaktische Analyse die Wortfolge „A + frisst + B“ als korrekt erkennt und ihr zwei Strukturen zuweist mit A als Subjekt und B als Objekt und umgekehrt, muss die semantische Analyse die erste Lösung verwerfen, wenn der Satz lautet „Die Maus frisst die Katze“.

Pragmatische Analyse

Um eine Äußerung zur verstehen, ist mehr als nur das im Text vorhandene Wissen erforderlich. Alles zum Verständnis notwendige Wissen über die (Sprech-)Situation, die (Gesprächs-)Partner, Mimik, Gestik, soziale Normen etc. wird in der pragmatischen Analyse verwertet. Eine besondere Anwendungssituation ist z.B. ein Gespräch zwischen einem Informationsvermittler und einem Informationssuchenden, in dem der Vermittler das genaue Informationsbedürfnis des Gesprächspartners ausloten muss.

Textanalyse (Inhaltserschließung)

Die Textanalyse untersucht die Beziehungen, die über die Satzebene hinausgehen, die einen Text erst zum Text machen und die insb. auch bei der Inhaltserschließung und beim Abstracting zu berücksichtigen sind. Die Analyse linearer Texte steht in einer gewissen Opposition zur Verarbeitung von Hypertexten (s.u.).

Masch. Übersetzung

Hierunter wird die vollautomatische und die computergestützte Übersetzung von Sprache verstanden. Parallel zu der Notwendigkeit, Texte in der Textsprache zu verarbeiten, wird es immer wichtiger (und dies nicht erst seit dem Aufkommen der „Globalisierung“), Sprachbarrieren zu überwinden, indem man Texte per Computer übersetzt oder ihnen Deskriptoren in mehreren Sprachen zuweist. Verfahren hierzu sind sehr komplex und von unterschiedlicher Qualität und Einsetzbarkeit.

Lexika/Lexikondatenbanken

Linguistische Verfahren sind undenkbar ohne große Computerwörterbücher mit morphologischem, syntaktischem und semantischem Wissen über die Strukturen der Wörter und darüber, wie sich Wörter zu größeren Strukturen verbinden. Unabhängig von der tatsächlichen Art der Repräsentation sind natürlich enge Beziehungen zum „mentalen Lexikon“ zu sehen, in dem im menschlichen Gedächtnis das Wissen über Wörter abgelegt ist.

Expertensysteme

Expertensysteme / wissensbasierte Systeme sind ein wichtiges Anwendungsgebiet für Verfahren zur Verarbeitung natürlicher Sprache. Zum einen deshalb, weil in ihnen sprachliches Wissen repräsentiert ist, zum anderen wegen der Möglichkeit des Zugangs zu derartigen Systemen über natürliche Sprache.

Information Extraction

Information Extraction ist eine Technologie zum automatischen Extrahieren strukturierter Informationen aus Texten. Einsatzgebiete sind z.B. die Auswertung von Berichten bzw. das Durchsuchen einer Nachrichtendatenbank nach spezifischen Themen.

Kognitive Linguistik

Die Kognitive Linguistik befasst sich mit der Aufnahme, Verarbeitung, Speicherung und Produktion sprachlich repräsentierter Informationen durch den Menschen. Die „Sprachfähigkeit“ des Menschen umfasst eine strukturelle Komponente (das Wissen über sprachliche Elemente, das mentale Lexikon) und eine prozedurale Komponente (die Fähigkeit, Sprache zu verarbeiten). Es gibt viele konkurrierende Annahmen darüber, wie der Mensch Sprache tatsächlich verarbeitet.

Hypertext

Auch in Hypertexten ist sprachliches Wissen repräsentiert, aber auf eine andere Art, als in (herkömmlichen) linearen Texten. Es ist sicher nicht so, dass die textlinguistische Forschung noch einmal „von vorne“ anfangen muss, aber es ist wohl richtig, dass für die Produktion und die Verarbeitung (Rezeption) von Hypertexten zum Teil andere Gesetzmäßigkeiten gelten als für lineare Texte.

Natürliche Sprache und das Internet

Das Internet als neues Informations- und Kommunikationsmedium hat Einfluss auf das wichtigste Kommunikationsmittel „Sprache“. Insbesondere in den neuen Kommunikationsforen und -diensten wie z.B. eMAIL, Chat oder Newsgruppen werden eigene Sprachstile und -konventionen entwickelt und gepflegt und finden Eingang in die Netiquette, den Internet-Ehrenkodex. Ein weiterer Aspekt sind die verbesserten Möglichkeiten des Austauschs linguistischer Forschungsergebnisse und der Verbreitung von Systemen zur Verarbeitung natürlicher Sprache (Parser, Tagger, maschinelle Übersetzung) über die Internetdienste.