Diese Website ist seit dem Ende des Studiengangs Informationswissenschaft
im Juni 2014 archiviert und wird nicht mehr aktualisiert.
Bei technischen Fragen: Sascha Beck - s AT saschabeck PUNKT ch
Drucken

Diskussionsbeiträge

Informationswissenschaftlicher Reader

Informationstechnik

Informationsstruktur im Internet, Suchmaschinen, Ontologien und Wissensagenten (Knowbots)

von Gerd Döben-Henisch Dieser Text wurde den Webseiten des Instituts für Neue Medien http://www.inm.de/kip/general/search-ontologies.html mit freundlicher Genehmigung des Autors entnommen.Informationsstruktur im Internet, Suchmaschinen, Ontologien und Wissensagenten (Knowbots)

von Gerd Döben-Henisch



Dieser Text wurde den Webseiten des Instituts für Neue Medien
http://www.inm.de/kip/general/search-ontologies.html mit freundlicher Genehmigung des Autors entnommen.

  1. Aktuelle Informationsstruktur: Die Ideologie vom unausweichlichen Chaos

  2. Die Notwendigkeit einer globalen Informationspolitk

  3. Die widerspenstige Natur des Wissens

  4. Experimente mit manuellen Ontologien

  5. Gedankenexperiment mit automatischen Ontologien

  6. Vision: Die Epoche der Wissens-Agenten

  7. Über den Autor


Aktuelle Informationsstruktur: Die Ideologie vom unausweichlichen Chaos

Die Informationsstruktur im Internet läßt sich auf drei Teilnehmertypen reduzieren: (1) Informations- bzw. Produktanbieter, (2) Informations- bzw. Produktsucher und (3) Informations- bzw. Produktverteiler.

Aktuell ist die Beziehung zwischen Anbieter und Verteiler nicht geregelt. Ein Anbieter weiß im Normalfall nicht, ob er von einem Verteiler abgefragt wird, wann dies geschieht, wie diese Abfrage strukturiert ist, wie die abgefragte Information organisiert wird und auf welche Weise die abgefragte Information indexiert wird. Für einen Anbieter stellt dies eine höchst unbefriedigende Situation dar.

Eine Folge von dieser ungeregelten Beziehung zwischen Anbieter und Verteiler ist neben unnötiger Netzbelastung unter anderem, daß der Informationssucher heute niemals weiß, wo er die Informationen suchen muß, nach der er sucht,ob die Informationen vollständig sind, die er bei einer Suche findet, wie aktuell diese Informationen sind und wie zuverlässig. Mit solchen Randbedingungen wird eine Informationssuche zum reinen Glücksspiel. Für die Zwecke der Unterhaltung mag solch ein Zufallsspiel ganz amüsant sein, für eine seriöse Urteilsbildung aber ist diese Situation unerträglich.

Nicht wenige teilen die Meinung, daß solch ein Informations-Chaos unausweichlich sei und führen als Argument die steigenden Teilnehmerzahlen ins Feld. Dies ist aber nur sehr bedingt richtig. Steigende Teilnehmerzahlen führen nur dann zum Chaos, wenn es keine Informationsarchitektur gibt, die dafür sorgt, daß die verfügbaren Informationen systematisch gesammelt, aufbereitet und verteilt werden. Konkrete Modelle für eine effiziente und globale Informationsarchitektur gibt es (siehe z.B.
C.Mic Bowman, Peter B. DANZIG, Udi Manber, Michael F. Schwartz [1994]).

Was not tut ist eine dezidierte globale Informationspolitik, die als eine öffentliche Instanz dafür Sorge trägt, daß entsprechende Informationsarchitekturen eingerichtet werden.

Zu behaupten, daß das heute vorfindliche Chaos in irgendeinem Sinne unausweichlich sei, ist von daher als eine Ideologie zu identifizieren, hinter der konkrete Interessen stehen, die von diesem aktuellen Chaos profitieren. Auf der verständlichen Suche nach ein wenig Ordnung ist jeder mehr oder weniger gezwungen, die heutigen Informationsverteiler zu konsultieren. Deren Interessen decken sich aber nicht zwangsläufig mit dem globalen Interesse aller Anbieter noch notwendigerweise mit den Interessen der Informationssucher.

ÜBERSICHT

Die Notwendigkeit einer globalen Informationspolitk

Damit die Informationen und Produkte, die nahezu stündlich weltweit produziert werden, eine gleiche Chance haben, denen bekannt zu werden, die von ihnen Gebrauch machen können, bedarf es einer weltweit wirksamen Informationsarchitektur. Dies wird langfristig aber nur möglich sein, wenn die notgedrungen partikulären Interessen bestimmter Gruppen oder Regionen verbindlich in eine weltweite Informationspolitik eingebunden werden.

Im Idealfall müßte diese Informationspolitik daraufhin wirken, daß so viele Informationsverteiler eingerichtet werden, daß jeder potentielle Anbieter eine faire Chance hat, alle die Informationen in die Verteilung einzuspeisen, von denen er meint, daß sie aus seiner Sicht wichtig sind. Zusätzlich müßte der Anbieter die reelle Chance haben, aktuell bleiben zu können. Schließlich müßte er auch Einfluß darauf nehmen können, auf welche Weise seine Informationen indexiert werden.

Für potentielle Informations- und Produktsucher müßte Klarheit darüber herrschen, welche Informationen wie wo abgelegt sind. Weitere Qualitätskriterien wären wünschenswert.

Nur eine solche globale und transparente Informationspolitik, umgesetzt in eine entsprechende transparente globale Informationsarchitektur, kann eine verläßliche Basis für jede weiterführende Informationstechnologie bilden.

ÜBERSICHT

Die widerspenstige Natur des Wissens

Die Realisierung einer transparenten globalen Informationsarchitektur bildet zwar eine notwendige Voraussetzung für jegliche weiterführende effektive Informationssuche, aber sie alleine kann mit den heute verfügbaren Indexierungstechniken kein vollständiges und zugleich sachgerechtes Suchergebnis garantieren. Dies ist prinzipiell gemeint!

Die Ursache für dieses Ungenügen der heutigen Indexierungsmethoden ist in der Struktur des menschlichen Wissens zu suchen. Wenn wir z.B. miteinander sprechen sind nicht nur die physikalisch meßbaren Schallwellen wichtig, sondern vor allem auch jene kognitiven Inhalte, die wir aufgrund von langjährigen Interaktionen mit der Welt und unserem eigenen Körper in uns aufgebaut haben und die wir im Laufe von Spracherwerbsprozessen gelernt haben, auf komplexe Weise mit bestimmten Sprachschallmustern zu verbinden. Es sind diese aktiven Verbindungen zwischen Ausdruck und kognitiven Inhalten, die für uns als Sprecher-Hörer das konstituieren, was wir Bedeutung nennen und was uns den Zugang zum Wissen eines anderen aufgrund von Sprache ermöglicht.

In Analogie gilt das soeben für die Sprache Gesagte auch für Musik und Bilder. Musik ist für uns Menschen nicht nur der meßbare physikalische Schall, sondern besteht zugleich auch in den vielfältigen Einbindungen in wechselnde strukturelle Klassifikationen, sozialen Konnotationen und assoziierten Emotionen. Desgleichen die Bilder von Filmen und Videos.

Wenn heute jemand also sein Wissen auf einem Web-Server zur Verfügung stellen will, dann steht er vor einem Dilemma: er kann niemals sein Wissen selbst auf einer Web-Seite präsentieren, immer nur mögliche Repräsentanten seines Wissens (Schall, Bilder, Schriftzeichen …), deren Bedeutung in keiner Weise objektiv und klar ist, sondern immer nur gegeben ist als aktives Wissen in den Köpfen von Menschen, die dieses Wissen zu bestimmten Zeiten, in bestimmten Kulturen, vermittelt durch eine Vielzahl von Situationen sukzessive und durchsetzt mit vielen Vagheiten aufgebaut haben.

Die heutigen Methoden, die darauf beruhen, die Repräsentanten von Wissen ohne Einbeziehung von aktivem Wissen rein durch die materialen Eigenschaften der Repräsentanten zu sichten und zu indexieren, kann man von daher nur als blindlings bezeichnen; ihre Erfolge sind entsprechend zufällig und sehr vage.

Wissen ohne direkte Einbeziehung von aktivem Wissen allein aufgrund seiner Repräsentanten rekonstruieren zu wollen, ist eine prinzipielle Unmöglichkeit (ein Thema was in der philosophischen Hermeneutik, in den Interpretationstheorien der Literaturwissenschaften und in der Sprachphilosophie schon seit mindestens 150 Jahren analysiert worden ist (siehe als kleine Einführung: Stanley RICE [1997]
Attribution and Context: The Bases of Information Retrievals (and ‚Meaning‘)).

Wenn es nicht gelingt, das Wissensproblem in den nächsten Jahren auf völlig neue Weise technologisch zu lösen, wird die Entwicklung der Computer und der Computernetzwerke aus der Sicht der Wissensverarbeitung zu einem Bumerang werden: immer mehr Wissen wird immer schneller produziert werden, aber die biologischen Kapazitäten der menschlichen Wissensagenten werden sich nicht mit der gleichen Geschwindigkeit erweitern. Die kommende Wissensvermehrung wird individuell zu einer Wissensverminderung führen.

ÜBERSICHT

Experimente mit manuellen Ontologien

Seit einigen Jahren gibt es den Versuch, das ungelöste Problem der Wissensrepräsentation durch den Einsatz sogenannter Ontologien zu lösen (für eine Materialsammlung zum Thema siehe
Ontologien).

Eine Ontologie wird hier verstanden als eine formale Darstellung von Wissenssachverhalten. Einfaches Beispiel: Ein Informationsanbieter besitzt ein Kaufhaus und will sein Warensortiment so darstellen, daß jeder sehr schnell und präzise anhand der Eigenschaften seiner Waren genau die Waren finden kann, die diese Eigenschaften haben, zusätzlich möglicherweise solche, die ähnlich sind bzw. solche, die in bestimmten funktionalen Beziehungen zueinander stehen. Angenommen zu seinem Sortiment gehört ein Auto a1 vom Typ Ford, das 55000 DM kostet, eine Garage g1 für 15000 DM, in die das Auto eingestellt werden kann, sowie Autoreifen r1,…,r4 für jeweils 500 DM für Autos vom Typ Ford. Eine mögliche formale Darstellung könnte dann z.B. so aussehen:
  1. AUTO(a1) & PREIS(a1,55000,DM) & TYP(a1,Ford)
  2. GARAGE(g1) & PREIS(g1,15000,DM)
  3. AUTOREIFEN({r1,…,r4}) & PREIS({r1,…,r4},500,DM) & VTYP({r1,…,r4},Ford)
  4. AUTO(x) => VON_INTERESSE(y,x) & GARAGE(y)
  5. GARAGE(x) => VON_INTERESSE(y,x) & AUTO(y)
  6. AUTO(x) => VON_INTERESSE(y,x) & AUTOREIFEN(y)
  7. AUTOREIFEN(x) => VON_INTERESSE(y,x) & AUTO(y)
Wenn jetzt ein Informationssucher auf der Suche nach Autos unter 60000 DM fragen würde, dann würde zunächst das Objekt a1 gefunden werden, da es ein Auto repräsentiert und weniger als 60000 DM kostet. Mit dieser Antwort könnte man dann aber noch gezielt weiterfragen nach anderen Objekten, die mit Autos in einer funktionalen Beziehung stehen. Mit obigen Daten würde man z.B. erfahren (ohne daß man eigens danach fragen müßte), daß es noch eine Garage für 15000 DM gibt sowie Autoreifen für den Autotyp Ford zum Preis von 500 DM.

Verglichen mit den heutigen Suchmöglichkeiten in Web-Texten klingt dies sehr verlockend. Doch leidet diese Strategie an dem gleichen Problem wie die heutigen ausdrucksorientierten Indexierungsmethoden.

Jede Ontologie stellt in ihrer Formalisierung eine Zeichenkette dar, die als solche keinerlei Beziehung zu irgendeinem aktiven Wissen aufweist! Wenn im obigen Beispiel z.B. die Zeichenkette ‚AUTO()‘ verwendet wurde, dann funktioniert eine Verwendung in diesem Beispiel nur deshalb, weil diese Zeichenkette Ähnlichkeiten mit einem Ausdruck (‚Auto‘) der aktuellen deutschen Sprache aufweist und der Ausdruck ‚Auto‘ bei Sprechern des Deutschen mit bestimmten Bedeutungsinhalten verknüpft ist. M.a.W. der formale Ausdruck AUTO() borgt sich gleichsam Bedeutung aufgrund der Ähnlichkeit mit alltagssprachlichen Ausdrücken. Würde jemand den Ausdruck ‚AUTO()‘ lesen, der des Deutschen nicht mächtig ist, dann würde dieses Spiel nicht funtkionieren. In diesem Fall wären es irgendwelche Zeichen, deren Bedeutung zunächst zu bestimmen wären. Andererseits, selbst für einen Sprecher des Deutschen eröffnen sich mit solchen Formalisierungen Probleme, da die Formalisierungen praktisch nie den tatsächlichen Sprachgebrauch voll nachbilden können. Dies wird sofort deutlich, wenn viele verschiedene Menschen an verschiedenen Orten damit beginnen, bestimmte Wirklichkeitsausschnitte in eine gemeinsame Ontologie abzubilden.

Eine gewisse Abhilfe können dann gemeinsame Wörterbücher bzw. gemeinsame Ontologieserver bieten (siehe z.B. Stanford Ontology Server). Wenn eine bestimmte Benutzergruppe einen gemeinsamen Ontologieserver benutzt, dann kann jeder Teilnehmer, bevor er seine neuen Formulierungen eingibt, vorher nachprüfen, welche Formulierungen bisher benutzt wurden bzw. ob es zu seinem Thema vielleicht schon etwas gibt.

Für kleinere Gruppen und einigermaßen überschaubare Gebiete, vor allem auch solche, die sowieso formalisiert werden, mag der Einsatz manueller Ontologien funktionieren. Mit großen Teilnehmerzahlen aus verschiedenen Sprach- und Kulturkontexten und einem nicht klar abgegrenzten Gegenstandsbereich wird dieses Verfahren ungangbar. Es kommt erschwerend hinzu, daß alle diese Formalisierungen manuell eingegeben werden müssen. Der Aufwand ist immens. Und das sich die Wirklichkeit, die mittels solcher Ontologien beschrieben werden soll, beständig ändert, muß das jeweils schon formalisierte Wissen immer wieder neu überarbeitet werden. Eine gigantische Aufgabe.

Der Autor vertritt die Auffassung, daß die Strategie der manuellen Ontologien keine wirkliche Lösung für die Zukunft verspricht; ein Nutzen für spezielle Kontexte soll nicht ausgeschlossen werden.

ÜBERSICHT

Ein Gedankenexperiment mit automatischen Ontologien

Es stellt sich die Frage, ob es für das Problem einer Automatisierung der Wissensrepräsentation und der Wissensrekonstrukion aufgrund von Wissensrepräsentationen überhaupt eine automatisierte technische Lösung geben kann.

Eine Antwort ergibt sich aus den Bedingungen, die erfüllt sein müssen, damit solche eine Automatisierung möglich würde.

Wenn das zentrale Problem der Automatisierung von Wissen der Zugriff auf jene aktiven Beziehungen in einem menschlichen Wissensagenten sind, die sich durch Lernprozesse zwischen dynamischen kognitiven Strukturen und Ausdrucksstrukturen aufbauen, dann wird eine technische Lösung langfristig nur darin bestehen können, daß es gelingt, diejenigen Strukturen menschlicher Wissensverarbeitung technisch nachzubilden, die für den dynamischen Aufbau eben jener aktiven Verbindungen verantwortlich sind. Nichtmenschliche Wissensagenten müßten also in der Lage sein wie Menschen, durch Interaktion mit der Umwelt und ihrem eigenen Körper nicht nur dynamische kognitive Strukturen aufzubauen, sondern auch wechselwirkende Ausdrucksstrukturen.

Angenommen, dies wäre möglich, ergäbe sich folgendes Szenario: ein Informationsanbieter erzählt einem nichtmenschlichen Wissens-Agenten (:= Knowbot) in normaler Sprache alles das, was er an Inhalten anbieten will. Da dieser Knowbot nach Voraussetzung die aktiven Wissensbeziehungen seines Gesprächspartners nachbilden konnte, kann dieser Knowbot automatisch die gesprochene Sprache in die entsprechenden formalen Strukturen abbilden. Diese packt er automatisch in eine Datei und schickt sie zum zuständigen Wissens-Server. Dort werden diese Strukturen mit den vorhandenen verglichen und automatisch integriert. Das gesamte Wissen des wissens-Server bildet eine einzige große Ontologie bzw. ein einziges großes Netzwerk von Konzepten und Axiomen. Unabhängig vom Informationsproduzenten will jetzt ein Informationssucher bestimmte Dinge suchen. Der Informationssucher spricht in seiner Sprache mit einem nichtmenschlichen Wissens-Agenten (:= Knowbot). Da auch dieser nach Voraussetzung die aktiven Wissensbeziehungen seines Gesprächspartners nachbilden konnte, kann auch dieser Knowbot automatisch die gesprochene Sprache in entsprechende formale Strukturen abbilden. Diese packt er automatisch in eine Datei und schickt sie zum zuständigen Wissens-Server. Der Wissens-Server vergleicht diese Strukturen mit den vorhandenen und findet zwangsläufig alle ähnlichen und funktional zugehörigen Konzepte. Diese schickt er dem Sucher-Knowbot zurück. Der Sucher-Knowbot empfängt diese Strukturen und übersetzt diese aufgrund seiner aktiven Beziehungen in die entsprechenden sprachlichen Ausdrücke und spricht auf diese Weise mit dem Sucher.

Der entscheidende Punkt an diesem Gedankenexperiment ist, daß die formalen Strukturen, die sowohl der Anbieter-Knowbot als auch der Sucher-Knowbot erzeugen, nicht irgendwelche Repräsentationen von Wissen sind, sondern das Wissen selbst!

In einem solchen hypothetischen Szenario wäre das Wissen der Menschen tatsächlich weltweit verfügbar und kommunizierbar. Nebenbei wäre das Problem der vielen verschiedenen Sprache gelöst. Jeder könnte in seiner eigenen Sprache reden und doch würde jeder andere ihn ganz normal verstehen. Erst jetzt bestände die reale Möglichkeit einer einen Menschheit in Vielheit.

ÜBERSICHT

Vision: Die Epoche der Wissens-Agenten

Da die Abhängigkeit der Industrie- und Informationsgesellschaften von Informationen so substantiell geworden ist, daß ein Mißlingen der Automatisierung von Wissens-Verarbeitung zur Paralyse ihrer Teilnehmer führen würde, darf man wohl annehmen, daß die Automatisierung von Wissen, wenn sie überhaupt möglich ist, stattfinden wird. Außerdem hätte jene Gruppe, die dieses Problem erstmalig lösen würde, einen solch ungeheuren Wettbewerbsvorteil in den meisten Lebensbereichen, daß zudem auch der wirtschaftlich-politische-militärische Anreiz sehr groß ist, dieses Problem als erster zu lösen.

Es stellt sich dann die Frage, wie realistisch ist die Annahme einer prinzipiellen Lösbarkeit des Problems? Geht es hier um Science oder um Fiction?

An dieser Stelle soll nur soviel festgestellt werden, daß aus Sicht des Autors als prinzipiell lösbar anzusehen ist. Die weiteren Ausführungen der Führung durch das Thema sowie die anderen Artikel auf diesem Server sollen verdeutlichen, daß diese Annahme Sinn macht und wie solch eine Lösung konkret aussehen kann.

ÜBERSICHT

Über den Autor

Dr.phil Dipl.theol Gerd Döben-Henisch

Jahrgang 1948, Philosoph, Wissenschaftstheoretiker, Kognitionswissenschaftler, Theologe

Gerd Döben-Henisch

Mitbegründer des Instituts für Neue Medien e.V., seit 1994 Forschungsleiter des Knowbot-Projektes des INM und seit Jan 1999 zusätzlich Leiter des Fachbereichs Learning Technologies Division der inm numerical magic mbh. Im Rahmen des Knowbot-Projektes gilt sein zentrales Interesse der Frage, welche Bedingungen erfüllt sein müssen, damit Computerprogramme wie Kinder die Eigenschaften beliebiger Umwelten und der darin vorfindbaren Sprachen lernen und situationsgerecht anwenden können. Als Leiter von LTD betreut er die Entwicklung diverser Anwendungsszenarien und den Einsatz von geeigneten Lerntechnologien für diese Szenarien.

1968 bis 1990 Mitglied des Jesuitenordens, 1989 Promotion im Fach Logik und Wissenschaftstheorie an der Ludwig Maximilians Universität in München (LMU). Ab 1990 Mitarbeiter von Prof. Günthner (Centrum für Informations- und Sprachverarbeitung der LMU). 1992-1994 Mitarbeiter von Prof. Weibel (Städelschule-Institut für Neue Medien, Frankfurt).

Beirat der Deutschen Gesellschaft für Semiotik (DGS) für die Sektion Logik und Wissenschaftstheorie, Mitglied der Gesellschaft für Informatik (GI) sowie der Humboldt-Gesellschaft (hier Mitglied des Akademischen Rates), Gründungsmitglied des German Chapter der International Informatization Academy (G-IIA), Mitbegründer und Vorstandsvorsitzender des Vereins Behinderte Menschen Online BM-Online), Mitglied des Institut of Electric and Electronic Engineers (IEEE).

Kontakt: doeb@inm.de

Copyright: Gerd Döben-Henisch – INM Institut für Neue Medien – Frankfurt – Sept. 1997