Diese Website ist seit dem Ende des Studiengangs Informationswissenschaft
im Juni 2014 archiviert und wird nicht mehr aktualisiert.
Bei technischen Fragen: Sascha Beck - s AT saschabeck PUNKT ch
Drucken

Virtuelles Handbuch Informationswissenschaft

Probleme der Wissensordnung und der Informationssuche

3. Problem ‚Begriff – Benennung‘, oder: das richtige Suchwort

Ein Problem der Suchmaschinen ist, dass die eingegebenen Suchwörter nicht mit den im System enthaltenen Wörtern übereinstimmen, obwohl die dahinterstehenden Begriffe (z.B. in den Köpfen der Webseitenautoren und der Informationssuchenden) deckungsgleich sind. Die gesuchten Webseiten werden nicht gefunden, obwohl sie vorhanden sind.

Gründe für die mangelnde Übereinstimmung zwischen Suchwörtern und Systemwörtern: Behördendeutsch, Synonymieproblem, Grammatische Form, Vagheit, Homonymieproblem, Mehrwortbenennungen, natürlichsprachige Anfragen. Abhilfe schaffen können Trunkierung, Klassifikationen und Thesauri.

WELLS04

Behördendeutsch

Behörden sprechen eine andere Sprache als die Bevölkerung.

Personenvereinzelungsanlage
Beiwohnung
In Verstoß geraten
Leibgeding
Organwalter
innergemeinschaftliche Verbringung
Zwangsverkammerung
Formgebrechen
Hebesätze

( gesammelt von spiegel-online, 25.4.2007 )

Dies ist eine Frage der Terminologie, die in allen Sachgebieten eine wichtige Rolle spielt. Terminologie ist als Mittel der wissenschaftlichen Kommunikation – zur Sicherung einer gemeinsamen eindeutigen Kommunikationsbasis – unabdingbar. Gleichzeitig ist sie ein Problem für Nichtfachleute, die die Fachbegriffe nicht kennen bzw. mit den „Fachwörtern“ andere Assoziationen verbinden.

Synonymieproblem

Für viele Begriffe existieren unterschiedliche Benennungen (siehe Beispiele), die man als „Synonyme“ bezeichnet. Dies ist unabhängig davon, ob die Benennungen wirklich genau dasselbe bedeuten: der eine Informationssuchende gibt als Suchwort „Kino“ ein, der andere „Filmprogramm“, und doch meinen beide dasselbe: „Ich will wissen, was im Kino gespielt wird“. Im Informationssystem ist aber evtl. nur eine der Benennungen enthalten, so dass die Suche nicht in jedem Fall zum Erfolg führt.

Kino, Filmprogramm, Kinoprogramm, Lichtspielhäuser, Movies
Stellenanzeigen, Jobangebote, Jobbörse
Adressen, Adressregister, Adressbuch
Parks, Grünanlagen, Gärten
Führerschein, Lappen
Tourismus, Fremdenverkehr
ausgehen, weggehen, Abendunterhaltung
Restaurants, Gaststätten, Kneipen, Clubs, Bars, Tanzlokale, Bistros

Abhilfe schaffen können Klassifikationen oder Thesauri. Klassifikationen (Webkataloge, Suchhierarchien) gliedern das jeweilige Wissensgebiet und ermöglichen den Suchenden einen Einstieg über eine übergeordnete Kategorie (z.B. über „Freizeit/Unterhaltung“ bei der Suche nach dem Kinoprogramm). Die Identifikation von Synonymen leistet in diesem Falle der Suchende, in dem er seine Suchfrage mit den Kategorien der Klassifikation vergleicht und schließlich die begriffliche Übereinstimmung zwischen seinem Suchwort und einer Kategorie feststellt. Thesauri setzen die Synonyme von vorneherein miteinander in Beziehung und stellen so sicher, dass der Suchbegriff gefunden wird, egal mit welchem Suchwort man die Suche angestoßen hat.

Exkurs zur Klassifikation

Teil einer Klassifikation könnte sein:
Gaststätten 
  Esslokale 
    Restaurants 
    Bistros 
  Tanzlokale 
    Bars 
    Diskos 

Diese strenge Hierarchie ist zu starr. Eine eindeutige Zuordnung bestimmter Gaststätten ist evtl. nicht möglich, z.B. wenn man ein Restaurant sucht, in dem man auch tanzen kann (egal, wie man es „benennt“ oder in was für eine „Klasse“ diese Einrichtung einzuordnen ist). Größere Flexibilität ermöglicht eine Facettenklassifikation, in dem sie eine Beschreibung nach Merkmalen erlaubt.

Facettenklassifikation

Facette „Gaststätte (essen, trinken, tanzen, Musik hören)“:

Restaurant: Gaststätte (essen+trinken)
Bistro: Gaststätte (essen+trinken)
Bar: Gaststätte (trinken+tanzen+Musik hören)
Disko: Gaststätte (trinken+tanzen+Musik hören)
Restaurant „xyz“: Gaststätte (essen+trinken+tanzen)

Grammatische (morphologische) Variation

Wenn man ein Suchwort eingibt, kann man nicht sicher sein, dass es in genau dieser Eingabeform auch im Informationssystem vorkommt. Z.B. sucht jemand mit dem Suchwort „Arzt“, und im System ist ein „Ärzteverzeichnis“ vorhanden. Bei einem einfachen Vergleich „Buchstabe für Buchstabe“ findet das System keine Übereinstimmung. Kann bei der Suche im Katalog noch der Suchende selbst die Übereinstimmung selbst herstellen, in dem er z.B. unter der Kategorie „Gesundheitswesen“ den Hinweis auf das Ärzteverzeichnis findet, so muss die Suchmaschine über (teil-)automatische Verfahren in die Lage versetzt werden, eine Übereinstimmung herzustellen.

Häusern – Häuser – Hauses – Hause – Haus,
Friedhöfe – Friedhof,
Schulen – Schule,
Auszubildende – Auszubildender – Auszubildenden,
Arzt / Ärzte / Ärztin / Ärztinnen,
Verkäufer / Verkäuferinnen,
Maßnahmen / Massnahmen,
Friedhoefe / Friedhöfe

Ein Verfahren ist die Trunkierung, bei der (vorne und/oder hinten) solange Buchstaben abgeschnitten werden, bis das Suchwort mit einem Wort im Informationssystem übereinstimmt. Damit wären Falle wie „Schulen => Schule“ oder „Hauses => Haus“ zu lösen aber auch z.B. „Staumeldungen => Stau“. Übrig bleiben Fälle wie „Ärzte => Arzt“, die durch bloße Trunkierung nicht bewältigt werden können, und „Staubschutzmaßnahmen“ => Stau“, bei denen Trunkierung zu einem falschen Ergebnis führt. Hier bietet sich das Arbeiten mit einem Thesaurus an. Ein Thesaurus schreibt vor, mit welchen Suchwörtern gesucht werden kann, bzw. stellt Beziehungen zwischen den im System enthaltenen Wörtern und möglichen Suchwörtern her (siehe Beispiel).

Thesaurusbeispiel „Verkehrsstau“

Variationen desselben Begriffs (diese werden hier in einen Topf geworfen, weil es sich um denselben Sachverhalt handelt: der Suchende ist an Nachrichten über „Verkehrsstaus“ interessiert):

Stau
Staus
Staumeldungen
Stauansagen
Staumelder

ausgeschlossen werden dabei Wörter, die bei einfacher Trunkierung zur Suchmenge hinzugenommen würden, z.B.: Staubschutzmaßnahmen, Staupeschutzmaßnahmen

Man legt für die Indexierung die eindeutigste Benennung („Verkehrsstau“) als „Deskriptor“ fest, alle anderen Benennungen des Begriffs sind „Nicht-Deskriptoren“, d.h. werden im System (bei der Indexierung) nicht verwendet. Der Suchende hingegen darf sie verwenden und soll auch über sie zum Ziel kommen. Deskriptor und Nicht-Deskriptoren werden explizit aufeinander bezogen, so dass – egal welche Benennung der Suchende benutzt – immer nur mit „Verkehrsstau“ gesucht wird.

Such-/Textwörter

„Stauansagen“
„Staumelder“
„Staus“
„Stau“
„Verkehrsstau“

Thesauruseinträge

Stauansagen benutze => Verkehrsstau
Staumelder benutze => Verkehrsstau
Staus benutze => Verkehrsstau
Stau benutze => Verkehrsstau
Verkehrsstau benutzt für => Stauansagen, Staumelder, Staus, Stau

Vagheit

Ein Suchproblem kann die Vagheit der eingegebenen Suchwörter sein, d.h. das eingegebene Wort hat zu viele Bedeutungen oder tritt in zu vielen Zusammenhängen auf, die nicht gemeint sind.

Umwelt
Förderung
Gewerbe
Werbung
Informationen

Homonymie-/Polysemieproblem

Homonyme und Polyseme sind gleichlautende Wörter von unterschiedlicher Bedeutung. Homonyme haben außerdem noch eine unterschiedliche Herkunft (die Steuer – das Steuer, Kiefer (Anatomie) – Kiefer (Baum))). Polyseme haben den gleichen Ursprung, der in einem gewissen Anteil gemeinsamer Bedeutung zu erkennen ist (Knie (Körperteil) – Knie (eines Rohres), Band (Förderband) – Band (Isolierband)). Beide Phänomene führen zum gleichen Problem: dass die gemeinte Bedeutung von Suchwörtern u.U. nicht mit der Bedeutung eines Wortes im System übereinstimmt, obwohl beide Wörter gleich lauten:

(Stadt)Führer
Kirche
Parkordnung
Förderung
Anzeige
Zulassung
(menschlich, elektronisch, gedruckt)
(Gebäude, Organisation)
(=> ruhender Autoverkehr, => öffentliche Anlagen)
(von Kohle, von Kommunikation, von Unternehmensgründungen …)
(Zeitungsannonce, Strafanzeige)
(KFZ-Zulassung, Zulassung eines Gewerbes)

Derartige Probleme ließen sich bei der Stichwortsuche mit Suchmaschinen nur mit Hilfe von Thesauri (siehe: Thesaurus) lösen, wie sie in der Fachinformation (Fachinformationsdatenbanken) benutzt werden. Die Erstellung und Pflege solcher Thesauri ist aufwendig und immer nur für ausgesuchte Wissensbereiche möglich. Ein das gesamte Wissen der Welt – etwa wie es sich im WWW zu entwickeln beginnt – umfassender Thesaurus ist wahrscheinlich nicht zu realisieren.

Mehrwortbenennungen

Viele Suchmaschinen bilden keine Bezüge zwischen den Textwörtern ab und enthalten nur Einzelwörter. Damit sind dann konkretere Suchfragen, die einen direkteren Zugriff auf Informationen ermöglichen würden – siehe Beispiele – , nicht möglich. Die einzige Möglichkeit, z.B. nach „Offener Sonntag“ zu suchen, ist dann oft die Suche nach Texten, in denen „Offener“ und „Sonntag“ gemeinsam vorkommen, und damit ist nicht gesagt, dass beide Wörter direkt nebeneinander stehen und zusammen den gesuchten Begriff bilden.

Offener Sonntag
Offener Vollzug
Tag der offenen Tür
religiöse Gemeinschaften
Selbständige Gewerbetreibende
BMW Altpeter
Öffnungszeiten der Schwimmbäder
Welt der Familie

Natürlichsprachige Anfragen

Die einfachste und direkteste Art zu suchen wäre für jeden Informationssuchenden die Eingabe seines eigentlichen Suchinteresses, womöglich noch in seinem heimatlichen Idiom, z.B.:

Isch will emol im Wald grille (= Ich will einmal im Wald grillen)
Ich will einen Baum fällen
Ich suche Infos rund ums Bauen und Wohnen

Hier tut sich eine Fülle von linguistischen und lexikalischen Problemen auf, für die die Computerlinguistik bzw. die Informationslinguistik noch keine allgemein einsetzbaren Methoden entwickelt hat.

Erstellungsdatum des Beitrags: 6.3.2002