Diese Website ist seit dem Ende des Studiengangs Informationswissenschaft
im Juni 2014 archiviert und wird nicht mehr aktualisiert.
Bei technischen Fragen: Sascha Beck - s AT saschabeck PUNKT ch
Drucken

Diskussionsbeiträge

Informationswissenschaftlicher Reader

Sprache

Online-Datenbanken als Übersetzungshilfe?

Barbara Lutes
GMD – Forschungszentrum Informationstechnik GmbH
Institut für Integrierte Publikations- und Informationssysteme
Dolivostr. 15
64293 Darmstadt
e-mail: lutes@darmstadt.gmd.de
 

Online-Datenbanken als Übersetzungshilfe?

Multilinguale Terminologiesuche in bibliographischen Datenbanken

 

Zusammenfassung

Es wird untersucht, ob Online-Literaturdatenbanken eine sinnvolle Quelle multilingualer Terminologie für Übersetzer, Terminologen, Dokumentare, technische Redakteure und andere sprachverarbeitende Berufe sein können, obwohl sie für diesen Zweck nicht gedacht sind. Ausgewählte Datenbanken werden im Hinblick auf ihre Multilingualität analysiert, und mögliche Suchstrategien für ihre terminologische Nutzung beschrieben. Umfangreiche Versuche, praktische Übersetzungsprobleme durch Suche in bibliographischen Datenbanken zu lösen, wurden durchgeführt und insbesondere auf Zuverlässigkeit und Wirtschaftlichkeit hin ausgewertet. Bei schwierigen terminologischen Problemen, für deren Lösung Kontextinformation wesentlich ist, erwies sich die Datenbanksuche als besonders nützlich.


Online-Datenbanken als Übersetzungshilfe?

Multilinguale Terminologiesuche in bibliographischen Datenbanken

 

Zusammenfassung

Es wird untersucht, ob Online-Literaturdatenbanken eine sinnvolle Quelle multilingualer Terminologie für Übersetzer, Terminologen, Dokumentare, technische Redakteure und andere sprachverarbeitende Berufe sein können, obwohl sie für diesen Zweck nicht gedacht sind. Ausgewählte Datenbanken werden im Hinblick auf ihre Multilingualität analysiert, und mögliche Suchstrategien für ihre terminologische Nutzung beschrieben. Umfangreiche Versuche, praktische Übersetzungsprobleme durch Suche in bibliographischen Datenbanken zu lösen, wurden durchgeführt und insbesondere auf Zuverlässigkeit und Wirtschaftlichkeit hin ausgewertet. Bei schwierigen terminologischen Problemen, für deren Lösung Kontextinformation wesentlich ist, erwies sich die Datenbanksuche als besonders nützlich.

 
 

1 Bibliographische Datenbanken als Quelle multilingualer Terminologie

Öffentlich zugängliche bibliographische Datenbanken werden als potentielle Quelle multilingualer Information von Mitgliedern sprachverarbeitender Berufe meist übersehen. Obwohl ihre Multilingualität eher ein Nebenprodukt der Indexierung ist und nicht der Zweck der Datenbankproduktion, wie es z.B. der Fall ist bei ausgesprochenen Terminologiedatenbanken, müßten bibliographische Datenbanken eigentlich für terminologische Ausbeutung geradezu prädestiniert sein. Sie enthalten

• Textinformation in sehr großem Umfang – oft mehrere Millionen technische Dokumente in einem Fachgebiet

• strukturierte Information, die mittels einer Retrievalsprache für terminologische Zwecke ausgenutzt werden kann

• aktuelle Information aus Forschung und Technologie, z.B. aus den führenden Fachzeitschriften einer Disziplin

• Informationen aus sonst schwer zugänglichen Quellen, wie z.B. Forschungsberichten, Dissertationen, Firmenschriften, Patenten, etc.

• Fachtermini in mehreren Kontexten, z.B. im Titel, im Kontext des gesamten Dokuments, z.T. als Teil eines kontrollierten Vokabulars mit hierarchischer Einbettung.

Das sind Eigenschaften, die in ihrer Gesamtheit Wörterbüchern und auch Terminologie-Datenbanken meist zwangsläufig fehlen, die aber für die Übersetzung bzw. Erstellung und/oder das Verständnis fremdsprachlicher Fachtexte hilfreich sein können.

Dementsprechend ist es die Hypothese dieses Artikels, daß mit etwas Kreativität bei der Retrievalstrategie und vorausgesetzt, die Datenbanken enthalten eine ausreichende Menge multilingualer Information, bibliographische Datenbanken eine Hilfe bei der Lösung sprachübergreifender terminologischer Probleme bieten können. Um diese These zu überprüfen, wurden folgende Schritte unternommen:

• Führende weltweit verfügbare Datenbanken auf verschiedenen Fachgebieten (wie zum Beispiel Chemical Abstracts, Biosis, Compendex, Inspec) wurden hinsichtlich ihrer Mehrsprachigkeit untersucht, um Kandidaten für die terminologische Verwendung ausfindig zu machen (Kapitel 3).

• Basierend auf den mehrsprachigen Strukturen in den Datenbanken wurden Retrieval-Strategien für unterschiedliche translinguale Aufgaben entwickelt und anhand drei verschiedener Problemstellungen ausprobiert (Kapitel 4).

• Als Vergleich wurden die gleichen Aufgaben mit Hilfe der EU-Terminologiedatenbank Eurodicautom versuchsweise gelöst (Kapitel 4).

• Die Ergebnisse wurden verglichen – auch unter Kostengesichtspunkten – und Schlußfolgerungen gezogen (Kapitel 5).

In einigen Veröffentlichungen [(Bergeijk 1983), (Carson & Wootton 1988)] wurde auf verschiedene Verwendungen von bibliographischen Datenbanken für Terminologie- und Übersetzungsarbeit hingewiesen, zum Beispiel • um festzustellen, ob die Übersetzung eines Artikels ins Englische dann entfallen kann, wenn ein ausreichend informatives englisches Kurzreferat dazu schon existiert;

• um aktuelle Informationen über ein neues Fachgebiet zu sammeln;

• um durch Nachschlagen im World Translation Index festzustellen, ob ein bestimmtes Dokument schon in die Zielsprache übersetzt wurde.

Andere haben sich mit dem Einsatz von Terminologie-Datenbanken beschäftigt , die ausdrücklich als Terminologie-Nachschlagewerke konzipiert sind. In einem interessanten Artikel untersucht (Sano 1988) monolinguale terminologische Verwendungen von Datenbanken, zum Beispiel als Quelle von Kontextinformationen – d.h. in welchen syntaktischen und semantischen Umgebungen fach- und gemeinsprachliche Wörter in Titeln und Abstracts zu finden sind – oder als Corpora für statistische linguistische Untersuchungen. Einige wenige Publikationen haben sich explizit mit Strategien für die multilinguale Terminologiesuche in bibliographischen Datenbanken beschäftigt [(Carson & Wootton 1988), (Sano 1988)].

Im vorliegenden Artikel werden die Thesen und Untersuchungen von (Lutes 1996) zu diesem Thema aktualisiert und überarbeitet. Zunächst werden die Informationsbedürfnisse der sprachverarbeitenden Berufe kurz untersucht (Kapitel 2). Danach werden Online-Datenbanken aus einer multilingualen Terminologie-Perspektive analysiert (Kapitel 3), wobei die Datenbanken zweier großer europaweit verfügbarer Datenbankanbieter als Beispiel benutzt werden. Als Ergebnis der Analyse wird eine Typologie der Mehrsprachigkeit in Datenbanken erstellt (Kapitel 3.3) mit Beispielen von Datenbanktypen, die für die verschiedenen sprachlichen Informationsbedürfnisse geeignet sind. Danach werden Retrievalstrategien beschrieben, die sich für das Extrahieren terminologischer Informationen aus den verschiedenen Datenbanktypen und somit für die Lösung der sprachlichen Probleme eignen (Kapitel 4). Anhand konkreter Problemstellungen werden Retrievalszenarien Schritt für Schritt präsentiert (Kapitel 4.1-4.3). Der Schwerpunkt des Artikels liegt auf mehrsprachiger Terminologie für Übersetzungs- und ähnliche Zwecke; die Beispiele machen jedoch plausibel, daß auch monolinguale Sprachprobleme mit Hilfe der Datenbanken untersucht werden könnten.

Zum Schluß (Kapitel 5) wird der Erfolg/Mißerfolg der Retrievalversuche kritisch betrachtet. Faktoren wie Kosten-Nutzen-Überlegungen sowie Zuverlässigkeit werden diskutiert, die gegen bzw. für die Verwendung von kostenpflichtigen bibliographischen Datenbanken für diesen Zweck sprechen.

2 Die Informationsbedürfnisse der (mehr)sprach-verarbeitenden Berufe

Professionelle Sprachverarbeiter, die sprachübergreifend arbeiten, führen regelmäßig verschiedene Arten von Informationssuche durch, die durch Online-Retrieval eventuell unterstützt werden könnte. Hierzu gehören folgende fünf Situationen:

• Suche nach aktuellen Fachdokumenten in Ausgangs- und Zielsprache, um sich mit neuen Fachgebieten vertraut zu machen, und um Terminologie zu vergleichen und sammeln. Diese Tätigkeit würde die Qualität einer Übersetzung oder eines technischen Dokuments oft erheblich verbessern, wird aber wegen des erforderlichen Aufwandes häufig vernachlässigt.

• Nachschlagen von spezifischen Termini in der Zielsprache. Dies entspricht dem Wörterbuchnachschlagen. Kontextinformation wäre hier besonders wichtig, weil eine einzige Benennung in der Ausgangssprache mehrere Entsprechungen in der Zielsprache haben kann, je nach Fachgebiet. Die größten Probleme hier sind der Mangel an aktuellen Wörterbüchern, das Fehlen von sehr speziellen Termini in Nachschlagewerken und unzureichende Kontextinformation.

• Suche nach Wörtern und Phrasen im Kontext in der Zielsprache, um den Standardgebrauch festzustellen, zum Beispiel Syntax, Phraseologie, typische Kollokationen usw. Dies ist für die Leserlichkeit technischer Dokumente sehr wichtig.

• Verifikation von Übersetzungen, Qualitätskontrolle.

• Terminologiearbeit per se, zur Erstellung von Glossaren, Thesauri, Fachwörterbüchern usw.

Im folgenden Kapitel werden verschiedene Typen von Mehrsprachigkeit in Datenbanken identifiziert und in Beziehung zu den oben beschriebenen Aufgaben gesetzt.

3 Mehrsprachigkeit in bibliographischen Online-Datenbanken

3.1 Ausgewertete Quellen

Die hier präsentierten Daten und Beispiele basieren auf einer Analyse der von zwei großen Datenbankanbietern in Europa erhältlichen bibliographischen Datenbanken: ESA-IRS (European Space Agency – Information Retrieval Service, Retrievalsprache Quest) und STN International (Scientific and Technical Information Network, Retrievalsprache Messenger). Diese beiden Hosts bieten eine repräsentative Auswahl der weltweit erhältlichen bibliographischen Datenbanken an. STN und ESA stellen je über 200 Datenbanken bereit. Auch die Retrievalfunktionalität der zwei Anbieter kann für die Zwecke dieser Untersuchung als repräsentativ angesehen werden, wobei die hier beschriebenen Strategien auch auf andere Anbieter/Datenbanken übertragen werden können. Weitere Einzelheiten über das Leistungsangebot der in diesem Artikel erwähnten Anbieter/Datenbanken können direkt beim jeweiligen Anbieter bezogen werden (Adressen im Anhang)

Obwohl klein (10 DB) soll hier auch ECHO (European Host Organization, Retrievalsprache CCL) (www2.echo.lu) erwähnt werden, weil er gratis ist und drei für sprachliche Zwecke nützliche Datenbanken anbietet: Eurodicautom, eine große Terminologiedatenbank in elf EU-Sprachen; THESAURI, die englische und deutsche Beschreibungen von ca. 600 (oft mehrsprachigen) Thesauri enthält; und I*M GUIDE, ein Nachschlage-Verzeichnis mit Referenzen auf über 4000 Online- und CD-ROM-basierten Datenbanken.

Ein weiterer europäischer Anbieter, der besonders für Französisch interessant ist, aber hier nicht untersucht wird, ist der große französische Host Télésystèmes Questel. Zusätzlich zu vielen internationalen Datenbanken sowie einigen monolingualen französischen Datenbanken, bietet Questel Ergänzungen in französischer Sprache für manche Datenbanken an. Medline zum Beispiel wird durch französische Deskriptoren ergänzt.

3.2 Vorherrschung der englischen Sprache

Die Vorherrschung des Englischen als lingua franca in naturwissenschaftlichen und technischen Disziplinen ist auch in der Mehrzahl der weltweiten Fachinformationsdatenbanken zu beobachten. STN beispielsweise bietet ca. 200 Datenbanken von etwa hundert Produzenten an. Von den hundert Produzenten sind vierzig in nicht englischsprechenden Ländern (hauptsächlich Deutschland). Sie produzieren über 70 Datenbanken, von denen jedoch nurfünfzehn nicht in Englisch sind; weitere fünfzehn sind als zwei- oder mehrsprachig ausgewiesen, wobei eine der Sprachen immer Englisch ist. Mit anderen Worten, obwohl die Hälfte der Produzenten aus nicht-englischspachigen Ländern kommen, sind weniger als ein viertel der von ihnen produzierten Datenbanken nicht zumindest auch in Englisch.

Auf der einen Seite ist Englisch die Sprache der Datenbanken selbst, die Datensätze sind mit wenigen Ausnahmen, wie Titel, (siehe unten) in Englisch. Auf der anderen Seite ist der Großteil der nachgewiesenen Originalliteratur auch in Englisch. Obwohl der Anteil nicht-englischer Original-Dokumente prozentual eher gering ist, zitieren in absoluten Zahlen jedoch viele Datenbanken sehr wohl eine große Anzahl nicht-englischer Dokumente (Chemical Abstracts zum Beispiel indexiert über 2 Millionen russische Original-Dokumente, siehe Tabelle 1 unten).

Eine Suche in einigen bedeutenden Datenbanken nach Referenzen auf Dokumente, deren Original-Sprache nicht englisch ist, ergab die in Tabelle 1 enthaltenen Informationen. In allen Datenbanken sind die Datensätze selbst jedoch in Englisch, wobei manche neben der englischen Übersetzung zumindest den Dokumententitel in der Originalsprache enthalten; sie sind mit einem * gekennzeichnet. Für mehr Einzelheiten über die Mehrsprachigkeit ausgewählter Datenbanken siehe Kapitel 3.3.

 

 

 
 

Tabelle 1: Häufigkeit von nicht-englischen Dokumenten (Stand: September 1997)
Name der Datenbank Fachge-biete Gesamtzahl  der Dokumente (in Millionen) Deutsche Dokumente Franz. Dokumente Spanische Dokumente Italie-nische Dokumente Russische Doku-mente Polnische Doku-mente Japa-nische Doku-mente Chine-siche Doku-mente
CA Chemie 13,3 717036 

5,4%

297605 

2%

63991 

0,5%

60193 

0,5%

2193037 

16%

110893 

0,8%

1950285 

15%

252678 

1,9%

Biosis Biologie 10,6 160426 

1,5%

147149 

1,4%

64915 

0,6%

46360 

0,4%

299835 

2,8%

19518 

0,2%

150340 

1,4%

50513 

0,5%

Compendex* Ingenieurwiss. 4,48 96635 

2,1%

35151 

0,8%

1928 

0,04%

6428 

0,14%

95790 

2,1%

12195 

0,3%

51996 

1,2%

31033 

0,7%

Energy* Energie 3,4 224029 

6,6%

53133 

1,6%

10063 

0,3%

7408 

0,2%

250561 

7,4%

13953 

0,4%

130007 

3,8%

22290 

0,7%

Georef* Geowissenschaften 2,02 89351 

4,4%

106957 

5,3%

37349 

1,8%

15063 

0,7%

176419 

8,7%

11663 

0,6%

29485 

1,5%

35249 

1,7%

Inspec Physik; 

Elektro.

5,47 169672 

3,1%

83805 

1,5%

13161 

0,2%

20533 

0,4%

173061 

3,2%

20536 

0,4%

108035 

2%

41838 

0,8%

Medline* Medizin 8,8 508381 

5,8%

371403 

4,2%

129470 

1,5%

163587 

1,9%

471219 

5,3%

107549 

1,2%

269967 

3%

47371 

0,5%

Pascal* multidisziplinär 10 641352 

6,4%

1166496 

11,6%

89942 

0,9%

94545 

1%

764051 

7,6%

43091 

0,4%

21410 

0,2%

23486 

0,2%

*Titel sowohl in Originalsprache als auch in englischer Übersetzung

 

In der Datenbank MEDLINE sind beispielsweise 508.381 oder 5,8 Prozent der Original-Dokumente in deutscher Sprache (Französisch 4,2 Prozent, Spanisch 1,5 Prozent, Italienisch 1,9 Prozent, Russisch 5,3 Prozent, Polnisch 1,2 Prozent, Japanisch 3 Prozent, Chinesisch 0,5 Prozent). Die Anteile in Chemical Abstracts sind Deutsch 5,4 Prozent, Französisch 2 Prozent, Spanisch 0,5 Prozent, Italienisch 0,5 Prozent, Russisch 16 Prozent, Polnisch 0,8 Prozent, Japanisch 15 Prozent, Chinesisch 1,9 Prozent.

Da die Produzenten sowohl von CA als auch von MEDLINE und den anderen Datenbanken in der Tabelle von sich behaupten, alle Hauptliteraturquellen weltweit in ihren jeweiligen Fachgebieten auszuwerten, können die in der Tabelle enthaltenen Zahlen wahrscheinlich als zuverl‰ssiger Indikator für den tatsächlichen Anteil der jeweiligen Sprachen in den angeführten Fachgebieten gewertet werden.

Interessant ist in diesem Zusammenhang eine Untersuchung der Datenbank INSPEC im Hinblick auf Sprache der Dokumente gegenüber Herkunftsland der Dokumente. Obwohl beispielsweise Deutsch die Originalsprache von 169.672 (3,1 Prozent) aller INSPEC-Dokumente ist, ist Deutschland (ohne Österreich, Schweiz, ehemalige DDR) das Herkunftsland von 267.440 Dokumente (4,9 Prozent). Mit anderen Worten publizieren deutsche Autoren eine große Anzahl von Veröffentlichungen in Englisch, zumindest in den Fächern Physik und Elektronik. [Sano (Sano 1988:15-23) weist darauf hin, daß „Nichtmuttersprachlern“, die in Englisch veröffentlichen wollen, Datenbanken als Quelle von Gebrauchs- und Grammatikbeispielen dienen könnten.]

Die folgende Tabelle 2 zeigt die Vergleichszahlen für einige andere Sprachen.
 

Tabelle 2: Anzahl der INSPEC-Dokumente nach Sprache und nach Ursprungsland
Anzahl der Dokumente: Deutsch 

(Deutsch-land)*

Fran-zösisch 

(Frankreich)

Italie-nisch 

(Italien)

Rus-sisch 

(**)

Pol-nisch 

(Polen)

Japa-nisch 

(Japan)

Chine-sisch 

(China)

in Original-Sprache 169672 

3,1%

83805 

1,5%

20533 

0,4%

173061 

3,2%

20536 

0,4%

108035 

2%

41838 

0,8%

aus Ur-sprungsland 267440 

4,9%

125708 

2,3%

60645 

1,1%

478465 

8,7%

45406 

0,8%

255357 

4,7%

55899 

1%

*Ohne ehemalige DDR, Österreich, Schweiz

**Nur UdSSR und Rußland; ohne Russische Föderation GUS, Ukraine etc.,

Ebenfalls interessant ist ein Vergleich der Anteile von nicht-englischen Originaldokumenten vor drei Jahren mit der Situation heute (siehe Tabelle 3). In manchen Fachgebieten und in manchen Ursprungsländern hat es anscheinend schon eine Verschiebung zugunsten des Englischen gegeben. Vor allem bei den westeuropäischen Sprachen, die untersucht wurden (Deutsch, Französisch, Italienisch und Spanisch), ist in manchen Bereichen der Anteil an Originalliteratur zurückgegangen. So bei Inspec, Compendex und Medline.
 

Tabelle 3: Vergleich des Anteils nicht-englischer Dokumente 1994 und 1997
Name der DB   Gesamt-zahl der Dokumente (in Millionen) Deut-sche Doku-mente Franz. Doku-mente Spa-nische Doku-mente Italie-nische Doku-mente Rus-sische Doku-mente Pol-nische Doku-mente Japa-nische Doku-mente Chine-siche Doku-mente
CA  997 13,3 5,4% 2,0% 0,5% 0,5% 16% 0,8% 15% 1,9%
  1994 11 6,0% 2,5% 0,5% 0,5% 15% 0,9% 11,6% 1,6%
Biosis  1997 10,6 1,5% 1,4% 0,6% 0,4% 2,8% 0,2% 1,4% 0,5%
1994 8,8 1,6% 1,4% 0,6% 0,5% 3,0% 0,2% 1,5% 0,4%
Compendex  1997 4,48 2,1% 0,8% 0,04% 0,14% 2,1% 0,3% 1,2% 0,7%
1994 3,1 3% 1,0% 0,2% 2,5% 0,4% 1,3% 0,65%
Energy  1997 3,4 6,6% 1,6% 0,3% 0,2% 7,4% 0,4% 3,8% 0,7%
1994 2,85 6,9% 1,6% 0,3% 0,2% 8,1% 0,4% 3,5% 0,5%
Georef  1997 2,02 4,4% 5,3% 1,8% 0,7% 8,7% 0,6% 1,5% 1,7%
1994 1,8 3,1% 3,9% 1,5% 0,5% 7,9% 0,5% 1,2% 1,6%
Inspec  1997 5,47 3,1% 1,5% 0,2% 0,4% 3,2% 0,4% 2,0% 0,8%
1994 4,5 3,6% 1,8% 0,3% 0,4% 3,8% 0,4% 2,0% 0,7%
Medline  1997 8,8 5,8% 4,2% 1,5% 1,9% 5,3% 1,2% 3% 0,5%
1994 6,5 7,4% 5,3% 1,8% 2,4% 7,0% 1,6% 3,8% 0,6%
Pascal  1997 10 6,4% 11,6% 0,9% 1% 7,6% 0,4% 0,2% 0,2%
1994 4,7 4,2% 8,4% 0,9% 0,4% 3,6% 0,1% 0,9% 0,3%
 

Die Tatsache, daß die Datenbanksprache in der Regel Englisch ist, schränkt natürlich der Nutzen für multilinguale Zwecke ein, da entweder die Ziel- oder die Quellsprache der mit Hilfe der Datebank zu lösenden Aufgabe Englisch sein muß. (Mit Ausnahmen von Aufgaben wie das Sichvertrautmachens mit neuen Fachgebieten, was in jeder vertretenen Sprache erfolgen könnte.) Eine weitere Einschränkung liegt darin, daß auch bei Datenbanken mit fremdsprachlichen Titeln die Titel in Sprachen mit nicht-lateinischen Zeichen oft nicht enthalten sind (zum Beispiel Russisch oder Japanisch) oder transkribiert werden. In der Datenbank MEDLINE, die ein Feld für Originaltitel enthält, sind beispielsweise russische Titel transkribiert, was zu Suchschwierigkeiten führen kann; japanische und chinesische Titel sind gar nicht vorhanden, so daß, obgleich Artikel in diesen zwei Sprachen indexiert wurden, Begriffe daraus weder gesucht noch gefunden werden können. ENERGY enthält japanische Titel in Transliteration; chinesiche jedoch nicht. Auch bei Deutsch kann es Unterschiede in der Handhabung der Umlaute geben (siehe Abb. 1 und 4), die zu Problemen bei der Suchfrageformulierung führen können. Kleinere Sprachpopulationen wie Holländisch und Schwedisch sind zwar vertreten, aber in kleinen Zahlen (bei INSPEC beispielsweise 8640 bzw. 8769 Dokumente). Unter Berücksichtigung dieser Einschränkungen bieten Datenbanken einen reichen Fundus an (mehr)sprachlichen Informationen.

3.3 Eine Typologie bibliographischer Datenbanken in Bezug auf Mehrsprachigkeit

Obwohl die Mehrzahl der von großen Hosts angebotenen Datenbanken grundsätzlich monolingual (Englisch) sind, gibt es trotzdem eine beträchtliche Zahl zumindest teilweise zwei- oder gar mehrsprachiger Datenbanken, unter ihnen einige der wichtigsten in ihren Fachgebieten. Inwiefern sie mehrsprachig sind, variiert stark. In diesem Kapitel werden die verschiedenen Formen der Mehrsprachigkeit beschrieben und Beispiele gezeigt. Es wird auch aufgeführt, für welche Informationsbedürfnisse jeder Typ nützlich sein und mit welcher Suchstrategie vorgegangen werden kann.

Leider ist es anhand der von den Hosts herausgegebenen Datenbankbeschreibungen oft sehr schwer feststellbar, ob eine Datenbank fremsprachliche Elemente enthält. Es ist meist nötig, einige Datensätze in Augenschein zu nehmen. Aus diesem Grund kann im Rahmen dieses Artikels eine komplette Kategorisierung aller Datenbanken bei STN, ESA-IRS und ECHO nicht vorgenommen werden.

3.3.1 Datensätze nur in Englisch; anderssprachige Artikel werden indexiert

Manche Datenbankproduzenten indexieren zwar nicht-englische Fachzeitschriften, trotzdem veröffentlichen sie die Datensätze nur in Englisch. Die Originalsprache kann anhand des Felds „Sprache“ erkannt werden, oder durch Untersuchung der bibliographischen Quelle.

Beispiele: CA (Chemical Abstracts, eine der weltgrößten Datenbanken, indexiert in absoluten und relativen Zahlen sehr viele nicht-englische Dokumente), BIOSIS, Scisearch, Biotechabs, WPI (World Patent Index).

Nützlich für: Sich einlesen in neuen Fachgebieten, evtl. für Terminologiearbeit. Englischer Sprachgebrauch im Kontext.

Suchstrategie: Durch Verwendung von englischen Suchbegriffen und Bestimmung einer Originalsprache im Feld „Sprache“ können relevante nicht-englische Dokumente gefunden werden. Das Originaldokument muß dann beschafft werden und kann für die Terminologieanalyse oder zum Einlesen verwendet werden.

3.3.2 Titel in Originalsprache mit englischer Übersetzung

Neben der englischen Übersetzung nehmen viele Produzenten, die nicht-englische Dokumente nachweisen, auch den Titel in der Originalsprache in den Datensatz auf (siehe Abb. 1). Der übrige Datensatz ist dann in Englisch. Von diesem Typus Datenbank gibt es viele Beispiele, und er ist am ergiebigsten für sprachübergreifende Terminologiesuche. [Titel aus Sprachen mit nicht-lateinischen Schriftzeichen sind manchmal nicht vorhanden, s.o.]

Beispiele: Compendex, MEDLINE, ENERGY, INSPEC (siehe Abbildung 1).

Nützlich für: Alle terminologische Aufgaben, insbesondere Nachschlagen von Begriffen, Auffinden von Begriffen und Phrasen im Kontext. Man sollte jedoch berücksichtigen, daß der englische Titel eines nicht-englischen Dokumentes immer eine Übersetzung ist. (Carson & Wootton 1988: 129-140) weisen allerdings darauf hin, daß die Übersetzungen meist von qualifizierten Fachdokumentaren vorgenommen werden und dadurch zumindest im Hinblick auf Terminologie zuverl‰ssig sein sollten (siehe: Schlußfolgerungen).

Suchstrategie: Verwende entweder englische oder nicht-englische Suchbegriffe für Suche im Feld „Titel“; bei Suche mit englischen Begriffen zusätzlich einschränken durch Bestimmung der anderen Sprache im Feld „Sprache“, dann Anzeige des Felds „Titel“ (dies hält die Kosten niedrig, falls andere Angaben nicht benötigt werden). Die Begriffe können dann direkt im Kontext verglichen werden. Natürlich kann auch das Originaldokument beschafft werden, falls die Kurzbeschreibung es interessant erscheinen läßt.

 

Abbildung 1: Datensatz mit übersetztem Titel aus der Compendex-Datenbank bei ESA-IRSIm Beispiel-Datensatz in Abbildung 1 wird der Titel des Artikels sowohl in der Originalsprache (Deutsch) als auch in der englischen Übersetzung angeführt. Der restliche Datensatz (hier unvollständig) ist in Englisch. Dieser Datensatz ist der Datenbank Compendex Plus entnommen, die circa viereinhalb Millionen Dokumente aus allen Ingenieurwissenschaften nachweist.

3.3.3 Titel in Originalsprache, Englisch und weiteren Sprachen

Zusätzlich zur englischen Übersetzung stellen manche Datenbankproduzenten weitere Titel-Übersetzungen zur Verfügung. Der übrige Datensatz ist in Englisch. Dieser (meist) national (etwa bei PASCAL) oder europäisch (etwa bei PATOSEP) motivierte Zusatz bietet Terminologiesuchenden gute Möglichkeiten (siehe Abbildung 2).

Beispiele: PATOSEP (Europäische Patent-Titel in Englisch, Deutsch und Französisch), PASCAL (Titel in Originalsprache, Englisch, Französisch, oft Spanisch), PACKABS (Titel in Originalsprache, Englisch, Deutsch).

Nützlich für: Jede Art der Terminologiesuche, insbesondere Suche nach Übersetzungen von Einzelbegriffen und von Begriffen und Phrasen im Textzusammenhang.

Strategie: Mittels englischer oder nicht-englischer Suchbegriffe Suche im Feld „Titel“, Spezifikation der Sprache im Feld „Sprache“, Titel anzeigen. Da Titel eventuell in anderen Paarungen als lediglich Englisch/Originalsprache vorhanden sein können, ist es manchmal auch möglich, einen Begriff in einer der verfügbaren Sprachen im Titelfeld zu suchen (beispielsweise bei PASCAL in Englisch, Französisch oder Spanisch) und eine andere Sprache (etwa Deutsch) im Feld „Sprache“ zu bestimmen. Eine Anzeige des Titels würde dann Titel in allen verfügbaren Sprachen zeigen, also in Deutsch, Englisch, Französisch, manchmal Spanisch.

 

Abbildung 2: PASCAL-Datensatz (ausgewählte Felder) mit Titel in Originalsprache (Deutsch), Französisch und Englisch; Deskriptoren in Französisch, Englisch und Spanisch3.3.4 Deskriptoren in mehr als einer Sprache / Multilinguale Online-Thesauri

Einige wenige Datenbanken indexieren jedes Dokument mit Deskriptoren in mehr als einer Sprache. In manchen Fällen ist das Vokabular, aus dem die Deskriptoren stammen (zum Beispiel ein Thesaurus oder eine Klassifikation), direkt online einsehbar und kann unabhängig von einzelnen Datensätzen konsultiert werden.

Beispiele: PASCAL (Deskriptoren in Französisch, Englisch, Spanisch), INFODATA, BLLDB, AGRIS, IRRD (Online-Thesaurus in Deutsch, Französisch, Englisch) (siehe Abbildungen 2 und 3).

Nützlich für: Terminologiearbeit, Qualitätskontrolle (das Vorhandensein eines Terminus in einem kontrollierten Vokabular ist ein Hinweis auf Zuverlässigkeit), Terminologiesuche (obwohl nicht im Textzusammenhang, sind die Begriffe in den hierarchischen Kontext des Thesaurus eingebunden und können auch im Kontext eines Datensatzes besichtigt werden).

Strategie: Direkte Suche im Online-Thesaurus, eventuell Suche nach Datensätzen, die mit relevanten Deskriptoren indexiert sind, um den Kontext zu sehen. Anzeige der Deskriptoren in allen verfügbaren Sprachen für denselben Datensatz.

Das folgende Beispiel (Abb. 3) ist der IRRD-Datenbank (International Road Research Documentation) entnommen, die von der OECD (Organisation for Economic Cooperation and Development) hergestellt wird. IRRD bietet einen multilingualen Online-Thesaurus in Englisch, Französisch und Deutsch an, der mit dem EXPAND-Kommando bei ESA-IRS direkt abgesucht werden kann. Im gezeigten Beispiel wurde der Deskriptor „Umgehungsstraße“ expandiert, um alle damit verwandten Begriffe zu zeigen. Dazu gehören sowohl die französischen und englischen Entsprechungen als auch zwei verwandte deutsche Begriffe. Danach wurde der französische Deskriptor expandiert, um zwei verwandte französische Begriffe zu finden. Dies ist auch eine sehr billige Terminologie-Suchmöglichkeit, weil Datenbankbetreiber für die Suche im Wörterbuch – also nicht im Dokumentenbestand – geringe Gebühren verlangen.

 

Abbildung 3: Suche im mehrsprachigen Online-Thesaurus der IRRD-Datenbank3.3.5 Kurzreferat in mehr als einer Sprache

Dieser Typus Datenbank kommt selten vor. Manche Datenbanken, die in nicht-englischsprachigen Ländern produziert werden, enthalten Kurzreferate in der Landessprache oder in Englisch (die Referate der bei STN verfügbaren Datenbank INFODATA beispielsweise sind zu 65 Prozent in Englisch, zu 35 Prozent in Deutsch). Es gibt auch einige wenige Datenbanken von internationalen Produzenten, die Referate in mehr als einer Sprache erstellen. Die Dokumente in AGRIS (erhältlich bei ESA-IRS) werden vom Produzenten FAO (Food and Agriculture Organization der UNO) sowohl mit Deskriptoren als auch mit Kurzreferaten in Englisch, Französisch und Spanisch erschlossen. Die Titel sind in der Originalsprache und Englisch. Dies eröffnet vielfältige Terminologie-Suchmöglichkeiten im Bereich der Ernährungswissenschaft und Landwirtschaft. Abbildung 4 zeigt einen Datensatz der Datenbank PACKABS, die Kurzreferate und Deskriptoren in Englisch und Deutsch enthält.

Beispiele: AGRIS, PACKABS, ENERGIE

Nützlich für: Alle Terminologierecherchen, insbesondere Suche nach Begriffen und Phrasen im Textzusammenhang.

Strategie: Suche nach Begriffen entweder in Englisch oder in der(n) anderen Sprache(n) der Referate. Bei mehsprachigen Titeln besteht zudem die Möglichkeit, einen Begriff im Titel zu suchen und sich dazu noch die Referate anzeigen zu lassen, zum Beispiel (bei AGRIS) Suche nach einem schwedischen Wort im Titel, Anzeige des Titels in Englisch und Schwedisch, Anzeige des Referats in Englisch, Spanisch und Französisch.

 

Abbildung 4: Datensatz mit Kurzreferat und Klassifikation in zwei Sprachen (PACKABS)3.3.6 Verwendung der CAS Registry Number

Viele bibliographische und Faktendatenbanken im Fachbereich Chemie und verwandten Gebieten verwenden die international einheitliche Chemical Abstracts Registry Number (CAS Number) für die Identifizierung von chemischen Substanzen. Auch wenn von manchen Autoren der nicht-englische Name einer Substanz in einem nicht-englischen Artikel verwendet wird, wird die CAS-Nummer oft auch angegeben. Dies kann dann in verschiedenen Datenbanken verwendet werden, um den oder die englischen Namen der Substanz zu finden (siehe Beispiel in Abb. 5).

Beispiele: REGISTRY, CA, CASREACT, CBNB, Gmelin

Nützlich für: Suche von Benennungen chemischer Substanzen, einschließlich generischer Namen, Markennamen, chemischer Namen, etc.

Strategie: Verwendung der CAS-Nummer als Suchbegriff, Anzeige der Substanz-Namen. Suche nach Namen, um CAS-Nummer zu finden, Anzeige der anderen Namen (siehe Abb. 5).

 

Abbildung 5: Beispieldokument aus der Datenbank CA Registry bei STN, das die Registry Number (RN) und verschiedene Namen einer chemischen Substanz zeigt4 Strategien für Terminologiesuche

Um die Praktikibilität der Verwendung von bibliographischen Datenbanken für Terminologiearbeit realistisch zu prüfen, wurde ein Versuch unternommen, typische Terminologieaufgaben mit deren Hilfe zu lösen. Die verwendeten Suchstrategien sowie die Ergebnisse im Hinblick auf Erfolg, Kosten, Zeitaufwand und Zuverlässigkeit werden in den folgenden Abschnitten präsentiert. Die Beispielaufgaben sind typisch für die professioneller Fachübersetzer (beispielweise Übersetzung von technischen Produktspezifikationen) und waren mit konventionellen Hilfsmitteln nicht leicht lösbar. Als Vergleich wurden alle Termini zusätzlich in der EU-Terminologiedatenbank Eurodicautom nachgeschlagen, die unentgeltlich benutzt werden kann. Die Angaben zu den Kosten sind exklusive der Telekommunikationskosten. Die deutsch/englischen Beispiele sind Deutsch/Englisch und gut dafür geeignet, die Vor- und Nachteile der Terminologiesuche in bibliographischen Datenbanken aufzuzeigen. Die Kosten wurden möglichst niedrig gehalten. So wurden die Suchbegriffe alle vorher offline elektronisch erfaßt, und die billigsten Anzeigeformate gewählt (manche Datenbankanbieter verlangen für die Anzeige des Kurzreferates mehr als nur für die Anzeige des Titels; mehr für die vollständigen bibliographischen Angaben als nur für Titel, Sprache und Herkunftsland usw).

4.1 Suche nach englischen Äquivalenten von nicht-englischen (hier: deutschen) Termini

Aufgabe:

Finde die englischen Äquivalenten für eine Liste deutscher Fachtermini aus einer Quelle, d.h. aus einem Fachbereich. (Als Beispiel wurden 90 nicht leicht zu übersetzende Termini den technischen Spezifikationen in einem Katalog über Holzfarben und -lacke entnommen).

Strategie:

• wähle geeignete Datenbank(en) unter Verwendung der dafür angebotenen Hilfsmittel (zum Beispiel STNindex oder Questindex)

• suche die deutschen Begriffe in den Titeln dieser(en) Datenbank(en)

• zeige eine Auswahl der gefundenen Titel (da die Suchbegriffe nicht in Englisch sind, muß Sprache nicht explizit spezifiziert werden. Normalerweise sind sowohl der nicht-englische als auch der englische Titel im gleichen Feld enthalten, nämlich „title“.)

Es wurde mit dieser Strategie versucht, so schnell und kostensparend wie möglich zu Ergebnissen zu kommen, um urteilen zu können, ob Datenbanksuche eine realistische und bessere Alternative zu Wörterbuchsuche darstellt. In unserem Fall müßten der Titel zusammen mit dem Fachbereich der gewählten Datenbank(en) einen ausreichenden kontextuellen Zusammenhang bieten, um die Richtigkeit der Übersetzung zu beurteilen. Zudem ist ohnehin meist nur der Titel zweisprachig. Manche Datenbanken bieten ein kostenloses Anzeigeformat namens „trial“ oder „scan“ o.ä. an, die einen willkürlich ausgewählten Titel zeigt, damit der Benutzer die Richtigkeit der Suchfrageformulierung beurteilen kann. Manchmal ist dies auch für die Terminologiesuche schon ausreichend. Die Anzeige von mehreren Titeln erhöht jedoch die Sicherheit, daß die Übersetzung zuverlässig ist, falls sie mehrmals vorkommt oder durch mehr Kontextinformation validiert werden kann.

Erfolg, Kosten, Zeitaufwand:

Die Datenbankauswahl-Funktion von ESA-IRS wurde benutzt, um eine Gruppe relevanter Datenbanken zusammenzustellen (das heißt Datenbanken, in denen einige der gesuchten deutschen Begriffe häufig vorkamen). Diese Gruppe bestand aus den folgenden fünf Datenbanken: Chemabs, Compendex, Ibsedex, Pascal, NTIS. Danach wurde jeder zu suchende deutsche Begriff bis auf den Wortstamm trunkiert und nacheinander im Titelfeld gesucht. Bis zu fünf willkürlich ausgewählte Titel wurden für jeden Begriff angezeigt.

Von den 90 in der Liste enthaltenen Begriffen wurden auf diese Weise für 67 akzeptable Übersetzungen gefunden, das sind 74 Prozent. Die Suche dauerte 65 Minuten und kostete circa 170 Mark. Mit anderen Worten kostete die Suche nach jedem Begriff etwa 2 Mark und dauerte unter einer Minute.

Vergleich mit Eurodicautom:

Das Nachschlagen der gleichen 90 Begriffe in Eurodicautom dauerte 40 Minuten und war, abgesehen von Telekommunikationskosten, kostenfrei. Akzeptable Übersetzungen wurden für 64 (71 Prozent) der Begriffe gefunden. Mit anderen Worten waren die Ergebnisse ähnlich wie die bei den bibliographischen Datenbanken, aber billiger und schneller zu haben. Siehe jedoch Kapitel 5 zur Diskussion der Zuverlässigkeit der gefundenen Übersetzungen.

4.2 Suche nach nicht-englischen (hier deutschen) Äquivalenten von englischen Termini

Aufgabe:

Finde adäquate deutsche Übersetzungen für eine Liste von englischen Fachtermini aus einem Fachbereich. (Als Beispiel wurden hier 90 medizinische Fachbegriffe aus verschiedenen Fachpublikationen zu Hautkrankheiten ausgesucht. Die Mehrzahl waren Nominalphrasen oder Mehrwortbegriffe, deren Nachschlagen in konventionellen Wörterbüchern besonders schwierig ist, z.B. submandibular gland resection.)

Strategie:

Die Stategie ist ähnlich wie bei der vorherigen Aufgabe. Allerdings muß hier, da die Suchbegriffe in Englisch sind, die Sprache des Originaldokuments explizit als Deutsch spezifiziert werden.

• wähle geeignete Datenbank(en) für die Fragestellungen mit den dafür angebotenen Retrieval-Befehlen (z.B. STNindex oder Questindex)

• suche die englischen Begriffe in den Titeln dieser(en) Datenbank(en); spezifiziere Sprache als Deutsch

• zeige eine Auswahl der gefundenen Titel

Erfolg, Kosten, Zeitaufwand:

Unter Verwendung der Datenbankauswahl-Funktion von STN wurden die Datenbanken Embase und Medline ausgesucht. Nach den ersten Suchvorgängen wurde nur noch in Medline gesucht, weil in vielen Fällen die gefundenen Dokumente die gleichen waren, und Embase viel teurer in der Nutzung ist als Medline. Für Übersetzungszwecke ist die größere Vollständigkeit, die eine Suche in beiden Datenbanken geboten hätte, nicht erforderlich. Einige beispielhafte Dokumente reichen aus. Danach wurde jeder zu suchende englische Begriff bis auf den Wortstamm trunkiert und nacheinander im Titelfeld gesucht; die Sprache wurde im Feld „language“ mit Deutsch spezifiziert. Bis zu fünf willkürlich ausgewählte Titel wurden für jeden Begriff angezeigt.

Für 75 von den 90 in der Liste enthaltenen Begriffen (83 Prozent) wurden auf dieser Weise akzeptable deutsche Übersetzungen gefunden. In den meisten Fällen wurden die Nominalphrasen und Mehrwortbegriffe verbatim gefunden. Zwölf der fünfzehn nicht in Deutsch gefundenen Begriffe waren zwar in der Datenbank in einem Titel vorhanden, aber nur in Englisch, das heißt, Kontextinformation wie Titel, Kurzreferat und Deskriptoren zu diesen Termini waren verfügbar und hätten für eine weitere Suche oder Paraphrasierung des ursprünglichen Begriffes verwendet werden können. Die Suche dauerte circa 60 Minuten und kostete etwa hundert Mark.

Vergleich mit Eurodicautom:

Das Nachschlagen der gleichen 90 medizinischen Begriffe in Eurodicautom ergab 50 akzeptable Übersetzungen, das sind 56 Prozent. Die gesuchte medizinische Terminologie zeichnete sich aus durch eine große Anzahl von Mehrwortbegriffen und Nominalphrasen, für die in zwölf Fällen Teilübersetzungen gefunden wurden, die die Erfolgsrate auf 62 oder 69 Prozent anheben. Die Suche dauerte circa eine Stunde. In diesem Fall war die Suche in Eurodicautom deutlich weniger erfolgreich als die in Medline; trotzdem natürlich billiger.

4.3 Suche nach einer Übersetzung für einen obskuren englischen Fachbegriff

Aufgabe:

Finde eine deutsche Übersetzung oder Entsprechung für einen obskuren englischen Fachbegriff, für den der Kontext des Quelltextes vorhanden ist („obskur“ im Sinne von sehr spezialisiertem Fachjargon). Der Begriff ist im Quelltext von zentraler Bedeutung, so daß ein gewisser Aufwand bei der Suche gerechtfertigt ist. Andere Nachschlagemöglichkeiten sind schon ausgeschöpft worden (Wörterbücher, Fachleute). Dies ist eine nicht ungewöhnliche Situation in der Praxis.

Allgemeine Strategie:

• wähle geeignete Datenbank(en)

• suche in den Titeln dieser Datenbank(en) nach dem exklusiven Begriff; spezifiziere Sprache als Deutsch; falls nötig, schränke die Suche ein durch Aufnahme von Begriffen, die das Fachgebiet enger definieren

• zeige gefundene Titel an

• revidiere Suchstrategie, falls nötig

Beispiel:

Finde ein deutsches Äquivalent für den englischen Begriff festoon accumulator. Aus dem Kontext des Quelltextes ist erkennbar, daß ein festoon accumulator ein Bestandteil einer Produktionsstraße ist, die Papierprodukte wie Küchentücher etc. aufwickelt und verpackt. Der übergeordnete Kontext ist also Maschinenbau; speziell Papierverarbeitungsmaschinen und Verpackungsmaschinen. Der Begriff kommt in keinem Wörterbuch vor; der Kunde (Fachexperte) weiß keinen Rat.

Strategie und Ergebnisse: (hier: mit STN)

Im folgenden werden die Retrievalschritte und die Suchfrageformulierung mit der Messenger-Retrievalsprache gezeigt, jeweils gefolgt vom Ergebnis des Schrittes:

1. index engineering
Mit diesem Befehl wird eine von STN vordefinierte Gruppe (Cluster) von 53 Datenbanken im Bereich Ingenieurwissenschaften selektiert. Die nächsten Suchfragen werden in allen 53 ausgeführt.

2. s accumulator?/ti and german/la
Zeigt die Häufigkeit des Vorkommens des Wortstammes accumulator in Titeln von Dokumenten, deren Originalsprache Deutsch ist, in jeder Datenbank des engineering-Clusters.

3. file hits, -energy, -wpindex, -inspec
Hiermit werden aus dem engineering-Cluster die Datenbanken für weitere Suche ausgewählt, die für Frage 2 Ergebnisse lieferten; aus dieser Gruppe werden gleichzeitig drei Datenbanken entfernt (ENERGY ist zu weit entfernt von Maschinenbau; World Patent Index und INSPEC sind nur in Englisch).

4. s accumulator?/ti and festoon?/ti and german/la
Sucht in den ausgewählten Datenbanken nach gleichzeitigem Vorkommen beider Begriffe im Titel von Dokumenten, deren Original in deutscher Sprache ist. Im Idealfall hätte die Suche hier aufhören können.
Ergebnis: kein Treffer

5. s accumulator? and festoon?
Die vorherige erfolglose Suchfrage wird dadurch ausgeweitet, daß die Einschränkungen auf den Titel sowie auf Originalsprache Deutsch fallengelassen werden.
Ergebnis: zwei Dokumente, eins sehr relevant, leider nur in Englisch (in den Datenbanken Compendex und PIRA)

6. s accumulator?/ti and german/la
Da die bisherigen Schritte keine Übersetzung lieferten, wird die Suche jetzt einerseits ausgeweitet (durch Weglassen des seltenen Begriffes festoon), andererseits weiterhin sprachlich eingeschränkt.
Ergebnis: 261 Dokumente. Nach Anzeige einiger Dokumente zeigte es sich jedoch, daß accumulator meist in der Bedeutung battery oder heat accumulator gemeint war, also für unsere Frage nicht relevant.

7. s accumulator?/ti and production(w)line?
Hier wird ein Versuch gemacht, nicht-relevante Dokumente durch den Zusatz von production line zu eliminieren.
Ergebnis: vier Dokumente, von denen drei relevant waren (eins in der PIRA-Datenbank – International Packaging, Printing and Paper Abstracts; zwei in PROMT – Predicasts Overview of Markets and Technology). Beides nur Englisch.

8. s festoon?/ti and german/la
Ein letzter Versuch mit dem anderen Teil des zusammengesetzten Begriffes.
Ergebnis: ein Dokument aus der Patentdatenbank PATOSWO, das zwar nicht aus dem gleichen Fachgebiet stammt (es ging um eine Maschine für das Nähen von Bordüren an Nähgut), aber im zweisprachigen Kurzreferat sind immerhin deutsche Übersetzungen für den Begriff festoon enthalten (Festoniermaschine, Festonierverfahren).

Erfolg, Kosten, Zeitaufwand:

Die oben beschriebene Suche kostete insgesamt circa 60 Mark. Die Schritte 1 und 5 kosteten zusammen rund 10 Mark. Die Suche dauerte zehn Minuten.

Der Terminus festoon accumulator ist auch nicht als solches in Eurodicautom enthalten. Die zwei Bestandteile sind allein und in anderen Zusammensetzungen zwar vorhanden. Trotz Vorhandensein einer Klassifikation (Subject) und manchmal auch einer Definition der Begriffe konnte jedoch keine schlüssige Übersetzung gefunden werden.

Obwohl in den Datenbanken kein deutscher Begriff für festoon accumulator gefunden wurde, und damit die Suche vordergründig als erfolglos angesehen werden könnte, war die Suche trotzdem in einer Art und Weise erfolgreich, die nur bei Datenbankrecherchen möglich ist. Die Kurzreferate der vier in den Schritten 5 und 7 gefundenen relevanten Dokumenten enthielten ausreichende Auskunft darüber, was ein festoon accumulator im gegebenen Kontext ist, um einem Übersetzer zumindest die Paraphrasierung in Deutsch zu ermöglichen. Die gefundene deutsche Entsprechung für festoon in einem anderen Kontext könnte hierfür ebenfalls herangezogen werden. Die Tatsache, daß die eingehende Suche in Millionen Dokumenten im Bereich Maschinenbau keine genaue deutsche Entsprechung lieferte, kann als starken Hinweis darauf verstanden werden, daß es auch keine gibt. Damit ist die Paraphrasierung bzw. Erfindung eines deutschen Begriffes durch den Übersetzer legitimiert. Für diese schwierige terminologische Aufgabe war die Ermittlung relevanter Dokumente in der Quellsprache und Anzeige informativer Kurzreferate über deren sehr speziellen Inhalt wahrscheinlich die bestmögliche Lösung. Ein Versuch, die gleiche Aufgabe in der Bibliothek zu lösen, hätte einen ungleich größeren Zeitaufwand bedeutet, weil die relevanten Dokumente aus spezialisierten Fachzeitschriften stammten, die von spezialisierten Datenbankproduzenten indexiert wurden. Ob die Kosten für die Datenbanksuche als prohibitiv angesehen werden, hängt von der Wichtigkeit des Begriffes für die gegebene Aufgabe ab.

5 Schlußfolgerungen

Es ist schwierig, ein generelles Urteil über die Nützlichkeit von bibliographischen Online-Datenbanken für mehrsprachige Terminologiezwecke zu fällen. Tabelle 4 gibt eine vergleichende Übersicht über die zwei in Kapiteln 4.1 und 4.2 beschriebenen Beispielaufgaben, sowie über die Ergebnisse der Suche nach den gleichen Begriffen in Eurodicautom. Hier sieht man, daß in zwei verschiedenen Fachgebieten und in unterschiedlicher Sprachrichtung signifikante Unterschiede bestehen in der Anzahl der Treffer (74 Prozent gegenüber 83 Prozent oder mehr, wenn Quellsprachen-Kontextinformation berücksichtigt wird), in den Kosten (circa 170 Mark gegenüber hundert Mark für die gleiche Anzahl von Termini) und im Vergleich mit Eurodicautom (71 Prozent gegenüber 56 Prozent Erfolg). Im Falle des Beispiels aus dem Bereich Chemie- und Materialwirtschaft (Holzbehandlungsmittel) war die Suche in Eurodicautom fast so erfolgreich und dabei billiger als die Suche in den Literaturdatenbanken, zumindest für die hier ausprobierte Sprachkombination und -richtung Deutsch ® Englisch. Beim Beispiel aus dem Fachgebiet Medizin (Dermatologie) und in der Sprachrichtung Englisch ® Deutsch war die Suche in der Datenbank Medline sehr viel erfolgreicher als die Suche in der Terminologiedatenbank Eurodicautom, jedoch natürlich teurer. Daß die Kosten für die Medline-Suche so viel niedriger waren als die Suche in den Chemie- und technischen Datenbanken im ersten Beispiel liegt daran, daß Medline selbst vergleichsweise billig zu benutzen ist. In beiden Beispielfällen bieten die Ergebnisse der bibliographischen Suche den Mehrwert der syntaktischen und semantischen Informationen aus dem Dokument-Kontext. In manchen Fällen können solche Informationen konkret dazu beitragen, daß der richtige Terminus (Übersetzung) gewählt wird (siehe Kapitel 5.1 unten). Sowohl die Datenbanksuche als auch das Nachschlagen in Eurodicautom waren schnell, wobei die Erfahrung der Rechercheurin berücksichtigt werden muß.
 

Tabelle 4: Ergebnisse der Testrecherchen
  Deutsch ® Englisch 

(90 Begriffe)

Englisch ® Deutsch 

(90 Begriffe)

Datenbankbetreiber ESA-IRS STN
Fachgebiet Holzbehandlungsmittel Dermatologie
Datenbanken Chemabs, Compendex, 

NTIS, Ibsedex, Pascal

Medline, Embase
Beispielbegriffe Haarriß, imprägniert,  
Hartfaserplatte
dendritic staining pattern, 
polymerase chain reaction,
Strategie Titelsuche und -anzeige Titel- und Sprachsuche; 
Titelanzeige
Ergebnisse 67 Begriffe gefunden = 74% 75 Begriffe gefunden = 83% 

(12 weitere Begriffe nur in Englisch gefunden)

Kosten, Zeitaufwand DM 170; 65 Minuten DM 100; 60 Minuten
Vergleich Eurodicautom 64 Begriffe gefunden = 71% 
40 Minuten
50 Begriffe gefunden = 56% 
60 Minuten
 

Das dritte Beispiel in Kapitel 4.3 zeigt die Vorteile der Terminologiesuche in bibliographischen Datenbanken am anschaulichsten. Die gesuchte Benennung war sehr spezialisiert und konnte nicht mit konventionellen Mitteln gefunden werden; gleichzeitig war sie für die anstehende Aufgabe von zentraler Bedeutung. Obwohl eine eins-zu-eins Übersetzung nicht gefunden wurde, wurden ausreichende Kontextinformationen gefunden, um eine Paraphrasierung in der Zielsprache zu ermöglichen. Dies ist ein sehr befriedigendes Ergebnis, das die Kosten eventuell rechtfertigt. Denn da eine ausführliche Suche in Millionen Fachdokumenten keine etablierte Übersetzung zutage förderte, kann davon ausgegangen werden, daß höchstwahrscheinlich auch keine existiert.

Im Falle der 12 (von 15) medizinischen Begriffen, für die zwar keine Übersetzung, dafür aber relevante englische Dokumente in Medline gefunden wurden, könnten ebenfalls die Kontextinformationen in den Titeln, Kurzreferaten und Deskriptoren verwendet werden, um weiter zu suchen oder um zu paraphrasieren.

5.1 Zuverlässigkeit

Die Zuverlässigkeit der durch Datenbanksuche gefundenen Termini kann als hoch eingeschätzt werden. Dies hat zwei Ursachen: erstens stehen die gefundenen Begriffe im Textzusammenhang, so daß ihre Richtigkeit im Kontext der Aufgabe überprüft werden kann; zweitens ist es meist möglich, sich mehrere Dokumente mit einem gegebenen Begriff und deren Übersetzung anzeigen zu lassen. Kommt die gleiche Übersetzung für einen Begriff häufig vor, ist dies auch ein Hinweis auf Richtigkeit. Beides sind spezifische Vorteile der bibliographischen Suche nach Übersetzungen für Fachbegriffe.

In Tabelle 5 sind einige Beispiele aus den Testrecherchen in Kapitel 4.1 und 4.2 aufgeführt.
 

Tabelle 5: Wahl der richtigen Übersetzung
Deutscher Begriff Englische Übersetzungen in der Datenbank Kontext/Fachbereich
Haarriß stress crack kernels of corn
  fatigue crack welding seams
  pinhole high voltage leakage tests
  crazing earthenware
  shrinkage crack concrete
  shrinkage shake wood
lichtecht photostable fluorescent dye
  resistant to discoloring anorganic pigment
  fast to light aluminum
  light fast plastic
Neurodermitis neurodermitis **existiert nicht**
  neurodermatitis akzeptabel
  neurodermititis **falsch geschrieben**
  atopic dermatitis akzeptabel (standard)
  atopic eczema akzeptabel
 

Für den deutschen Begriff Haarriß wurden sechs verschiedene Übersetzungen gefunden. Der Kontext, der aus den Dokumenttiteln ersichtlich ist (die Titel von technischen Fachartikeln sind oft sehr informativ), ermöglicht jedoch die Wahl der richtigen englischen Entsprechung für die aktuelle Aufgabe. In diesem Fall war es nötig, sich mehrere Dokumente anzeigen zu lassen, um die verschiedenen Übersetzungen im Kontext zu finden. Die Terminologiedatenbank Eurodicautom schlug zwei Übersetzungen vor, jedoch ohne Kontextinformation.

Ein weiteres Beispiel für sprachübergreifende Polysemie ist der Begriff lichtecht, für den vier englische Übersetzungen in vier Domänen gefunden wurden. Auch hier wäre die Kontextinformation ausschlaggebend für die richtige Wahl.

(Carson & Wootton 1988) postulieren, daß das bloße Vorhandensein der Übersetzung eines Fachbegriffes in einer Datenbank eine gewisse Gewährleistung für deren Zuverl‰ssigkeit darstellt, da der Prozeß der Indexierung und Übersetzung, der zu der Aufnahme in die Datenbank führt, von Fachexperten durchgeführt wird. Die Tatsache, daß während der Testrecherchen manchmal mehrere Übersetzungen für den gleichen Terminus – auch im gleichen Fachgebiet – gefunden wurden, scheint dieser These zu widersprechen. Es muß aber berücksichtigt werden, daß die englische Version des Titels eines nicht-englischen Dokumentes immer eine Übersetzung ist, die auch gelegentlich vom Autoren selber gemacht wird.

Einige der verschiedenen Übersetzungen des deutschen Begriffs Neurodermitis in Tabelle 5 sind Beispiele für schlechte Titelübersetzung in ein und derselben Datenbank (Medline). Ein nicht-existenter Begriff wurde gefunden sowie falsche Schreibweisen und einige quasi-synonyme Begriffe. Zum Glück bietet die Datenbank selbst auch Abhilfe für das Problem. Wie im Falle der mehrfachen Übersetzungen des Worts Haarriß gibt es drei Lösungsmöglichkeiten. Erstens kann durch die Anzeige einer größeren Anzahl von Dokumenten festgestellt werden, welche Version am häufigsten verwendet wird. Auf diese Weise kann auch Kontextinformation herangezogen werden, um Quasi-Synonymität aufzulösen. Zweitens besteht die Möglichkeit, die englischen Termini als Suchbegriffe in englischsprachigen Dokumenten zu verwenden, um herauszufinden, wie sie in originalsprachlichen Dokumenten gebraucht werden. Drittens, falls vorhanden, kann überprüft werden, ob der gesuchte Begriff auch als kontrollierter Deskriptor vorkommt, denn dies ist ein guter Indikator von Standard-Gebrauch (in diesem Fall ist atopic dermatitis ein kontrollierter Deskriptor und somit die beste Wahl als Übersetzung von Neurodermitis).

5.2 Kosten

Neben den relativen Kosten der Online-Suche in bibliographischen Datenbanken gegenüber der Suche in Eurodicautom oder konventionellen Quellen muß auch der Aufwand, das Online-Suchen zu erlernen, berücksichtigt werden. Außerdem ist die Aufrechterhaltung einer Zugangsberechtigung zu einem Hostbetrieb mit zusätzlichen Kosten verbunden, beispielweise für Dokumentation (Datenbankbeschreibungen, Thesauri, Handbücher), für die jährliche Grundgebühr, für Telekommunikationskosten. Natürlich braucht man auch eine entsprechende Hardware-Ausrüstung. Aber am prohibitivsten für gelegentliche Benutzer wird sicher der Lernaufwand für die effektive Nutzung der Retrievalsprachen sein. Es ist ein bekanntes Problem, daß, obwohl die Funktionalität bei jeder Retrievalsprache ähnlich ist, die Syntax gerade soviel variieren kann, daß sie gelegentlichen Benutzern das Leben schwer macht. Einige Datenbankbetreiber führen vereinfachte Suchverfahren im WWW (World Wide Web) ein, z.B. STN-Easy, die diese Situation verbessern könnten. STN-Easy berechnet pro Anfrage und nicht nach Anschlußzeit, was auch anfänger-freundlich ist, aber für geübte Benutzer etwas teurer. Bestimmte Funktionalität ist jedoch eingeschränkt.

5.3 Zusammenfassung

Folgende Punkte sind bei einer Entscheidung für oder wider die Suche in bibliographischen Datenbanken für sprachübergreifende Terminologiezwecke zu berücksichtigen:

Vorteile:

• die Zuverlässigkeit ist hoch einzuschätzen, weil verschiedene Verifikationsmöglichkeiten bestehen;

• besonders nützlich für schwierige terminologische Probleme, die mit herkömmlichen Mitteln nicht lösbar sind;

• könnte für größere Übersetzungs- und Terminologieprojekte hilfreich sein, für die Textbeispiele in Ausgangs- und Zielsprache erforderlich sind;

• bietet Mehrwert durch syntaktische und semantische Einbettung der Termini in verschiedenen Textzusammenhängen.

(mögliche) Nachteile: • der Nutzen hängt von Fachgebiet und Sprachkombination ab;

• Zeit muß in die Auswahl der Datenbanken investiert werden, weil der Umfang der Mehrsprachigkeit nicht immer leicht feststellbar ist;

• das Erlernen von Retrievalsprachen kann für gelegentliche Nutzer zeitaufwendig sein;

• die Kosten können von Datenbank zu Datenbank stark variieren.

Literatur

(Bergeijk 1983) Bergeijk, D. van: The WORLD TRANSINDEX, a data base on existing scientific translations. An aid to overcome the language barrier. In: Multilingua. Journal of interlanguage communication under the auspices of the Commission of the European Communities. Amsterdam. NL: (1983) V. 2 (1) p. 27-31.

(Carson & Wootton 1988) Carson, B.L. & Wootton, J.: The practicality of using online databases to solve translation problems in scientific and technical fields. In: Ed(s): Hammond, D.L.: Languages at crossroads. Proceedings of the 29th annual conference of the American Translator Association, Seattle, Washiington, October 12-16, 1988. Learned Information, Meford, NJ, USA 1988, p. 129-140.

(Hoffmann 1988) Hoffmann, E.: The LEXIS termbank. In: Ed(s): Picken, C.: Translating and the computer 9. Potential and practice. Proceedings of a conference, London, 12-13 November 1987, Aslib, London 1988. p. 154-160.

(Hohnhold 1984) Hohnhold, I.: The TEAM terminology data bank system. In: TermNet news. Journal of the international network for terminology. Wien, AT: (1984) (8) p.19-33.

(Sano 1988) Sano, Hikomaro: Online databases as sources of linguistic information. In: Online Review. (1988) V. 12 (1) p. 15-23.

(Schmitt 1990) Schmitt, P.A.: Die Terminologiedatenbank des Fachbereichs Angewandte Sprachwissenschaften der Johannes Gutenberg-Universität Mainz. In: Terminologie et traduction. (1990) (3) p. 39-61.

Web-Adressen der erwähnten Hosts

STN International: http://www.fiz-karlsruhe.de/stn.html

ESA-IRS: http://www.esrin.esa.it/htdocs/esairs/esairs.html

ECHO: http://www2.echo.lu

Questel: http://www.questel.fr