Studium Informationswissenschaft
Virtuelles Handbuch Informationswissenschaft
11. Einige beispielhafte Fragestellungen
Exkurs: Computergestützte und maschinelle Übersetzung für die Fachinformation
Heinz-Dirk Luckhardt
0. | Einführung |
1. | Definitionen |
2. | Die Entwicklung der MÜ (Geschichte und Stand der Technik) |
3. | MÜ in der Fachinformation |
4. | Ein Beispiel für den Einsatz von MÜ in der Fachinformation |
LITERATUR |
0. Einführung
Die Gründe, die Ende der 40er Jahre zu ersten Überlegungen über die Maschinelle Übersetzung (MÜ) geführt haben, sind heute – 50 Jahre später – genauso stichhaltig wie damals und betreffen die Fachinformation in ihrem Kern: die Verfügbarkeit von Informationen, die man zur Lösung eines bestimmten fachlichen Problems benötigt. Damals ging es in erster Linie um Aufsätze aus russischen Zeitschriften; in der Zwischenzeit hat sich das Problem der Verfügbarkeit von (Fach-)Literatur auf praktische alle Verkehrssprachen ausgedehnt – und seine Lösung ist immer noch in weiter Ferne, u.a. weil die Kosten für die Maschinelle Übersetzung noch viel zu hoch sind und die Menge der zur Übersetzung anstehenden Literatur (Fachartikel, Patentschriften etc.) unüberschaubar ist.
In diesem Orientierungsartikel wird – nach einigen grundlegenden Definitionen – zunächst auf einige wichtige Abschnitte in der Entwicklung der MÜ eingegangen. Es folgen eine kurze Beschreibung des Standes der Technik und Überlegungen zum Einsatz maschineller bzw. computergestützter Übersetzung in der Fachinformation.
1. Definitionen
Wir wollen unterscheiden zwischen Maschineller Übersetzung (MÜ, machine translation) und computergestützter Übersetzung (computer-aided translation, CAT). „Maschinelle Übersetzung“ bedeutet, dass einzelne Wörter, Sätze oder ganze Texte von einem Computer von einer Sprache A in eine Sprache B übersetzt werden. „Computergestützte Übersetzung“ kann zweierlei bedeuten:
- der Computer übersetzt, der Mensch hilft dabei durch Vor- oder Nachbereitung des zu übersetzenden Materials (pre- bzw. post-editing). Man spricht hier von human-aided machine translation (HAMT).
- der Mensch übersetzt, der Computer unterstützt ihn dabei durch automatisches Nachschlagen von Terminologie (automatic dictionary look-up), durch Vergleichen von Texten mit früheren Übersetzungen (translation memory) etc. Man spricht dabei von machine-aided human translation (MAHT).
2. Die Entwicklung der MÜ
Das sogenannte „Weaver-Memorandum“ von 1949, in dem Weaver die Übersetzung von Sprache durch Computer propagierte, kann als Geburtsstunde der MÜ angesehen werden. Da man insbesondere in russischen Fachzeitschriften ein großes Wissensreservoir vermutete, richteten sich die ersten MÜ-Versuche auf das Sprachpaar Russisch-Englisch. Es handelte sich um nicht viel mehr als Wort-für-Wort-Übersetzungen, bei denen die russischen Wörter durch englische ersetzt und verschiedene Umstellungen bzw. Einsetzungen (z.B. von Artikeln, die ja im Russischen nicht existieren) vorgenommen wurden.
Diese ersten Versuche waren völlig unzureichend, da eben keine wirkliche Analyse des Ausgangstextes erfolgte und nur sehr kleine Wörterbücher mit wenigen hundert Wörtern aufgebaut wurden. Die ersten tiefer gehenden Forschungsarbeiten beschäftigten sich mit der morphologischen bzw. phonologischen Analyse, also mit Lauten und Wörtern.
Aber je mehr man in die Materie eindrang, um so mehr kam man zu der Erkenntnis, daß die Zerlegung und Funktionsanalyse von Wörtern nur ein erster kleiner Schritt auf dem Wege zu der angestrebten FAHQT (fully automatic high-quality translation) sein konnte. Vor allem die Analyse syntaktischer Strukturen (Nominalgruppen, Prädikat-/Argumentstrukturen, Teilsätze, Sätze), die semantische Analyse und die Bewältigung von Unterschieden zwischen Ausgangs- und Zielsprache, also die eigentlichen „Übersetzungsschwierigkeiten“, wie sie von der sogenannten „Humanübersetzung“ her bekannt sind, galt und gilt es in den Griff zu bekommen.
Als man zu dieser Erkenntnis gelangt war, riss die Entwicklung in den USA, wo sie in erster Linie vorangetrieben worden war, erst einmal ab, Stichwort: ALPAC-Report. Dieser Report stellte 1966 fest, dass es keine funktionierende MÜ gebe und wohl auch nie geben werde. Also wurde die Förderung mit staatlichen Mitteln eingestellt. Aus den frühen Entwicklungen (Stichwort „Georgetown-System“) entstanden kommerzielle Systeme wie SYSTRAN und LOGOS, die heute noch existieren. Daneben wurde nur an der Universität von Austin Forschung betrieben. Diese resultierte in den 70er Jahren in dem System METAL, das von der Fa. Siemens erworben und weiterentwickelt wurde.
Abgesehen davon jedoch verlagerte sich das Schwergewicht der MÜ-Forschung und -entwicklung nach dem ALPAC-Report nach Europa. Hier taten sich zunächst (70er und 80er Jahre) die Universitäten Grenoble (GETA/ARIANE) und Saarbrücken
hervor, später (80er und frühe 90er Jahre) die Europäische Gemeinschaft mit dem Mammutprojekt EUROTRA, das zwar nicht zur Entwicklung des zunächst angestrebten multilingualen MÜ-Systems, aber wenigstens zur Heranbildung „computerlinguistischer Kompetenz“ in allen Ländern der Gemeinschaft führte.Insgesamt kann man nicht sagen, dass in den letzten Jahren neue Systeme entstanden sind, die die inhaltlichen Probleme der MÜ („Übersetzungsschwierigkeiten“) mit linguistischen Methoden eher in den Griff bekommen hätten als z.B. SUSY oder ARIANE. Dennoch werden heute mehr und mehr MÜ- bzw. CAT-Systeme eingesetzt. Dies hat seinen Grund darin, dass die Entwicklung eher in Richtung „computergestützte Übersetzung“ geht, weg von der Idee der MÜ, die „alles“ kann. Es kommt auf die Einbettung der MÜ in Betriebsabläufe an, darauf, dass der Computer bestimmte stereotype, immer wiederkehrende (linguistische) Operationen besser bewältigt als der Mensch. Und hier treten zunehmend PC-orientierte Systeme wie Personal Translator (Linguatec) oder Power Translator (Globalink) in Erscheinung, die zwar weniger „können“, die aber (fast) jeder auf seinem PC einsetzen und an seine Bedürfnisse anpassen kann und die im Vergleich zu den Großcomputer- oder Workstation-orientierten Systemen auch für jedermann erschwinglich sind.
Neben die linguistischen Verfahren traten in den letzten Jahren mehr und mehr mathematisch-statistische/probabilistische und datenbankbasierte (translation memory) Verfahren. Erstere versuchen, auf der Grundlage existierender paralleler Korpora, d.h. von Sammlungen bereits übersetzter Texte, für einen gegebenen neuen Text die wahrscheinlichste Übersetzung zu berechnen, und werden eher zur HAMT gerechnet. Translation Memories (auch: EBMT = example-based machine translation) rechnen eher zur MAHT und werden z.B. dann eingesetzt, wenn große Mengen von Texten mit geringen Unterschieden zu bereits existierenden Texte übersetzt werden müssen, d.h. ein Vergleich mit bereits vorliegenden Übersetzungen bereits einen großen Teil der Arbeit erledigt. Translation Memories können neben kompletten Texten auch unterschiedlich komplexe „Übersetzungseinheiten“, also Sätze oder Satzteile, enthalten.
3. MÜ in der Fachinformation
MÜ wird in der Fachinformation immer wichtiger, weil es immer mehr Fachwissen gibt und weil dieses Fachwissen sehr oft in einer Sprache vorliegt, in der es den Informationssuchenden nichts nützt. Also muss in irgendeiner Phase des Informationsprozesses „übersetzt“ werden, vom Menschen oder vom Computer, maschinell oder computergestützt, „quick-and-dirty“ oder mit hoher Qualität, im Service oder auf dem eigenen Schreibtisch, bevor (Text-)Daten in eine Datenbank eingespeist werden oder erst nachdem ein Informationssuchender ein möglicherweise relevantes Dokument gefunden hat, also sozusagen „auf Vorrat“ oder „on-demand“. Die Einsatzmöglichkeiten von MÜ sind sehr vielfältig, aber keineswegs ausgereift in dem Sinne, dass solche Möglichkeiten bereits leicht zu nutzen sind und schon in größerem Umfang genutzt werden. Die folgenden Punkte sind nicht im Sinne einer Klassifikation von MÜ-Arten zu verstehen, es handelt sich lediglich um verschiedene Einsatzszenarien, die einander teilweise überlappen.
3.1 MÜ on-demand
Ein Dokument kann „bei Bedarf“ übersetzt werden, wenn ein Datenbankanbieter oder Informationsvermittler diesen Service anbietet. Dazu gehört, dass der Anbieter selbst über ein MÜ-System verfügt oder ein WWW-Übersetzungstool nutzt.
3.2 Batch-orientierte MÜ
Batch- oder Stapel-Betrieb war noch vor zwanzig Jahren die gängige Art, Computer (Großrechner) zu betreiben, nämlich über die Eingabe eines „Stapels“ von Lochkarten, in die die zu bearbeitenden Daten eingestanzt waren. Heute bezeichnet der Begriff „Batch-Betrieb“ die Bearbeitung einer größeren Datenmenge ohne Eingriff des Menschen, natürlich nicht per Lochkarten, sondern per Dateien auf elektronischen Speichermedien.
3.3 Interaktive MÜ
Dieser Begriff wird durchaus nicht einheitlich interpretiert. Bei der interaktiven MÜ ist es auf jeden Fall so, dass der Mensch in den Übersetzungsprozess eingreift. Dazu kann z.B. die Präedition gehören, die Aufbereitung des zu übersetzenden Textes durch Übersetzer/Fachleute. Ziel ist es hier, die Texte für den Computer leichter analysierbar zu machen, also vom Fachmann vorhersehbare Probleme auszumerzen.
Dazu rechnet auch die „Interaktion“ im engeren Sinne, die Reaktion eines Übersetzers auf bestimmte Probleme, die der Computer mit der Übersetzung hat und dem Übersetzer meldet. Diese Art des Eingriffs ist relativ wenig gebräuchlich, da sehr zeitaufwendig. Schließlich gibt es noch die Postedition, wahrscheinlich die gebräuchlichste Art der interaktiven MÜ. Hier wird die Computerübersetzung en bloc nachredigiert, entweder durch „rapid postediting“ – Ausmerzen der gröbsten Fehler – oder durch hochqualitative Nachredaktion.
3.4 PC-basierte MÜ
Die Punkte 3.1 – 3.3 betreffen MÜ, wie sie bei größeren Informationsanbietern eingesetzt wird. Der private Nutzer kann entweder „on-demand“ auf ein online verfügbares System zugreifen oder sich ein System auf dem eigenen PC installieren, um unabhängig zu sein, v.a. in bezug auf Terminologie, Phraseologie, Stil etc.
4. Ein Beispiel für den Einsatz von MÜ in der Fachinformation
Das damalige Bundesministerium für Forschung und Technologie hat bis Anfang der 90er Jahre an der Universität des Saarlandes verschiedene Projekte (u.a. MARIS und STS) gefördert, in denen in größerem Umfang Möglichkeiten des Einsatzes der MÜ in der Fachinformation untersucht wurden (vgl. Luckhardt/Zimmermann 1991), u. zw. durch Einsatz des „Saarbrücker Maschinellen Übersetzungssystems“
Ziel war v.a. zu untersuchen, wie man die deutsche Fachinformation „mehrsprachig“ machen, hier: auf Deutsch und Englisch anbieten kann.Das größte Hindernis auf dem Wege dahin ist das Fehlen der jeweiligen Fachterminologie. Ein beliebiges auf Texte eines bestimmten Fachgebiets angesetztes MÜ-System hat also zunächst das Handicap, für die in den Texten enthaltenen Begriffe in seinen Lexika keine Übersetzungen anbieten zu können. Der erste Schritt ist also die Erweiterung der Lexika um den relevanten Wortschatz, den es jedoch i.d.R. nicht in elektronischer Form gibt, der also erst erstellt werden muss.
In MARIS wurde diesem Problem dadurch begegnet, dass die anfallenden Übersetzungen von Titeln und Abstracts aus deutschen Datenbanken zunächst von Übersetzer(inne)n erledigt wurden. Die dabei recherchierten Termübersetzungen wurden nach und nach in die Lexika aufgenommen, bis man annehmen konnte, dass ein hoher Prozentsatz der Terminologie der bearbeiteten Fachgebiete (z.B. „Bauwesen“, Datenbank ICONDA des FIZ Raum und Bau, Stuttgart) erschlossen war. Danach konnte die MÜ bzw. CAT eingesetzt werden. Insgesamt wurde auf diesem Wege ein deutsch-englisches Übersetzungslexikon mit 330.000 Einträgen kompiliert.
Die Ergebnisse der Projekte MARIS und STS sind nachzulesen in Luckhardt/Zimmermann 1991.
Literatur
- Blatt, A., Freigang, K.-H., Schmitz, K.-D., Thome, G. (1985).
- Computer und Übersetzen. Eine Einführung. Hildesheim: Olms
- c’t magazin (2010).
- Words don’t come easy. Maschinelle Übersetzung auf dem Desktop und im Web. Ein Vergleich von Systran, Bing und Google mit aktuellen Profi-Werkzeugen für den Desktop. c’t magazin 9/2010, S. 120
- Hutchins, W. John, and Harold L. Somers (1992).
- An introduction to machine translation. London: Academic Press, 1992. http://www.hutchinsweb.me.uk/IntroMT-TOC.htm .
- Komm. der Eur. Gem. (1989).
- Operational Machine Translation: Bibliography of Documents Available in DG XIII-B3. Luxemburg: KEG: DG XIII, 9/89
- Kingscott, G. (1989).
- Applications of Machine Translation. Luxemburg: Komm. der E. G.
- Kuhlen, Rainer; Thomas Seeger; Dietmar Strauch (Hrsg., 2004):
- Grundlagen der praktischen Information und Dokumentation. 5. Auflage. München: K. G. Saur
- Lehrberger, J.; L. Bourbeau (1988).
- Machine Translation – Linguistic Characteristics of MT Systems and General Methodology of Evaluation. Amsterdam: John Benjamins
- Luckhardt, H.-D. (1987).
- Der Transfer in der maschinellen Übersetzung. Tübingen: Niemeyer
- Luckhardt, H.-D.; H.H. Zimmermann (1991).
- Computergestützte und Maschinelle Übersetzung – Praktische Anwendungen und angewandte Forschung. Saarbrücken: AQ-Verlag
- Multilingua (1986).
- EUROTRA Special Issue. Multilingua 5-3/1986
- Nagao, M. (1989).
- Machine Translation – How far can it go? Oxford: Oxford University Press
- SDV 1-2/1984.
- Maschinelle Übersetzung (SUSY). Sprache und Datenverarbeitung 1-2/1984
- SDV 1/1985.
- Maschinelle Übersetzung (verschiedene Systeme). Sprache und Datenverarbeitung 1/1985
- Zimmermann, Harald H. (2004):
- Maschinelle und computergestützte Übersetzung. In: Kuhlen/Seeger/Strauch, Kap. C11, 475-480