A person’s arms reaching toward circular geometric shapes

Generatives KI-Modell übertrifft neuronale maschinelle Übersetzung einer Engine im aktuellen Vergleich

Ist dieser Meilenstein der Anfang vom Ende des Paradigmas der neuronalen maschinellen Übersetzung?

Zuletzt aktualisiert: 12.05.2023 01:13

Zum ersten Mal in unserem Vergleich maschineller Übersetzungen (Machine Translation, MT) lieferte ein generatives Modell künstlicher Intelligenz (KI) eine bessere Übersetzungsleistung als eine Engine mit neuronaler maschineller Übersetzung (NMT). Insbesondere das große Sprachmodell (Large Language Model, LLM) GPT-4 schaffte es, Yandex mit dem Sprachpaar Englisch-Chinesisch zu übertreffen.

Es lohnt sich, die Auswirkungen dieser Entwicklung genauer in Augenschein zu nehmen.

Ist dies ein Zeichen dafür, dass das Paradigma der neuronalen maschinellen Übersetzung zu Ende geht oder sich dramatisch verändert? In dem Fall können wir einen Wandel in der Bereitstellung maschineller Übersetzungen erwarten, der einen Qualitätssprung, eine noch breitere Nutzung und die Fähigkeit, noch mehr Inhalte zu veröffentlichen, mit sich bringt.

MT-Anbieter müssen an der Spitze des technologischen Wandels stehen und sich gut überlegen, wie sich dieser auf ihre aktuelle Engine auswirken wird, um ein Angebot bereitzustellen, das die Fortschritte vollständig ausschöpft. MT-Kunden müssen über die Entwicklungen auf dem Laufenden bleiben, um kluge Investitionen zu tätigen. Dazu werden wahrscheinlich auch einige LLM-basierte Technologien (anstelle reiner neuronaler MT-Angebote) gehören.

KONTAKT

LLM übertrifft NMT: Was bedeutet das?

Auch wenn das Ergebnis dieser Bewertung ein Durchbruch ist, wollen wir es doch erst einmal in Relation setzen. Wichtig ist vor allem, dass es sich hierbei nur um ein einzelnes Modell für ein einziges Sprachpaar handelt. Das LLM schnitt lediglich im Vergleich zu einer von fünf NMT-Engines besser ab, und das nur bei einer bestimmten Bewertung: der Multireferenz-Evaluierung. Ist diese Entwicklung dennoch ein Gamechanger? Es spricht alles dafür.

Auch wenn das Ergebnis im obigen Kontext unbedeutend erscheinen mag: Es ist dennoch das erste Mal seit der Einführung der NMT, dass eine andere MT-Technologie eine neuronale MT-Engine in der Leistung übertroffen hat. Und das, obwohl es sich bei dieser Technologie um eine Mehrzweck-Sprachautomatisierung handelt, die nicht speziell für die maschinelle Übersetzung entwickelt wurde. Es ist also vor allem dieses letzte Detail, das diese Entwicklung so besonders macht.

Was bedeutet die überraschende Leistung von ChatGPT-4 für das Paradigma der neuronalen maschinellen Übersetzung?

Seit Februar 2022 haben wir in unseren Beiträgen die Möglichkeit eines MT-Paradigmenwechsels in nicht allzu ferner Zukunft in Frage gestellt. In unserer MT-Analyse können Sie unsere Überlegungen zu dem Thema aus dieser Zeit noch einmal nachlesen. Diese jüngsten Vergleichsergebnisse sind ein weiterer Beweis dafür, dass ein bedeutender Wandel bevorsteht.

Aber lassen Sie uns keine voreiligen Schlüsse ziehen. Es ist noch zu früh, um vorherzusagen, dass Large Language Models die NMT-Engines ersetzen werden – geschweige denn, dass der Wechsel unmittelbar bevorsteht. Wir brauchen mehr Zeit, um weitere Daten zu dem Thema auszuwerten. Zu viele Faktoren müssen hierbei berücksichtigt werden, und die LLM-Technologie muss sich noch erheblich verbessern, um eine verlässliche Übersetzungslösung für Unternehmen darzustellen.

Voraussichtlich beginnt der Paradigmenwechsel damit, dass NMT-Engines einige LLM-Ansätze übernehmen, da beide Technologien viele Gemeinsamkeiten aufweisen.

Übersetzungsergebnisse von NMT und LLM für drei verschiedene Sprachpaare

Vergleichen wir die Übersetzungsergebnisse der fünf besten NMT-Engines und einiger GPT-Modelle für drei ausgewählte Sprachpaare.

Wir haben das Qualitätsniveau auf der Grundlage der umgekehrten Bearbeitungsdistanz unter Verwendung mehrerer Referenzen für die folgenden Sprachpaare berechnet: Englisch-Chinesisch (EN-ZH), Englisch-Spanisch (EN-ES) und Englisch-Deutsch (EN-DE).

Die Bearbeitungsdistanz misst dabei die Anzahl der Bearbeitungen, die ein Mensch an der MT-Ausgabe vornehmen müsste, damit das Niveau der resultierenden Übersetzung dem einer menschlichen Übersetzung entspricht. Für unsere Berechnung haben wir die reine MT-Ausgabe mit 10 verschiedenen menschlichen Übersetzungen – also mehreren Referenzen – verglichen, anstatt nur mit einer einzigen. Eine umgekehrte Bearbeitungsdistanz bedeutet, dass die Qualität umso besser ausfällt, je höher die resultierende Zahl ist.

Abbildung 1 zeigt, dass sich die NMT-Engines und LLMs in der umgekehrten Bearbeitungsdistanz kaum unterscheiden. Sie schneiden also ähnlich gut ab. Allerdings lieferte insbesondere das Large Language Model GPT-4 eine etwas bessere Übersetzungsqualität als Yandex NMT für das Sprachpaar Englisch-Chinesisch.

Qualitätsvergleich der automatischen Übersetzung von GPT-Modellen und den wichtigsten NMT-Engines für das Sprachpaar Englisch-Chinesisch

Die Übersetzungsergebnisse für die Sprachpaare Englisch-Spanisch und Englisch-Deutsch werden in den Abbildungen 2 und 3 dargestellt. In diesen beiden Szenarien schnitten alle NMT-Engines besser ab als die LLMs, wie es auch bisher der Fall war.

Wie erwartet, sind die Ergebnisse umso besser, je fortgeschrittener das GPT-Modell ist; wobei GPT-4 besser abschneidet als ChatGPT und GPT-3.

Qualitätsvergleich der automatischen Übersetzung von GPT-Modellen und den wichtigsten NMT-Engines für das Sprachpaar Englisch-Spanisch

Qualitätsvergleich der automatischen Übersetzung von GPT-Modellen und den wichtigsten NMT-Engines für das Sprachpaar Englisch-Deutsch

Sind LLMs im Bezug auf professionelle Übersetzungen vertrauenswürdig?

Die generative KI steckt noch in den Kinderschuhen – die Technologie ist noch nicht voll ausgereift und ihre Leistung ist in einigen Schlüsselbereichen nach wie vor unzureichend. Unser Whitepaper zu ChatGPT und Übersetzung zeigt, dass die Technologie oft nicht die Wahrheit sagt, keine Ahnung von der realen Welt hat und nicht wirklich rechnen kann. Wollen Sie sich wirklich auf so etwas verlassen? Besser (noch) nicht.

Die diversen Unzulänglichkeiten sollten eher bewirken, dass Unternehmen innehalten und sich Gedanken machen.

Profil einer Person, die vor mehreren Bildschirmen sitzt

Variabilität

Unsere Bewertung zeigt, dass die Ergebnisse von GPT enorm variabel sind. Mit anderen Worten: Die Resultate können sich von Sitzung zu Sitzung ändern. Sie können dieses Phänomen in den Abbildungen 2 und 3 sehen, wobei beide jeweils unterschiedliche Ergebnisse aufweisen.

Wir haben mit diesem Ergebnis gerechnet. Nichtsdestotrotz ist diese Variabilität von entscheidender Bedeutung, wenn man abwägt, ob man LLMs für die professionelle Übersetzung verwenden soll, da eine zuverlässige Vorhersagbarkeit ausschlaggebend ist.

Wenn Unternehmen ihre Inhalte übersetzen, sollte möglichst wenig dem Zufall überlassen werden. Das MT-Ergebnis sollte konsistent und eher plangesteuert sein – also nicht das, was die generative KI derzeit bietet. In der professionellen MT und bei anderen LLM-Anwendungen für professionelle Zwecke ist Konsistenz ein absolutes Muss.

Rein deterministische Ergebnisse widersprechen der Natur generativer Modelle, bei denen ein gewisses Maß an, sagen wir, Kreativität oder Variabilität vorausgesetzt wird. In vielen Szenarien ist das in Ordnung und für bestimmte Fälle sogar wünschenswert – aber nicht für alle. Ein Mechanismus zur Kontrolle der Variabilität ist also unerlässlich (und zwar über die Verwendung der „Temperature“-Einstellung hinaus, d. h. der Einstellung, welche die „Kreativität” des LLM kontrollieren soll).

Der beste Ansatz zur Kontrolle der Variabilität in generativen Modellen ist noch nicht erkennbar. Möglich ist, dass man dieses Problem durch einige vordefinierte Eingabeaufforderungen und eine Kombination von Einstellungen für bestimmte Aufgaben angehen kann. In Zukunft wird aber eine konkretere Lösung notwendig sein.

Mangelnde Vorhersagbarkeit und Konsistenz sind bei einem Großteil der Geschäftsanwendungen schlichtweg unerwünscht.

API-Instabilität

Ein weiteres aktuelles Problem bei LLMs ist die Instabilität der Anwendungsprogrammierschnittstelle (API).

Die meisten generativen KI-Anwendungen befinden sich noch in der Anfangsphase der Implementierung. Eine enorme Nachfrage führt dabei zu einer massiven Nutzung der API. Die Kombination dieser beiden Faktoren führt zu eklatanten Problemen. Das wird dadurch deutlich, dass es mehr Probleme mit diesen Anwendungen gibt als bei anderen, ausgereifteren Technologien.

Fehler

In der LLM-MT-Ausgabe gab es Ungenauigkeiten, die in der NMT-Ausgabe entweder gar nicht oder nur in einem viel geringeren Umfang vorhanden sind.

Zu diesen Problemen gehören frei erfundene Begriffe oder Begriffe, die im Ausgangstext nicht vorkommen, oder fehlende sprachliche Übereinstimmung innerhalb des Textes. Ein Beispiel dafür ist, dass ein Adjektiv oder Bestimmungswort im weiblichen grammatikalischen Geschlecht mit einem Substantiv im männlichen grammatikalischen Geschlecht gepaart wird oder umgekehrt.

Wie aus Tabelle 1 hervorgeht, hat das LLM bei der Übersetzung das seltene und möglicherweise zu umgangssprachliche Wort „marketeros” im spanischen Zieltext verwendet. Eine korrekte Übersetzung wäre jedoch der Begriff „responsables del marketing“. Ähnliche Fehler kamen auch in den deutschen und chinesischen Übersetzungen vor. Insbesondere kritische MT-Fehler sollten vermieden werden; Rufschädigung, finanzielle oder rechtliche Folgen sind mögliche Konsequenzen für Unternehmen, je nach Schwere des Fehlers.

Tabelle 1 – Beispiele für „erfundene” oder „erdachte” Begriffe in der LLM-MT-Ausgabe

Englisch-Spanisch (EN-ES)
Englisch-Deutsch (EN-DE)
Englisch-Chinesisch (EN-ZH)

Ausgangssprache	As marketers, we all aspire to surprise, delight, and connect to a global and thriving culture.
Übersetzung	Como marketeros, todos aspiramos a sorprender, deleitar y conectarnos con una cultura global y próspera.
Kommentar	Müsste heißen: „responsables del marketing”

Ausgangssprache	Tax on interest, discounts & other items of gross income paid to finance companies & other financial intermediaries not performing quasi-banking functions
Übersetzung	Steuer auf Zinsen, Rabatte und andere Posten des Bruttoeinkommens, die an Finanzunternehmen und andere Finanzintermediäre gezahlt werden, die keine quasibankähnlichen Funktionen ausüben.
Kommentar	Müsste heißen: „Vermittler” und „bankähnlichen”

Ausgangssprache	See how Honda used Twitter's Instant Win feature for a good cause while also earning lifts in purchase intent and brand favorability.
Übersetzung	看看本田如何利用推特的即时赢取功能为一个好事业赢得提升，同时也获得购买意向和品牌可喜度的提升。
Kommentar	Müsste heißen: „公益事业” and „好感度”

Tabelle 1 – Beispiele für „erfundene” oder „erdachte” Begriffe in der LLM-MT-Ausgabe
Sprache	Ausgangssprache	Übersetzung	Kommentar
Englisch-Spanisch (EN-ES)	As marketers, we all aspire to surprise, delight, and connect to a global and thriving culture.	Como marketeros, todos aspiramos a sorprender, deleitar y conectarnos con una cultura global y próspera.	Müsste heißen: „responsables del marketing”
Englisch-Deutsch (EN-DE)	Tax on interest, discounts & other items of gross income paid to finance companies & other financial intermediaries not performing quasi-banking functions	Steuer auf Zinsen, Rabatte und andere Posten des Bruttoeinkommens, die an Finanzunternehmen und andere Finanzintermediäre gezahlt werden, die keine quasibankähnlichen Funktionen ausüben.	Müsste heißen: „Vermittler” und „bankähnlichen”
Englisch-Chinesisch (EN-ZH)	See how Honda used Twitter's Instant Win feature for a good cause while also earning lifts in purchase intent and brand favorability.	看看本田如何利用推特的即时赢取功能为一个好事业赢得提升，同时也获得购买意向和品牌可喜度的提升。	Müsste heißen: „公益事业” and „好感度”

Wie in Tabelle 2 dargestellt, machte das LLM bei der Übersetzung in alle drei Zielsprachen Übereinstimmungs- oder Zeichenfehler. Zum Beispiel wurde die weibliche Form des Wortes „other” im Spanischen verwendet, obwohl es die männliche Form hätte sein müssen. Diese Art von Fehlern kann das Vertrauen der Verbraucher in Marken untergraben.

Tabelle 2 – Beispiele für Übereinstimmungs- und Zeichenfehler

Englisch-Spanisch (EN-ES)
Englisch-Deutsch (EN-DE)
Englisch-Chinesisch (EN-ZH)

Kategorie	Übereinstimmungsfehler
Ausgangssprache	The centre for urban culture is one of the best concert venues in the city and regularly hosts the most famous performers of indie rock, electronic music, metal and other genres of modern urban music.
Übersetzung	El centro de cultura urbana es uno de los mejores lugares de conciertos de la ciudad y regularmente acoge a los artistas más famosos del rock independiente, la música electrónica, el metal y otras géneros de música urbana moderna.
Kommentar	Müsste maskulin sein („otros”)

Kategorie	Übereinstimmungsfehler
Ausgangssprache	Do not use harsh chemicals, cleaning solvents, or strong detergents to clean the programmer and wand.
Übersetzung	Verwenden Sie keine aggressiven Chemikalien, Reinigungslösungsmittel oder starken Reinigern, um den Programmierer und den Stab zu reinigen.
Kommentar	Müsste unbestimmter Akkusativ sein („Reiniger”)

Kategorie	Schriftfehler
Ausgangssprache	Handle the fiber with care as damage may occur if struck or bent sharply.
Übersetzung	小心處理纖維，因為如果受到撞擊或急劇彎曲可能會損壞。
Kommentar	Traditionelle chinesische Zeichen

Tabelle 2 – Beispiele für Übereinstimmungs- und Zeichenfehler
Kategorie	Sprache	Ausgangssprache	Übersetzung	Kommentar
Übereinstimmungsfehler	Englisch-Spanisch (EN-ES)	The centre for urban culture is one of the best concert venues in the city and regularly hosts the most famous performers of indie rock, electronic music, metal and other genres of modern urban music.	El centro de cultura urbana es uno de los mejores lugares de conciertos de la ciudad y regularmente acoge a los artistas más famosos del rock independiente, la música electrónica, el metal y otras géneros de música urbana moderna.	Müsste maskulin sein („otros”)
Übereinstimmungsfehler	Englisch-Deutsch (EN-DE)	Do not use harsh chemicals, cleaning solvents, or strong detergents to clean the programmer and wand.	Verwenden Sie keine aggressiven Chemikalien, Reinigungslösungsmittel oder starken Reinigern, um den Programmierer und den Stab zu reinigen.	Müsste unbestimmter Akkusativ sein („Reiniger”)
Schriftfehler	Englisch-Chinesisch (EN-ZH)	Handle the fiber with care as damage may occur if struck or bent sharply.	小心處理纖維，因為如果受到撞擊或急劇彎曲可能會損壞。	Traditionelle chinesische Zeichen

Fazit: Ist dies der Anfang vom Ende des NMT-Paradigmas?

Wie bereits erwähnt, deutet es sich schon seit einiger Zeit an, dass die NMT ihren Höhepunkt überschritten hat und ein Paradigmenwechsel zu erwarten ist. Diesem Wandel kommen wir jetzt immer näher.

Nachdem wir festgestellt hatten, dass die Qualität der fünf führenden NMT-Engines zu stagnieren begann und keine wesentlichen Verbesserungen mehr abzusehen waren, stand die Frage im Raum, ob die Vorherrschaft des Paradigmas in seiner gegenwärtigen Form zu Ende geht. Zu sehen ist dies in Abbildung 4, in der die Ausgabequalität der fünf führenden NMT-Engines zwischen Mai 2018 und Dezember 2022 für Deutsch, Spanisch, Russisch und Chinesisch unter Verwendung der umgekehrten Bearbeitungsdistanz gemessen wird.

Die geringe Qualitätsverbesserung im Jahr 2022 ließ den Schluss zu, dass die NMT stagniert, wie es auch zum Ende des vorherigen zentralen MT-Paradigmas der Fall war, das auf statistischen Modellen beruhte. Der Lionbridge Machine Translation Tracker – die am längsten bestehende Messung der wichtigsten MT-Engines in der Branche – bietet zusätzliche Einblicke in die Leistungsfähigkeit der fünf NMT-Engines.

Auch wenn der jüngste Fortschritt in der Übersetzungsqualität durch ein generatives KI-Modell das Ende des NMT-Paradigmas, wie wir es kennen, weiter vorantreiben könnte, hat die Technologie noch einen weiten Weg vor sich.

Es ist hervorzuheben, dass sich generative KI-Anwendungen noch in der Anfangsphase ihrer Entwicklung befinden. Probleme wie die oben genannten erfordern Lösungen, an denen bereits eifrig gearbeitet wird. Schon jetzt können wir Verbesserungen sehen, die in atemberaubender Geschwindigkeit veröffentlicht werden. In unseren jüngsten Tests mit ChatGPT-4 wurden einige der angesprochenen Probleme bereits behoben. Dieses unglaubliche Tempo, mit dem sich LLMs verbessern können, ist ein starkes Argument dafür, dass sie das nächste Paradigma in der maschinellen Übersetzung sein werden.

Es ist wahrscheinlicher, dass Anbieter von NMT-Engines einige Aspekte der LLMs in die NMT-Architektur integrieren, als dass sich LLMs als alleiniges Paradigma durchsetzen. Ähnliche hybride Phasen und Modelle haben wir bereits in der Vergangenheit erlebt, als die MT-Industrie von der regelbasierten MT (RBMT) zur statistischen MT (SMT) überging.

Meinungen von Übersetzern zur Übersetzungsleistung der generativen KI

Was halten menschliche Sprachexperten von generativer KI? Aufgrund ihrer derzeitigen Unzulänglichkeiten ist die vorherrschende Expertenmeinung beim Vergleich zwischen NMT-Engines und LLMs, dass NMT nach wie vor Vorrang vor LLMs hat. Diese Präferenz wird immer wieder zum Ausdruck gebracht, auch bei der Bewertung der chinesischen Ergebnisse.

Es besteht kein Zweifel daran, dass sich die generative KI weiter entwickeln wird. Wir helfen Ihnen, die ständigen Fortschritte im Auge zu behalten.

Nehmen Sie Kontakt mit uns auf

In unserem Blog können Sie noch mehr zur Übersetzungsleistung von ChatGPT erfahren und darüber, was dies für die Zukunft der Übersetzungsbranche bedeutet.

Wenn Sie wissen möchten, wie Lionbridge Sie bei der effektiven Nutzung von maschineller Übersetzung unterstützen kann, dann kontaktieren Sie uns noch heute.