A person’s arms reaching toward circular geometric shapes

機械翻訳評価において、生成 AI モデルがニューラル機械翻訳エンジンをしのぐ性能を発揮

これはニューラル機械翻訳時代の終焉の始まりか

最終更新日: 2023年5月12日 9:13

ライオンブリッジが実施した機械翻訳 (MT) の比較評価で、生成系人工知能 (AI) モデルが初めてニューラル機械翻訳 (NMT) エンジンよりも優れた翻訳結果を生成しました。具体的には、大規模言語モデル (LLM) GPT-4 が英語から中国語 (簡体字中国語) への言語ペアで Yandex の品質をわずかに上回りました。

ここでは、その結果の持つ意味について考察したいと思います。

これが、ニューラル機械翻訳の時代が終わろうとしている、あるいは大きく変わろうとしている兆候だとすれば、今後は翻訳品質の飛躍的な向上や、ニューラル機械翻訳の採用促進、より多くのコンテンツ出力への対応といった、機械翻訳サービスにおける大きな変化が期待できることになります。

MT プロバイダーには、こうしたテクノロジー進化の最前線に立ち、そうした進化が現在の MT エンジンにどのような影響を与えるかを検討し、それを最大限活用したサービスを提供することが求められます。また MT サービスを購入する側は、常に最先端のテクノロジーを把握しつつ、賢い投資を行わなければなりません。こうしたサービスには、純粋なニューラル MT サービスのみでなく、LLM ベースのテクノロジーも含まれます。

お問い合わせ

LLM がニューラル MT エンジンをしのぐ品質を達成したことの重要性

今回の評価結果は画期的なものですが、もう少し大局的な視点で見てみると、今回の結果には 1 つのモデルと特定の 1 つの言語ペアしか含まれていません。LLM は、わずか 1 種類の MT 評価 (多参照評価) において、5 つのうちの 1 つの NMT エンジンのみで品質が上回ったにすぎません。それでもこの成果は大きな意味を持つと言えるでしょうか。もちろんそのとおりです。

上記の事実を踏まえると、この成果はあまり重要でないように見えるかもしれませんが、NMT の出現以来、別の種類の MT 手法がニューラル MT エンジンをしのぐ性能を発揮したのは初めてだということは特筆に値します。また、「MT 以外」のアプローチ (機械翻訳用に特別に準備されたものでない、多目的の言語サービスの自動化) が NMT エンジンよりも優れた品質を達成したことを考えれば、GPT-4 大規模言語モデルが NMT エンジンをしのいだという事実は驚くべきものです。

ChatGPT-4 の注目すべき翻訳結果がニューラル機械翻訳のパラダイムに与える意味

2022 年 2 月以来、当社では近い将来の MT のパラダイムシフトの可能性について公然と問い掛けてきました。その間のライオンブリッジの見解については、当社の機械翻訳トラッカーコメントをご覧ください。こうした最新の比較結果を見れば、重要な意味を持つ変化が近づいていることがさらに明確になるでしょう。

ただし、まだ結論に飛びつくには早すぎます。大規模言語モデル (LLM) が NMT エンジンに取って代わる、ましてや変化は目前であると断言するのは時期尚早です。もっと時間をかけて、さらに多くのデータを評価する必要があります。考慮すべき要素は非常に多く、LLM テクノロジーが企業にとって有効な翻訳ソリューションとなるためには、まだ大幅な改善が不可欠です。

NMT テクノロジーと LLM テクノロジーには多くの共通点があるため、おそらく NMT エンジンに何らかの LLM アプローチを取り入れていくことが、パラダイムシフトのきっかけになるでしょう。

3 つの言語ペアにおける NMT と LLM の翻訳結果の比較

それでは、3 つの言語ペアについて、上位 5 つのニューラル機械翻訳エンジンといくつかの GPT モデルの翻訳結果を比較してみましょう。

当社では、英語から簡体字中国語 (EN-ZH)、英語からスペイン語 (EN-ES)、英語からドイツ語 (EN-DE) の各言語ペアについて、複数の参照訳を使用した逆編集距離に基づき、品質レベルの計算を行いました。

編集距離は、MT の出力に対して、翻訳者による翻訳品質と同等にするために人間が行わなければならない編集の量を算出するものです。今回は翻訳者による翻訳 1 種類のみではなく、10 種類、つまり複数の参照訳と、MT のみの出力を比較しました。逆編集距離では、結果の数値が大きいほど品質が優れていることを意味します。

図 1 は、NMT エンジンと LLM の逆編集距離にあまり差がなく、品質が近似していることを示しています。ただし、大規模言語モデル GPT-4 が英語から中国語への言語ペアについて Yandex NMT よりもわずかに優れた翻訳品質を示した点は注目に値します。

英語から中国語への言語ペアにおける、GPT モデルと主要ニューラル MT エンジンによる自動翻訳品質の比較

英語からスペイン語、および英語からドイツ語への言語ペアの翻訳結果を、それぞれ図 2 と図 3 に示します。この 2 つのケースではこれまでと同様、すべてのニューラル MT エンジンが LLM よりも優れた結果を示しました。

当社の予想どおり、GPT モデルの質が向上することで MT の品質も向上しており、GPT-4 が ChatGPT や GPT-3 をしのぐ翻訳品質を達成しました。

英語からスペイン語への言語ペアにおける、GPT モデルと主要ニューラル MT エンジンによる自動翻訳品質の比較

英語からドイツ語への言語ペアにおける、GPT モデルと主要ニューラル MT エンジンによる自動翻訳品質の比較

業務用途の翻訳における大規模言語モデルの信頼性

生成 AI はまだ開発初期の段階にあり、十分な発達を遂げていないため、一部の重要な分野においては、まだ求められる基準を満たしていません。当社の ChatGPT とローカリゼーションに関するホワイトペーパーでは、生成 AI が事実を語らず、現実を紐解くヒントを持たず、数を数えることができない点について取り上げています。このため、これを信頼するにはまだ時期尚早と言えます。

以下のような欠点を見れば、躊躇する企業もあることでしょう。

ばらつき

当社の評価では、GPT の出力にはばらつきがあることが示されています。言い換えれば、実行するたびに結果が変わる可能性があるのです。この現象は図 2 と図 3 で確認することができ、1 回目の実行 (RUN 1) と 2 回目の実行 (RUN 2) で異なる結果が生成されています。

この結果は予想されたものでした。とはいえ、業務上の翻訳では予測性がきわめて重要となるため、LLM を使用するかどうか検討する際には、このばらつきが大きな意味を持ちます。

企業がコンテンツを翻訳する場合、ランダム性の入り込む余地は非常に限られています。MT の出力は、現在の生成 AI の出力よりも高い決定性を示す必要があります。業務用 MT や業務用途で使用される他の LLM には一貫性が求められます。

生成系モデルにはある程度の創造性やばらつきが想定されており、完全な決定性を備えた結果というものは生成系モデルの本質と相容れません。このような状況は、場合によっては問題なく、むしろ望ましいこともありますが、あらゆる場合にそうとは言えません。ばらつきを制御する仕組み (「温度」設定、すなわち LLM の「創造性」を制御する設定以上のもの) は不可欠となります。

生成系モデルでばらつきを制御する最善の方法は、まだ明らかになっていません。ユーザー側で特定のタスク用に事前に定義したプロンプトや一連の設定を使って、この問題に対処できる可能性もありますが、将来的にはより具体的なソリューションが必要になるでしょう。

予測性の欠如は、多くのビジネス用途と相性がよくありません。

不安定な API

現在の LLM のもう一つの問題は、アプリケーションプログラミングインターフェース (API) の不安定さです。

ほとんどの生成 AI アプリケーションは、まだ開発の初期段階にあります。しかし膨大な需要のため、生成 AI の API は非常に頻繁に使用されています。こうした要因が絡み合うことで問題が生じており、生成 AI アプリケーションを利用するユーザーは、より成熟した他のテクノロジーを利用する場合よりも多くの問題を経験しています。

誤り

LLM の MT 出力には、NMT の出力には存在しない、あるいは存在してもはるかに少ない割合でしか出現しない、正確性の問題が見受けられます。

たとえば、用語が「発明」されたり原文に存在しない用語が現れたりするハルシネーション (「幻覚症状」の意) や、文中の呼応に関連するコンコーダンスの問題などです (女性形の形容詞や限定詞が男性形の名詞と組み合わされたり、逆に女性形の名詞に対応して男性形が使われるなど)。

表 1 に示すように、LLM はスペイン語への翻訳において、口語的すぎる可能性のある稀な「marketeros」という用語を使っています。正しい翻訳は「responsables del marketing」などになります。LLM は、ターゲット言語がドイツ語と中国語の場合も同じような誤りを犯しています。誤りの深刻度によっては、ブランドの評判への悪影響や財務的損失、法律上のトラブルにもつながりかねないため、機械翻訳の重大な誤りを監視することは特に重要になります。

表 1. LLM MT 出力における「発明」または「ハルシネーション」の例:

英語からスペイン語 (EN-ES)
英語からドイツ語 (EN-DE)
英語から中国語 (EN-ZH)

ソース言語	As marketers, we all aspire to surprise, delight, and connect to a global and thriving culture.
ターゲット言語	Como marketeros, todos aspiramos a sorprender, deleitar y conectarnos con una cultura global y próspera.
コメント	“responsables del marketing” とすべき

ソース言語	Tax on interest, discounts & other items of gross income paid to finance companies & other financial intermediaries not performing quasi-banking functions
ターゲット言語	Steuer auf Zinsen, Rabatte und andere Posten des Bruttoeinkommens, die an Finanzunternehmen und andere Finanzintermediäre gezahlt werden, die keine quasibankähnlichen Funktionen ausüben.
コメント	"Vermittler" および "bankähnlichen" とすべき

ソース言語	See how Honda used Twitter's Instant Win feature for a good cause while also earning lifts in purchase intent and brand favorability.
ターゲット言語	看看本田如何利用推特的即时赢取功能为一个好事业赢得提升，同时也获得购买意向和品牌可喜度的提升。
コメント	"公益事业" および "好感度" とすべき

表 1. LLM MT 出力における「発明」または「ハルシネーション」の例:
言語ペア	ソース言語	ターゲット言語	コメント
英語からスペイン語 (EN-ES)	As marketers, we all aspire to surprise, delight, and connect to a global and thriving culture.	Como marketeros, todos aspiramos a sorprender, deleitar y conectarnos con una cultura global y próspera.	“responsables del marketing” とすべき
英語からドイツ語 (EN-DE)	Tax on interest, discounts & other items of gross income paid to finance companies & other financial intermediaries not performing quasi-banking functions	Steuer auf Zinsen, Rabatte und andere Posten des Bruttoeinkommens, die an Finanzunternehmen und andere Finanzintermediäre gezahlt werden, die keine quasibankähnlichen Funktionen ausüben.	"Vermittler" および "bankähnlichen" とすべき
英語から中国語 (EN-ZH)	See how Honda used Twitter's Instant Win feature for a good cause while also earning lifts in purchase intent and brand favorability.	看看本田如何利用推特的即时赢取功能为一个好事业赢得提升，同时也获得购买意向和品牌可喜度的提升。	"公益事业" および "好感度" とすべき

表 2 に示すように、LLM では 3 つのターゲット言語すべてで、呼応や文字の誤りが見られました。たとえば、スペイン語では「other」(「その他」) を意味する語が、男性形になるべきところ女性形になっています。このような誤りは、ブランドに対する消費者の信頼を損なう可能性があります。

表 2. 呼応と文字の誤りの例:

英語からスペイン語 (EN-ES)
英語からドイツ語 (EN-DE)
英語から中国語 (EN-ZH)

カテゴリー	呼応の誤り
ソース言語	The centre for urban culture is one of the best concert venues in the city and regularly hosts the most famous performers of indie rock, electronic music, metal and other genres of modern urban music.
ターゲット言語	El centro de cultura urbana es uno de los mejores lugares de conciertos de la ciudad y regularmente acoge a los artistas más famosos del rock independiente, la música electrónica, el metal y otras géneros de música urbana moderna.
コメント	男性形 ("otros") にすべき

カテゴリー	呼応の誤り
ソース言語	Do not use harsh chemicals, cleaning solvents, or strong detergents to clean the programmer and wand.
ターゲット言語	Verwenden Sie keine aggressiven Chemikalien, Reinigungslösungsmittel oder starken Reinigern, um den Programmierer und den Stab zu reinigen.
コメント	不定対格 ("Reiniger") にすべき

カテゴリー	字体の誤り
ソース言語	Handle the fiber with care as damage may occur if struck or bent sharply.
ターゲット言語	小心處理纖維，因為如果受到撞擊或急劇彎曲可能會損壞。
コメント	繁体字中国語になっている

表 2. 呼応と文字の誤りの例:
カテゴリー	言語ペア	ソース言語	ターゲット言語	コメント
呼応の誤り	英語からスペイン語 (EN-ES)	The centre for urban culture is one of the best concert venues in the city and regularly hosts the most famous performers of indie rock, electronic music, metal and other genres of modern urban music.	El centro de cultura urbana es uno de los mejores lugares de conciertos de la ciudad y regularmente acoge a los artistas más famosos del rock independiente, la música electrónica, el metal y otras géneros de música urbana moderna.	男性形 ("otros") にすべき
呼応の誤り	英語からドイツ語 (EN-DE)	Do not use harsh chemicals, cleaning solvents, or strong detergents to clean the programmer and wand.	Verwenden Sie keine aggressiven Chemikalien, Reinigungslösungsmittel oder starken Reinigern, um den Programmierer und den Stab zu reinigen.	不定対格 ("Reiniger") にすべき
字体の誤り	英語から中国語 (EN-ZH)	Handle the fiber with care as damage may occur if struck or bent sharply.	小心處理纖維，因為如果受到撞擊或急劇彎曲可能會損壞。	繁体字中国語になっている

結論: これは NMT 時代の終焉の始まりなのか

これは NMT 時代の終焉の始まりとは言えません。上述したとおり、NMT の成熟と、MT のパラダイムシフトの可能性を示す兆候はしばらく前から確認されていました。私たちは今、その終焉に向けた道のりの途上にいます。

当社が現在の形による NMT の時代が終わろうとしているのか問い掛け始めたのは、上位 5 つの NMT エンジンの品質に大きな改善が見られなくなり、変化がなくなったことに気付いたからです。このことを示しているのが図 4 になります。この図は、2018 年 5 月から 2022 年 12 月までの期間に逆編集距離を使って測定された、上位 5 つの NMT エンジンによる、ドイツ語、スペイン語、ロシア語、中国語の出力品質を示したものです。

2022 年中にわずかな品質の改善しか見られなかったことから、当社では NMT が停滞期に入ったと結論付けました。以前の MT の中心的パラダイムであった統計的機械翻訳の終焉の時期にも、これと似たことが起きていたからです。5 つの NMT エンジンのパフォーマンスについては、業界で最も長期にわたって主要な MT エンジンを評価してきたライオンブリッジの機械翻訳トラッカーによる、さらに詳しい解説をご覧ください。

生成 AI モデルによる翻訳品質のさらなる向上によって、現在の NMT 時代の終焉がさらに近づく可能性はありますが、このテクノロジーにはまだ大いに発展する余地があります。

生成 AI アプリケーションは、まだ開発の初期段階にあることを強調しておく必要があります。このテクノロジーについては前述のような問題を解決しなければならず、現在はまさにその途上にありますが、改善が驚異的な速度で進んでいるのも事実です。当社が行った最新の ChatGPT-4 のテストでは、いくつかの問題がすでに解決されていました。LLM が驚くべき速さで改善されている状況を踏まえれば、LLM が機械翻訳の次世代を担うという考えには説得力があります。

今後の見通しとしては、パラダイムシフトが起きて LLM が現在の NMT に取って代わるというよりも、ニューラル MT プロバイダーが LLM の一部機能を NMT アーキテクチャに統合する可能性が高いと言えるでしょう。以前にも、MT 業界がルールベース MT (RBMT) から統計的 MT (SMT)に移行した際、似たような混在期間がありました。

翻訳者は生成 AI の翻訳品質に満足しているか

翻訳者は生成 AI についてどう思っているのでしょうか。ニューラル MT エンジンと LLM の性能を比較した評価者は、現在の欠点を理由に、まだ LLM の出力よりもニューラル MT の出力を好むと述べています。これについては、中国語の出力を評価した評価者を含め、皆が同じ意見を表明しています。

これからも生成 AI が進化し続けることは間違いありません。当社はお客様が急速な技術の進歩に対応していけるよう、サポートを続けてまいります。

お問い合わせ

ChatGPT の翻訳品質とローカリゼーションの未来についての当社の見解の詳細については、当社のブログ記事をご覧ください。

機械翻訳を効果的に利用する方法や、ライオンブリッジが提供する支援サービスについては、ぜひお気軽に当社までお問い合わせください。

著者

ラファモラル、ジャネットマンデル

#translation_localization
#ai
#generative-ai
#blog_posts

サービス

業界

リソース

会社概要

機械翻訳評価において、生成 AI モデルがニューラル機械翻訳エンジンをしのぐ性能を発揮

LLM がニューラル MT エンジンをしのぐ品質を達成したことの重要性

ChatGPT-4 の注目すべき翻訳結果がニューラル機械翻訳のパラダイムに与える意味

3 つの言語ペアにおける NMT と LLM の翻訳結果の比較

業務用途の翻訳における大規模言語モデルの信頼性

ばらつき

不安定な API

誤り

表 1. LLM MT 出力における「発明」または「ハルシネーション」の例:

表 2. 呼応と文字の誤りの例:

結論: これは NMT 時代の終焉の始まりなのか

翻訳者は生成 AI の翻訳品質に満足しているか

お問い合わせ

LANGUAGE CLOUD™

業界