言語を選択する:

Using Machine Translation

翻訳における機械翻訳

用語まとめ: 「人工知能」や「大規模言語モデル」など、機械翻訳関連の重要な用語

機械翻訳 (MT) は数十年という長い歴史を重ねて、ここまで発展してきました。大規模言語モデル (LLM) の進化が多くの人の手に届くようになり、一般の人々だけでなく言語サービス業界も大きな期待を寄せています。

この数年で、人工知能 (AI) を取り巻くさまざまな物事が現代という時代の中で確固たる地位を獲得し、生成 AI (GenAI) は最新のバズワードの一つとしてさまざまな業界から注目を集めています。現時点で機械翻訳 (MT) とのかかわり方がどうであれ、機械翻訳に関する知識を持っておくことはさまざまな場面で役に立つでしょう。

AI が企業や消費者にとってますます身近になっている中で、それと密接に関連する用語も頻繁に見られるようになりました。この分野に詳しくない方が、互いに同じ意味で使用されることもある複数の用語の違いを区別するにはどうすればよいでしょうか。

機械翻訳をどのように理解すべきでしょうか。

ライオンブリッジは、世界各地で活躍する専門家を集めたグローバル ネットワーク コミュニティを運営しており、その中には優秀で実績豊富な MT 専門家も多く在籍しています。今回のブログ記事は、MT 関連用語の微妙な違いや明確な違いを明らかにすべく、これらの専門家の方々と協力して執筆しました。

1. 人工知能 (AI)

MT の最近の傾向を把握するにはまず、圧倒的な存在である人工知能 (AI) が背景にあることを理解する必要があります。AI とは、学習や問題解決など、本来人間のような思考が必要と思われるタスクを機械が行うときに、機械によって用いられる「知能」です。ここ数年、AI は、コンピューターの性能向上を原動力として飛躍的に性能が高まっています。強力な処理能力によってタスクがより集中的に処理されるようになり、より先進的なマシン ラーニングが可能になります。マシン ラーニングとは、AI を活用するにあたって必要となる知識をコンピューターが得る方法です。

2. マシン ラーニング

マシン ラーニング (機械学習) はコンピューター サイエンスの一分野として分類され、大量のデータを使用してタスクの実行方法をコンピューターに教えることを指します。マシン ラーニングでは特定のタスクに関連するデータを調査し、データからパターンを見出してそれらを関連付けます。そして学習した内容を利用して、コンピューターがタスクを実行する方法を見出します。この分析後、コンピューターによるタスクの実行が上達した場合は、マシン ラーニングが発生したことになります。

現時点では世界中のほぼあらゆるものに関するデータが揃っているため、私たち人間は、天気予報や自動銘柄選択、機械翻訳といったさまざまな分野で、マシン ラーニングを利用してコンピューターのパフォーマンスを強化しています。

3. 機械翻訳

簡単に言えば、機械翻訳 (MT) とは自動翻訳を意味します。ある言語の文章をコンピューターに入力すると、他の言語でそれが出力される仕組みです。機械翻訳は不完全ではありますが、高品質な翻訳を効率的に生み出すための最も強力なツールの一つです。

過去数十年間、出力の品質と対応言語の幅広さという点で MT は進化を続けてきました。単純な単語置換システムであった黎明期の MT から、明示的にコーディングされた文法と辞書を持つルールベースの MT、大量の演算を行う枠組みを持つ統計的 MT、ディープ ラーニング (深層学習) とニューラル ネットワークに基づくニューラル MT、そして驚くほどにまるで人間のような出力を生成する生成 AI へと、MT の進化は、コンピューターの性能の進化とその汎用性の拡大を反映しています。

機械翻訳を表現した未来的なホログラム

4. 統計的機械翻訳

統計的機械翻訳 (SMT) では、マシン ラーニングを活用して 1 つの原文の翻訳候補を大量に生成し、ターゲット言語 (翻訳先の言語) で連動して出現する可能性が高い単語やフレーズに基づき、最適なものを 1 つ選択します。SMT は「n グラム」方式で翻訳を学習します。n グラムとは、ソース言語 (翻訳元の言語) とターゲット言語でまとまって出現する単語の小さなグループを指します。マシン ラーニングの段階で、SMT システムにはトレーニング資料として、ソース言語のテキストとその訳文 (ターゲット言語) のサンプルが大量に与えられます。その学習アルゴリズムでは、原文と訳文を n グラムに分割し、特定のソース言語 n グラムが文章に出現したときに、どのターゲット言語 n グラムが訳文で出現する傾向が高いかを判断します。

次に、学習アルゴリズムでは、ターゲット言語で一定の語句が隣り合って出現する可能性を計算する言語モデルを構築します。学習が終わったら、次は新しい文章の翻訳です。SMT システムは新しい原文を n グラムに分割し、関連性の高いターゲット言語 n グラムを見つけて翻訳候補を生成します。最終的な訳文は、ソース言語 n グラムと最も関連性の高いターゲット言語 n グラムを持ち、連動して出現する可能性が最も高いターゲット言語の語句を含む文章となります。

SMT システムがまったく言語的ではないことを考えると、SMT の機能は驚くべきものです。実際、SMT システムで考慮されるのは n グラムのみで、文章全体は考慮されません。この点が、もう一つの MT アプローチであるニューラル機械翻訳と異なります。

5. ニューラル機械翻訳

ニューラル機械翻訳 (NMT) は、SMT の最大の弱点である n グラム解析への依存を克服したアプローチです。NMT は、トレーニング資料を受け取るという点では SMT と同じですが、資料を受け取った後に、そのデータの学習方法を自らが決定するという点で大きく異なります。

NMT システムでは、それぞれの原文テキストの情報をベクトルに変換し、単語とその周囲の単語の情報を関連付けます。システムによっては 1 つの単語につき数百もの情報ピースがあり、その分精度が高くなります。NMT システムでは、ディープ ラーニングによって単語や原文に関する大量の情報を捉えたうえで、「アテンション モデル」と呼ばれる仕組みを使用して、大量のデータ ストリームの解析を通じて翻訳プロセスにとって重要であると学習した特徴に焦点を合わせます。その結果として生み出される翻訳は、流暢さが劇的に改善されたものとなります。このアプローチの台頭により、コンピューターによる翻訳はますます自然な文章となっていきます。

NMT はローカリゼーション業界に大きな変革をもたらしました。NMT ツールセットの成熟とテクノロジーの向上に伴い、ライオンブリッジでは MT をさらに活用して制作プロセスを加速させています。しかし 2022 年時点で、主要なニューラル機械翻訳エンジンは大幅な品質向上を実現できておらず、このパラダイムが終わりを迎えつつあることが示唆されており、より破壊的変革に向けた条件が整ってきていると言えます。

テクノロジーのネットワーク

6. 生成 AI/大規模言語モデル

生成 AI (GenAI) とは人工知能 (AI) システムの一つであり、プロンプトや広範なマルチモーダル トレーニングに基づいて、テキストや画像を含む斬新なコンテンツを生成することが可能です。注目すべきは、まるで人間のような品質の出力を生成できる能力です。大規模言語モデル (LLM) は言語に特化した AI システムです。要約、翻訳、予測、テキスト生成が可能で、そのベースになるのは大規模データベースから得た知識です。テキストの翻訳に特化してトレーニングされているわけではありませんが、(優秀とは言えないまでも) それなりの品質の翻訳を生成することができ、現時点では急速な進歩を続けています。ChatGPT は 2022 年 11 月に一般公開された初の LLM であり、リリースからわずか 2 か月で 1 億人のユーザーを獲得しました。

生成 AI/LLM のテクノロジーは機能が強化されるにつれて、反復的、基本的な言語処理の対応範囲が拡大します。このため、以下の 3 つの領域においては、人間がより付加価値の高い作業に取り組めるようになることが今後期待されます。

  • コンテンツの立案 — 人間が立案からコンテンツ制作プロセスを開始します。
  • コンテンツの検証 — 人間が正確性、安全性、信頼性を確保します。
  • コンテンツの分析 — 人間がモニタリングを強化し、パフォーマンスを向上させます。

このため、トランスクリエーションといった付加価値の高いサービスがより低価格で利用できるようになり、最終的には、対象市場のブランド購買層の心をより一層掴み、より説得力のある信頼感の高いコンテンツを発信することが可能になります。当社では、生成 AI のユースケースの特定を継続的に行い、LLM の能力を最大限に活用して、ローカリゼーション ワークフローを自動化するアプリケーションの開発を進めています。

7. 大規模言語モデルによる機械翻訳

大規模言語モデルによる機械翻訳とは、機械翻訳 (MT) に大規模言語モデル (LLM) を活用するアプローチを指します。この LLM MT がニューラル MT のパラダイムに取って代わる日が来るかもしれませんが、このテクノロジーはまだそこまで成熟していません。現時点で LLM は良質な出力を生成しており、当社が実施したある評価では、英語から中国語への言語ペアで、OpenAI の GPT-4 モデルが Yandex のニューラル機械翻訳エンジンをしのぐパフォーマンスを発揮しました。とはいえ、この記事の執筆時点で LLM は速度、品質、コストの点で 5 つの主要ニューラル機械翻訳エンジンにはかなわないため、まだニューラル MT エンジンに取って代わる存在とはなっていません。当社では、ライオンブリッジ機械翻訳トラッカーを通じて LLM 機械翻訳のパフォーマンスを追跡調査しており、これには GPT-4 機械翻訳など、複数の LLM モデルの評価が含まれます。

8. 人間参加型 (ヒューマンインザループ) の AI 翻訳

「人間参加型 (ヒューマンインザループ)」の AI 翻訳とは、人間の力と機械の能力を組み合わせて翻訳結果を得るアプローチです。

生成 AI/LLM によって翻訳の効率と費用対効果は向上しますが、以下の理由から、依然として人間の介入が必要になります。

  • 現在のテクノロジーでは人間の想像力に取って代わることはできない。
  • 人間による管理なしに、テクノロジーを全面的に信頼することはできない。
  • テクノロジーは自立的に動作するものではない。

人間の力で LLM の使用に伴う主な課題を克服し、人間による付加価値を高めるには、以下の方法があります。

  • 翻訳結果を人間が全体を通してレビューする。これは一貫性を確保するうえで特に重要です。生成 AI/LLM テクノロジーは、プロンプトが数百語程度に抑えられている場合に最適に機能します。この制約により、一貫性のない翻訳結果がある程度出力されることがよくあります。

  • 一連のプロンプトを通じて、人間が案件に応じて複数の用語集や指示を指定する。これによってブランド ボイスの一貫性を確保できます。

  • 人間がプロンプトを作成する。これは、生成 AI/LLM のパフォーマンスを高めるための最初のステップであり、重要な要件でもあります。この作業を機械が自力で実行することはできません。

  • 優れた専用プラットフォームを人間が構築する。このプラットフォームは、多数のプロンプトの管理や再利用、目的の出力を得るために必要な指示や用語集の指定が可能なものである必要があります。当社では、効果的なプロンプトを繰り返し再利用するためのプロンプト イテレーション プラットフォームを開発・公開しています。

  • 翻訳メモリやニューラル機械翻訳が導入された既存のワークフローに LLM テクノロジーを取り入れる方法を人間が判断する。時間短縮、負担軽減、コスト節約といったメリットにつながります。当社の専任 AI チームは、既存のワークフローへの LLM の導入について、さまざまなケースに対応してきた実績とスキルを持っています。

ライオンブリッジが選ばれる理由

当社は MT の研究を通じて MT の知識を深めているだけではなく、実績の面でも 2002 年から MT 関連のソリューションを積極的に提供しており、最先端の画期的な開発を進めています。MT の最新情報については、当社の機械翻訳に関するソート リーダーシップのページをご覧ください。

お問い合わせ

最新のツールを導入して翻訳の自動化を進めたいとお考えなら、ぜひ当社までお問い合わせください。

  • #blog_posts
  • #translation_localization
linkedin sharing button

執筆者
ライオンブリッジ

お問い合わせ

勤務先のメール アドレスを入力してください