ライオンブリッジの Lainguage Cloud を活用して、御社の包括的なローカリゼーションとコンテンツ制作をサポート

Lainguage Cloud™ Platform
接続性
翻訳コミュニティ
ワークフローのテクノロジー
Smairt Content™
Smairt MT™
Smairt Data™

ライオンブリッジの誇りは社員です。20 年以上にわたって、企業が顧客の心に響くメッセージを発信できるよう支援しています。

ライオンブリッジについて
実績
経営陣
トラスト センター

言語を選択する:

Two separate sets of couples collaborate in a work setting

機械翻訳のカスタマイズとトレーニングの比較

機械翻訳の品質向上に向けて各アプローチを採用すべき状況

多くの企業がこれまでにないほど機械翻訳 (MT) に注目するようになっており、MT は今後も成長し続けると考えられます。この傾向は、MT の技術が大幅に発展して想定どおりの翻訳を提供できるようになってきたことと、これまでと同じ、あるいはさらに少ない予算内でより多くのコンテンツをより多くの言語で迅速に制作・配信しなければならないという市場からのプレッシャーの高まりによるものと見られます。MT 技術を利用すれば人間の翻訳者では不可能なスピードとコスト効率で翻訳を提供できますが、品質の面では問題が生じることがあり、これに対処する必要があります。ますますデジタル化が進む市場で成功を収めるには、企業はすべてのチャネルで一貫したブランド ボイスと特定のトーン (語調) を維持しながら、特定の分野に特化し、パーソナライズされたコンテンツを複数の言語で提供する必要があります。

MT を最大限に活用して、こういった目標をより効果的に達成するにはどうすればよいでしょうか。機械翻訳の効果を高めるには、「機械翻訳のカスタマイズ」と「機械翻訳のトレーニング」の 2 通りの方法があります。どちらのアプローチも MT が提供する翻訳品質を改善し、ポストエディットの必要性を低減することができますが、機械翻訳のカスタマイズと機械翻訳のトレーニングは似て非なるものです。

これらのアプローチの仕組みや違い、そして御社のユースケースに適切なアプローチを選択する方法をご紹介します。

企業が汎用型 MT のみに依存すべきではない理由

一般的で明瞭なコンテンツであれば、Google NMT、Bing NMT、Amazon、DeepL、または Yandex といったトレーニングなしの汎用型機械翻訳エンジンでも、大抵の場合は十分な結果を得ることができます。ですが、提供される翻訳品質が不十分である可能性もあります。

なぜでしょうか。汎用型エンジンでは、ライフ サイエンスや法務といった専門性の高いコンテンツや、専門分野に特化した用語などを適切に翻訳できないことがよくあります。たとえば 2 つの意味を持つ単語の場合、汎用型エンジンでは適切な定義に基づいて訳語を選ぶことができません。また、汎用型エンジンでは、お客様独自のブランド ボイスを保持したり、オーディエンスとつながるうえでの最善のフォーマルさの度合い、つまり言葉遣いをどの程度フォーマルまたはカジュアルにすべきかを判断したりすることができません。

MT のカスタマイズとトレーニングを実施することで、こういった弱点に対処して、汎用型エンジンでは達成できないお客様独自の要件がある場合でも、より優れた翻訳を提供できるようになります。

MT のカスタマイズとは

MT のカスタマイズとは、機械翻訳の精度を高めるために、既存の機械翻訳エンジンに用語集や「翻訳しない語句 (DNT: Do Not Translate)」リストを組み込むことを指します。(用語集とは、企業や企業が必要とする翻訳コンテンツにおいて重要な用語を集めたものです。DNT リストは、企業が翻訳せずに元の言語のまま使用する用語を集めたものです。)

MT のカスタマイズでは、元の言語の用語とそれに対応する訳語をまとめたリストを MT に取り込んでから MT を実行します。このリストによって、これらの用語をどのように訳すのか、それとも意図的に訳さずにおくのかを MT エンジンに指示します。このような工程を組み込むことでエンジンが出力する翻訳の質が改善し、企業は適切なブランド名や用語が組み込まれた外国語版のコンテンツを地域ごとに用意できるようになります。また、出力される翻訳の質が高ければ、ポストエディットを行う必要性も低減します。

MT のカスタマイズは一般的に MT のトレーニングよりも簡単ですが、このアプローチには注意が必要です。用語を機械翻訳システムにアップロードするプロセスは簡単ですが、適切な用語を選択させることは容易ではない場合があります。MT のカスタマイズの成果は、生成される翻訳の質を高めるうえで重要となる用語集、DNT リスト、インプット/アウトプットの標準化ルールを管理する MT エキスパートのスキルや能力に大きく左右されます。経験のない作成者によるコンテンツであれば、場合によっては MT によって品質レベルの低い翻訳が出力され、全体の品質を損ねる可能性があります。

MT のトレーニングとは

MT のトレーニングとは、生成される翻訳の精度を高めるために、コーパスからの膨大なバイリンガル言語データを利用して MT エンジンを構築・トレーニングするプロセスです。

MT のトレーニングでは、企業特有のバイリンガル言語データを使って汎用型 MT エンジンをトレーニングします。このプロセスではさまざまな形式でエクスポートされたバイリンガル言語データを使用でき、翻訳メモリ (TM) 形式が頻繁に使用されます。翻訳メモリは、これまでに承認された翻訳だけでなく、いつ、誰によって文章が翻訳されたのか、文章が完全な一致なのか部分的な一致なのかといったメタデータのようなデータも提供します。MT エンジンは、こういったデータを通じて企業が求める翻訳を学習します。そうすることで、MT の理論に基づいた汎用的な翻訳ではなく、バイリンガル言語データに基づいてカスタマイズされた翻訳を生成できるようになります。

MT のトレーニングによってより一貫性のある翻訳を生成できるようになるため、企業はエンジンをより細かく調整して、独自のブランド ボイスやスタイルが維持された翻訳を実現することができます。たとえば、翻訳をフォーマルなトーンで出力する汎用型 MT のデフォルト設定を無視して、カジュアルなトーンで翻訳を出力したりできます。MT のカスタマイズと同様に、エンジンでより正確でエラーの少ない翻訳を生成できるようになるため、ポストエディットをそれ程必要とせずに望ましい結果を得られるようになります。

MT のトレーニングの際には、可能な限り多くの知識をエンジンに提供しましょう。トレーニング素材の質が高いほど、生成される翻訳の質も高くなります。MT トレーニングを成功させるには、品質が高く、不統一や原文データの重複のない 15,000 個以上の固有のバイリンガル セグメント (文節) を企業側が用意する必要があります。この最小限の要件を満たせない場合は、トレーニングの効果がまったく反映されないこと、もしくは効果が非常に限定的になることがあります。

MT のカスタマイズと MT のトレーニングの違い

どちらのアプローチも MT が生成する翻訳の質を高め、ポストエディットの必要性を低減するうえで役立ちますが、共通するのはここまでです。これらは互いに似て非なるものです。

MT のカスタマイズは、既存の MT エンジンを用語集や DNT リストできめ細かくカスタマイズすることである一方、MT のトレーニングでは、コーパスや翻訳メモリの膨大なバイリンガル言語データを活用して、エンジンをゼロから構築してトレーニングします。

MT のカスタマイズはトレーニングと比べてより用途が広く、大多数の企業の要件を満たす翻訳を提案するようになります。カスタマイズには、MT エンジンに取り込むプロファイルの更新にかかわる一度限りの費用が発生しますが、用語集を維持・管理していくための追加の費用もかかります。

MT のトレーニングは、専門性の高いコンテンツや複雑なユースケースを扱う洗練された企業のお客様に適したオプションです。MT のトレーニングを実施する際は、初回のトレーニングにかかる費用に加えて、MT のパフォーマンスをモニタリングする中で改善の余地があると判断された場合に、追加のトレーニング費用がかかる可能性があります。

A geographic pattern overlays a cityscape at night

MT のトレーニングまたはカスタマイズを検討すべき状況

翻訳対象は科学的な資料なのか高度な技術マニュアルなのか、さらにその中で御社独自のブランド ボイスを維持する必要があるのかどうか。これらの質問への答えによって、MT のカスタマイズと MT のトレーニングのどちらを採用すべきかを判断できます。

MT のカスタマイズを採用すべき状況

MT のカスタマイズには 2 つの重要なユースケースがあります。次の点が当てはまる場合は MT のカスタマイズをお勧めします。

  • 用語を正確に翻訳する必要がある
  • 英語 (米国) と英語 (英国) のように、地域別のバリエーションが必要であるものの、トレーニングに必要なデータが十分にない

MT のカスタマイズは、技術的なコンテンツや細部を重視するコンテンツに適しています。この種のコンテンツでは、用語を正確に翻訳することが重要であるためです。MT のトレーニングを効果的に実施するためのデータが十分にない場合も、MT のカスタマイスを選択しましょう。

MT のトレーニングを採用すべき状況

MT のトレーニングにも 2 つの重要なユースケースがあります。次の点が当てはまる場合は MT のトレーニングをお勧めします。

  • ポストエディットの必要性を低減しながら、固有のブランド ボイス、トーン、またはスタイルを維持する
  • 翻訳言語の地域別のバリエーション (フランス語 (スイス) とフランス語 (フランス) など) が必要であり、トレーニングに十分なデータがある

MT のトレーニングは、マーケティング資料やクリエイティブなコンテンツの翻訳に適しています。この種のコンテンツでは、独自のブランド ボイスやトーン、スタイルを維持することが重要になるためです。ただし、トレーニングの効果を発揮できるだけの十分なデータがあることを確認する必要があります。

ハイブリッド アプローチ

場合によっては、両方を組み合わせたハイブリッド アプローチで最適な結果を得られることがあります。たとえば、カスタマイズを取り入れた MT トレーニングを実施することで、より優れた品質の翻訳を MT で生成できるようになる場合があります。

当社では、お客様によるハイブリッド アプローチの採用を支援しています。たとえば、お客様は当社のエンタープライズ向け MT ソリューション、 Smairt MT™ Portal を使用して MT をカスタマイズし、当社の専門家チームが提供するトレーニング サービスを通じて MT をさらに強化することが可能です。当社のチームと連携することで、お客様は MT のトレーニングとカスタマイズを効果的に組み合わせて、MT をより包括的に利用できるようになります。さまざまなテストを通じて何が最も優れた結果をもたらすのかについて理解を深め、MT のアプローチをきめ細かく調整できるようになります。

MT のカスタマイズとトレーニング: どちらの戦略がより優れているのか

MT による翻訳の品質を高めるための最適なアプローチは、お客様の状況に応じて異なります。選択肢を検討する中で、MT を最大限に活用するうえでトレーニングが唯一の方法であると考えるかもしれませんし、継続的なトレーニングに関する誇張された効果に興味がそそられるかもしれません。選択肢を検討する際は、ここに挙げるいくつかの点に留意する必要があります。

落とし穴その 1: MT トレーニングが唯一のソリューションとみなす

MT の翻訳の質を改善するうえで MT のトレーニングは非常に効果的な手段となり得ますが、それは目的としている既知の懸念事項に対処できる場合のみです。

MT の利用が増えるにつれ、多くのプロバイダーが自らの付加価値を高めるべく、MT のトレーニングを主力のソリューションとして位置付けるようになっています。ですが、このアプローチは場合によっては期待外れに終わります。中には、MT による翻訳の品質向上を目指して MT のトレーニングのみを行ったものの、費用対効果分析の結果、トレーニングの成果に失望して当社に支援をご依頼ただく企業もあります。MT エンジンが生成する翻訳に満足できず、より費用対効果の高いソリューションを求めてのことです。ではなぜ満足できなかったのでしょうか。簡単に言うと、本来はお客様独自の状況により適したアプローチがあったからです。

当社のような革新的な MT プロバイダーの多くは、MT のトレーニングが適切な場合にはそれを実施しますが、求められる品質の MT 翻訳を得るうえではカスタマイズを重点的に行います。カスタマイズのほうが、トレーニングよりもコストを低く抑えられることもあります。

落とし穴その 2: MT のトレーニングを検討する際に、継続的なトレーニングに関する誇張された効果にそそられる

MT ソリューションについて調べる中で、個々のプロジェクトの完了後にもエンジンを継続してトレーニングするという戦略を宣伝しているプロバイダーに遭遇するかもしれません。そのような宣伝には用心しましょう。継続的なトレーニングは、継続的な更新を必要とするカスタムメイドのエンジンを使用している場合のみに可能です。

当社では、MT のトレーニングが成功するのは、個々のプロジェクトでエンジンをトレーニングするために、少なくとも 15,000 個の固有のセグメントがある場合のみであることを強調してお客様にお伝えしています。お客様側に十分なデータがない場合は、プロジェクトのコンテンツを使ってカスタマイズ機能を更新し、これを「トレーニング」と呼んでいるケースが多々あります。

結論

MT のカスタマイズはトレーニングに比べてより用途の広いアプローチです。カスタマイズにより MT は大多数の企業の要件を満たす翻訳を生成するようになります。カスタマイズを行うことで、適切なブランド名や用語を使用した翻訳を出力するように MT を十分に改善できるので、これらが正しく処理されているかどうかを確認するためのポストエディット作業の必要性が低減します。MT エンジンに設定するプロファイルを更新するための一度限りの費用と、用語集を維持・管理するための費用が継続的にかかりますが、一般的には MT のトレーニングにかかる費用よりも安価で済みます。

A geographic pattern overlays a cityscape at night

MT のカスタマイズのベスト プラクティスとは

MT のカスタマイズを行う際は、次のベスト プラクティスに従ってください。

インプット/アウトプットの標準化ルール

最もよく利用する言語についてインプット/アウトプットの標準化ルールのライブラリを構築し、MT へ指示する内容を管理して MT の品質を高めるようにします。これらのルールにより、自社固有の要件を満たすことができるようになります。

たとえば、インプットの標準化ルールを使用することにより、フランス語に翻訳する際は、二重引用符 [“...”]  の代わりに二重ギュメ [« … »] を使用するように MT エンジンに指示することができます。フランス語の読者は文中で二重引用符ではなく二重ギュメが使用されることを想定しているため、このルールによって、MT により生成されるフランス語翻訳の全体的な品質が改善します。企業はインプットとアウトプットの標準化ルールを適用することで、上述のような修正ができるようになり、原文の言語に対する地域別の言語バリエーション (例: フランス語 (ベルギー)、フランス語 (カナダ)、フランス語 (アフリカ) など) に対応できるようになります。

翻訳しない語句 (DNT) リストとルール

翻訳しない語句のリストと、翻訳しない語句を検出したらエンジンに渡す前にトークンに置き換えるルールを作成します。このアクションによって、翻訳しない語句がエンジンに提示されなくなり、これらの語句が翻訳されることがなくなります。翻訳が処理されて MT による提案が返されると、アウトプットの標準化ルールによってトークンが DNT 語句に置き換えられます。

用語集の準備

翻訳の正確性と一貫性を実現するためにも、用語集は慎重に準備する必要があります。用語を用語集に含めるかどうかを検討する際は、表 1 に記載されている要素について考えます。

用語集を作成する際の一般的なガイドライン

検討事項 具体的な検討内容 用語集に含めるべきか*
頻度 その用語は原文テキストでどの程度頻繁に使用されているか。 さほど頻繁でなければ用語集には含めません。
曖昧さ その用語には複数の意味があるか。他の用語と混同されやすいか。 曖昧であれば用語集に含めます。(注: その用語の別の意味が原文テキストで稀にしか使用されていないことを確認してください。)
専門用語 その用語は特定の業界や分野に特化したものか。 そうであれば用語集に含めます。
一貫性 その用語はこれまで一貫した訳語に訳されているか。 そうであれば用語集には含めません。
重要性 その用語はテキスト全体の意味においてどの程度重要か。 テキスト全体の意味において中心的な用語であれば、用語集に含めます。
複雑性 その用語は複雑で、機械翻訳システムで正確に翻訳するのが難しいものか。 そうであれば用語集に含めます。

表 1. 用語集を作成する際に検討すべき要素。

*これらの一般的なガイドラインには例外もあり得ます。

「すべきこと」と「すべきでないこと」

用語集を作成する際は、次の「すべきこと」と「すべきでないこと」も検討することをお勧めします。

  • 一般的な用語は含めない — 単語、動詞、形容詞などの一般的な用語を用語集に含めても MT ではうまく機能せず、全体的な品質、文章の構成、文法の一致、語順などにむしろマイナスの影響を与える可能性があります。
  • 長い用語を分けない
  • 矛盾する用語を含めない
  • 同じ用語を重複して含めない
  • 1 つの用語に対して、翻訳元の言語ごとに 1 つの訳語のみを含める
  • 複合語表現を使用する
  • 具体的な製品名を使用する
  • 翻訳しない語句 (DNT) を使用する

MT のカスタマイズとトレーニングに向けたライオンブリッジのアプローチ

お客様は、当社の Smairt MT Portal を利用することで容易に MT をカスタマイズすることができ、当社のテクノロジーを通じてそれを複数の MT エンジンにも同時に適用することができます。つまり、お客様が作成して MT にアップロードした MT 用の用語集と DNT リストは、すべての MT エンジンに適用されます。また、当社のテクノロジーにより特定の MT エンジンによる「囲い込み」を回避し、お客様のコンテンツに最適なエンジンを選んで使用することができます。

さらに、当社の MT エキスパートが提供する関連サービスにより、必要に応じて MT テクノロジーを支援することも容易です。当社をご利用いただくお客様には、お客様に合った最も効果的な MT 戦略と、その戦略を効果的に実施する方法について支援をご提供いたします。

MT の使用を検討し始めたばかりでも、カスタマイズを通じて既存の MT の取り組みを改善させたい場合でも、あるいはコンテンツ制作量の増加により MT のトレーニングを検討している場合でも、お客様のニーズを適したソリューションをご提案いたします。

MT のトレーニングとカスタマイズを比較する

表 2 では、MT のトレーニングとカスタマイズを比較して、お客様のコンテンツにどちらのアプローチが適しているかを見極めることができます。

MT のカスタマイズとトレーニングの比較

  MT のカスタマイズ MT のトレーニング
定義と仕組み 機械翻訳により生成される翻訳の精度を高めるために、既存の MT エンジンに用語集や翻訳しない語句 (DNT) リストを取り込んで使用する 機械翻訳により生成される翻訳の精度を高めるために、コーパスからの膨大なバイリンガル言語データを利用して MT エンジンを構築・トレーニングする
達成される内容 MT が出力する翻訳の精度を高めて、ポストエディットの必要性を低減する MT が出力する翻訳の精度を高めて、ポストエディットの必要性を低減する
具体的な利点 適切なブランド名や用語を使用して地域別のバリエーションを用意できる 企業独自のブランド ボイス、トーン、スタイルを維持しながら、地域別のバリエーションを用意できる
使用上のリスク 適切に実行しないと MT 翻訳の品質が低下し、全体的な品質を損なう可能性がある エンジンをトレーニングするために必要な高品質のデータが十分にない場合は、トレーニングによる十分な成果を得ることができない可能性がある。経験の少ない作成者がコンテンツで用語を多用しすぎると、MT によって低品質の翻訳が出力され、全体の品質を損ねる可能性がある。
使用すべき状況 技術的なコンテンツや細部を重視するコンテンツ、さらに以下が該当するコンテンツに理想的な選択肢:
* 用語を正確に翻訳する必要がある
* 地域別のバリエーションを用意する必要があるものの、MT のトレーニングを実施するには十分なデータがない
専門性の高いコンテンツ、マーケティング資料やクリエイティブなコンテンツ、さらに以下が該当するコンテンツに理想的な選択肢:
* 独自のブランド ボイスやトーン、スタイルを維持する必要がある
* 地域別のバリエーションを用意する必要があり、MT のトレーニングを実施するための十分なデータがある
成功要因 インプット/アウトプットの標準化ルール、用語集、および DNT を適切に管理できる経験豊富な MT エキスパート エンジンを十分にトレーニングするために必要な少なくとも 15,000 個の固有のセグメント
コスト上の検討事項 MT エンジンに設定するプロファイルを更新するための一度限りの費用と、用語集を維持・管理するための費用が継続的にかかる。潜在的な利点を考慮すると比較的安価。また、一般的には MT のトレーニングにかかる費用よりも安価で済む。 初回のトレーニングにかかる費用に加え、MT のパフォーマンスをモニタリングする中で、改善の余地があると判断された場合に追加のトレーニング費用がかかる可能性がある。潜在的な利点を考慮した場合に、特定のケースでトレーニングを実施する投資価値がある。

表 2. MT のカスタマイズとトレーニングの比較

お問い合わせ

機械翻訳を最大限に活用する方法や、当社が提供する支援サービスについて、ぜひ当社までお問い合わせください。

linkedin sharing button

トーマス マッカーシーおよびジャネット マンデル
著者
トーマス マッカーシーおよびジャネット マンデル
  • #ai
  • #blog_posts
  • #translation_localization