1. 会社概要
アリー フリッツ  ライオンブリッジの通訳部門ディレクター

当社の「ライオン」たち: アリー フリッツ

ライオンブリッジの通訳部門ディレクター

mobile-toggle

言語を選択:

LLM のパフォーマンスについての新たなインサイト (ランタンの光が象徴) を探る、ステージ上のビジネスマン。
LLM のパフォーマンスについての新たなインサイト (ランタンの光が象徴) を探る、ステージ上のビジネスマン。

ウェビナー要約: LLM 翻訳の落とし穴

LLM のパフォーマンスを理解して翻訳品質を高める

「社内で LLM や AI ソリューションを開発中の場合は、それがどのような種類のコンテンツに最適かを、実際に使用して確認されることをお勧めします。当社はその過程をサポートし、お客様が独自のソリューションからどのような成果を期待できるかを理解できるよう支援させていただきます」

—シモーヌ ラモント、グローバル ソリューション担当バイス プレジデント

昨今、LLM 翻訳の落とし穴にはまったような感覚に陥る企業が増えてきています。大規模言語モデル (LLM) が急速に進歩を遂げる中、多くの企業は LLM を活用して翻訳を自動化し、その規模を拡大していくための新たな方法を模索しています。しかし、実際の LLM の出力に関しては期待どおりの結果が得られず、苦戦するケースも多く見られます。そしてそれが、生成 AI プロジェクトを成功に導けるか、高いコストをかけて失敗に終わらせるかの分かれ道となることもあります。

当社のウェビナー「LLM 翻訳の落とし穴」では、ライオンブリッジのグローバル ソリューション担当バイス プレジデントを務めるシモーヌ ラモントが、翻訳プロジェクトに LLM を使用する際に組織が直面する主な課題と、そうした課題を克服して高品質な多言語コンテンツを制作する方法について解説しています。

ウェビナー全編をご視聴になるには、下のボタンをクリックしてウェビナー録画版をご覧ください。

  • #life_sciences
  • #content_transformation
  • #generative-ai
  • #automotive
  • #industrial_manufacturing
  • #technology
  • #ai-training
  • #retail
  • #content_creation
  • #webinar
  • #consumer_packaged_goods
  • #ai
  • #blog_posts
  • #legal_services
  • #translation_localization
  • #travel_hospitality

最近ではあらゆる組織が AI プロジェクトを立ち上げ、LLM をワークフローに統合しようとしています。大きな期待が広がっている一方で、現実には落胆の声も少なくありません。

実際、AI プロジェクトの 72% は価値を生み出す前に頓挫しています。その理由としては、翻訳の品質が不十分なこと、ハルシネーションや解釈ミスが頻発すること、そして社内チームが各ターゲット言語向けに LLM をカスタマイズするための専門知識を持っていないことなどが挙げられます。

AI ソリューションの品質に関する懸念と現実

LLM は高速かつ大規模な処理を可能にしますが、慎重に設定を行わないと、利害関係者やブランドの信頼性を損なうエラーが発生する可能性があります。

一部の組織では、ブランド名の誤訳、数値や測定単位の取り扱いミス、用語の一貫性の欠如といった問題が報告されています。こうした問題は特に、LLM を社内でトレーニングする際、適切な言語資産が不足している場合に顕著になります。

もう 1 つの課題は、効果的なプロンプト エンジニアリングに必要な時間とスキルの不足です。中国語、ドイツ語、フランス語などのさまざまな言語向けにソリューションをカスタマイズするには、技術的な専門知識と言語に関する専門知識の両方が必要になりますが、多くのチームにはそれが欠けています。AI を活用した翻訳が小規模なプロジェクトでうまく機能しても、それを企業規模のワークフローにまで拡張するのは容易ではありません。

LLM のパフォーマンスの複雑さを象徴する、文字と数字が書かれたタイル上の迷路。

事前学習済み LLM と翻訳用 MT ソリューションの比較

既成の ChatGPT (あるいはその他の LLM) は、企業の翻訳プロジェクトに十分対応できるでしょうか。ライオンブリッジ機械翻訳トラッカーによるベンチマークでは、従来の機械翻訳エンジンやハイブリッド ソリューションと比較した場合、標準的な事前学習済み LLM は通常、翻訳パフォーマンスが劣ることが示されています。翻訳の品質はファインチューニングと検索拡張生成 (RAG) によって高めることができますが、AI を活用したソリューションをいつどのように使用すべきか、出力をどのようにテストすればよいかを、組織に導入する前に十分に理解することが重要です。

コンテンツの種類による品質レベルの相違

すべてのコンテンツに同じレベルの翻訳品質が必要なわけではありません。このウェビナーでは、コンテンツのリスクやビジネス上のニーズに合わせてワークフローを設計することの重要性を強調しています。たとえば、マーケティングのプレス リリースでは高い正確性とブランドの一貫性が求められますが、Web サイトの簡単なアップデートであれば多少のぎこちなさは許容される可能性があります。

エラーの許容度はコンテンツの種類によって異なります。
  • 病院のベッドのマニュアルとペースメーカーのマニュアルでは、精度に関する要件が大幅に異なります。

  • 医療文書や法律文書の場合は、ミスが一切ないことが絶対条件です。

  • その他の種類のコンテンツでは、完璧さよりも翻訳のスピードとコストが重要視される場合もあります。

対象となるコンテンツを理解することが重要です。ライオンブリッジの REACH フレームワークでは、ROI、エンゲージメント、オーディエンス、管理を考慮して、各ユースケースに適したアプローチと必要な人間参加の程度を決定するよう求めています。コンテンツが情報提供のみを目的としたものか、あるいは専門的なコンテンツ、規制対象コンテンツ、影響力の大きいコンテンツであるかを考慮することで、人間によるレビューなしの LLM 主導の翻訳から専門家による完全な検証まで、必要なワークフローを判断できます。

カスタマイズと人間のレビューによる翻訳ワークフローの改善

カスタマイズは重要です。当社の AI ファースト プラットフォームである Lionbridge Aurora AI™ では、翻訳メモリ (TM)、用語集、ダイナミック プロンプト、およびポストエディット用の LLM を活用しています。このアプローチによって人的労力が削減されるとともに、翻訳の品質が向上し、あまり一般的でない言語の場合でも、それぞれのユースケースに合わせてトーン、スタイル、用語をカスタマイズできます。

シモーヌは継続的に評価を行うことの重要性を強調しています。ライオンブリッジでは、用語、正確さ、スタイル、各地域の慣習、およびオーディエンスへの適合性に基づいて翻訳の品質を分析する、自動評価サービスを行っています。このスコアカードを利用することで、組織独自の AI ソリューションの長所と短所を特定し、的を絞った強化を行えるようになります。

LLM のパフォーマンスの課題を表す、コンピュータの不具合を図視した画像。

LLM のパフォーマンスの評価と改善

独自の AI ソリューションがタスクに適しているかどうかは、どうすればわかるでしょうか。このウェビナーでは、LLM のパフォーマンスと翻訳品質を評価するための実践的な手順をご紹介しています。

  • まず現在のワークフローを評価するため、LLM または機械翻訳の出力を、人間による翻訳と比較します。

  • 当社の自動化された品質評価を利用して、用語、スタイル、正確さなど、改善が必要な領域を正確に特定します。

  • コストや納期、許容できるエラー率のバランスを考慮しつつ、コンテンツの種類ごとに最適な AI ワークフローを設定します。

ライオンブリッジの評価サービスを利用することで、LLM のパフォーマンスについての推測が不要になり、不確実性を排除できます。翻訳済みコンテンツのサンプルをお送りいただければ、包括的なスコアカードと実践的なインサイトをご提供いたします。このデータを参照することで、特定の低リスクのコンテンツについては社内 LLM を利用し、リスクの高いプロジェクトについては専門家のサポートを求めることができるようになります。

ウェビナーの主なポイント

このウェビナーでは、LLM で期待どおりの成果を挙げられない場合に、パフォーマンスを最大化する方法についてのインサイトをご紹介しています。主なポイントは次のとおりです。

  • LLM のパフォーマンスは、LLM 翻訳ソリューション、関連する言語資産、およびカスタマイズのレベルによって大きく異なる。

  • すべてのコンテンツに同じ翻訳品質が必要なわけではなく、コンテンツに求められる出力に合わせてワークフローを調整し、コスト、納期、リスクのバランスを取る必要がある。

  • 既成の LLM は、ファインチューニングされたソリューションやハイブリッド ソリューションと比べるとパフォーマンスが劣る傾向がある。

  • カスタム プロンプト、用語集、翻訳メモリ (TM) を利用することで、翻訳の品質が向上する。

  • 高リスクのコンテンツや規制対象コンテンツの場合は、人間によるレビューが依然として重要になる。

  • 客観的なデータを使用して AI ソリューションの長所と短所を評価し、情報に基づく意思決定を行う必要がある。

  • ライオンブリッジは各組織が独自の LLM 翻訳の出力を評価できるように、自動評価のサービスを提供している。

ライオンブリッジがこれまでに取り上げた AI 関連の他のウェビナーにもご興味があれば、「ライオンブリッジのウェビナー」ページにて、それぞれのウェビナー録画版をご確認ください。

お問い合わせ

組織が求める翻訳品質を備えた、信頼性の高い LLM パフォーマンスを実現する方法にご関心があれば、ぜひライオンブリッジにご相談ください。当社はお客様の AI 活用を成功に導くための、プロジェクトの評価、最適化、カスタマイズをサポートしています。ぜひお気軽にお問い合わせください。

注: 本ウェビナー要約は、Lionbridge Content Remix App が生成したコンテンツを人間のレビュー担当者が適宜校正したものです。

linkedin sharing button

執筆者
ジャネット マンデル

お問い合わせ

勤務先のメール アドレスを入力してください