Using Machine Translation

機器翻譯詞彙解釋

速查表:人工智慧、大型語言模型以及更多機器翻譯相關術語

機器翻譯 (MT) 的歷史其實頗為長久,但直到這十幾年才開始蓬勃發展,近年來大型語言模型 (LLM) 更是獲得大眾以及語言服務業界的高度關注與期待。

最近幾年來,隨著人工智慧 (AI) 觸角伸入這個時代的所有層面,生成式 AI (GenAI) 也逐漸興起,成為備受多個產業注意的最新關鍵字之一。因此,不論您和機器翻譯的概念是否關係密切,都要對這個議題略知一二。

隨著人工智慧 (AI) 應用日益普及,公司和消費者接觸日多,浮上檯面的密切相關詞彙也越來越多。對於想一窺究竟的門外漢來說,面對這些有時可以互相通用的詞彙,如何分辨箇中不同之處?

您該如何解說機器翻譯相關詞彙?

我們能助您一臂之力。Lionbridge 在全球擁有一批經驗最豐富的 MT 專家。我們與這些專家合作,製作了這份速查表,協助您在遇到這些推動產業前進的詞彙時,能辨別箇中的微妙差異與明顯差異。

1.人工智慧

想要了解 MT 的最新趨勢,首先得熟悉這項技術誕生與發展的背景:功能強大、讓人驚嘆的人工智慧 (AI)。人工智慧 (AI) 是指機器能在執行工作時展現「智慧」,也就是一般認為是人類本身具有的思維能力,例如學習或解決問題等。近年來,隨著電腦運算能力日漸強大,AI 也有了大幅進展。效能更加強大的電腦不但能在執行任務期間進行更密集的運算處理,也能展現更先進的「機器學習」能力,也就是可以透過執行工作獲得 AI 應用所需的知識。

2.機器學習

機器學習是資訊科學的一個分支,是運用龐大的資料來教電腦執行任務。機器學習會檢查與某個特定任務相關的資料,從中找出模式並將資料連結在一起,接著運用這些新學到的知識,規劃電腦應該如何執行這項任務。如果經過這樣的分析後,電腦執行這個任務的表現有所改進,我們就會說機器學習到東西了。

由於目前幾乎任何事情都能找到相應的資料,因此人們也正運用機器學習來改善電腦在各個方面的效能,例如氣象預報、自動選股以及機器翻譯等。

3.機器翻譯

簡單地說,機器翻譯就是自動化的翻譯:將某個語言的來源資料輸入電腦,電腦便會以另一種語言輸出翻譯。這個技術並不完美,但若希望能更有效率地產出高品質翻譯,這會是最強大的工具之一。

過去數十年來,MT 在輸出的品質以及支援的語言數目上都有所改善。從只能做簡單字詞代換的早期 MT 系統、根據文法和辭典明確編碼的規則式 MT、以大量數據分析模式的統計式 MT,運用深度學習和類神經網路的神經 MT,一直到輸出結果宛如是人類撰寫般的生成式 AI,機器翻譯一路走來的發展,可說亦步亦趨地反映了我們對電腦日漸精細複雜的使用。

描繪機器翻譯的未來風全像投影

4.統計式機器翻譯

統計式機器翻譯 (SMT) 會運用機器學習,針對來源語句生成大量的候選翻譯,再根據目標語言中字詞與片語同時出現的機率,從中挑選出最好的翻譯。SMT 是透過所謂的「N 連詞」(n-gram) 來學習翻譯,也就是在來源與目標語言中會同時出現的一小組字詞。在機器學習階段,我們會將訓練材料輸入至 SMT 系統,也就是非常、非常多的來源語言句子,以及這些句子在目標語言中的相應翻譯。學習演算法會把來源與目標語言的句子拆解為 N 連詞,然後找出當來源語言中特定的 N 連詞出現在句子中時,目標語言的翻譯中通常會出現哪些 N 連詞。

接著,學習演算法會建立語言模型,計算特定詞彙與片語在目標語言中比鄰出現的機率。完成這個學習階段後,就是實兵演練、翻譯新素材的時候;SMT 系統會將新的來源句子拆解成 N 連詞、找出高度相關的目標語言 N 連詞,然後生成候選句。最後選定的翻譯,則會是目標語言 N 連詞與來源語言 N 連詞相關程度最高,同時其目標語言字詞在目標語言中同時出現機率最大的句子。

儘管 SMT 系統並沒有將任何語言學的因子納入考量,但 SMT 的翻譯成果卻出奇地好;的確,這個系統考量的只是 N 連詞,而不是完整的句子。而這種方法,剛好與另一種 MT 方法截然不同:神經機器翻譯。

5.神經機器翻譯

神經機器翻譯 (NMT) 克服了 SMT 最大的缺點:對 N 連詞分析的依賴。NMT 能賦予機器能力,這個系統就像 SMT 一樣,也要用大量的資料來訓練,但兩者之間有個關鍵的不同點:一旦系統收到訓練素材後,會自行決定如何從這些資料盡可能地學習。

NMT 系統會為每個來源句子建立資訊向量,並根據詞彙前後的字詞,為每個詞彙建立關聯資訊。有些系統可以為每個字建立數百個訊息片段,因此能產生深度的準確性。透過深度學習,NMT 系統可以為每個字詞及來源句擷取到大量的資訊,然後再運用一種稱為注意力模型 (Attention Model) 以及對這些龐大資料串流的分析,來精進之前所學習到的關鍵特徵,這對翻譯流程至關重要。最後所生成的翻譯在流暢度上有顯著的改善,而電腦產出的翻譯也開始越來越自然流利。

NMT 已經徹底改變了我們的產業。隨著工具組日漸成熟以及技術進步,我們也因此提高了 MT 的使用比例,以期加快整個生產流程的進行。到了 2022 年,主流的神經機器翻譯引擎未能在品質上有大幅的改善,顯示這個典範正在走下舞台,而發生顛覆性改變的時機日漸成熟。

一個技術網路

6.生成式 AI/大型語言模型

生成式 AI 是一種人工智慧 (AI) 系統,能根據提示以及廣泛的多模態訓練,生成包括文字和影像等新的內容。它最為人所注目的能力,就是可以產出有如人類撰寫般的高品質輸出。大型語言模型則是種以語言為主的 AI 系統,能夠根據它從龐大資料庫學習得來的知識,摘要、翻譯、預測以及生成文本。雖然它並不是專門訓練用來翻譯文字,卻能產出不錯 (但並非優異) 的品質,而且正在迅速進步中。2022 年 11 月問世的 ChatGPT 便是第一個躍上主流舞台的 LLM,推出後僅僅兩個月就吸引了 1 億名使用者

隨著 GenAI/LLM 技術的功能持續擴增,它將可應用於更多重複性質高的核心語言活動。我們便預期它將讓以下三個領域的相關人士,得以有更多餘力從事價值更高的活動:

  • 內容構思 — 人類提出構思,從而啟動整個內容創作流程。
  • 內容驗證 — 由人類確認正確性、安全性以及真實性。
  • 內容分析 — 人類得以提供更強力的監控,確保成效更加優異。

像創譯這種價值更高的服務,價格會變得更平易近人,也更容易為公司企業所採用。最終,這個技術將可協助品牌推出更能引起消費者共鳴的內容,並在不同國家/地區的消費者心中建立更令人信服與信賴的形象。Lionbridge 致力找出生成式 AI 使用案例並開發應用程式,希望能充分善用與發揮 LLM 的最大功能,進一步將本地化工作流程自動化。

7.大型語言模型機器翻譯

大型語言模型機器翻譯 (LLM MT) 是指使用 LLM 進行 MT。這個技術或許有一天會取代神經 MT 典範,但目前則還未臻成熟。LLM 能產出不錯的輸出,在 Lionbridge 的某個評量中,OpenAI 的 GPT-4 模型在英譯簡中這個語言組合上的表現甚至還勝過 Yandex 神經機器翻譯引擎。然而,在本文撰寫之時,LLM 在速度、品質以及價格實惠等方面還是比不上五大主流神經機器翻譯引擎,因此仍舊難以取代神經 MT 引擎。Lionbridge 會透過 Lionbridge 機器翻譯追蹤工具追蹤 LLM 機器翻譯的表現,這個追蹤工具目前也會將多個 LLM 模型納入評量,包括評估 GPT-4 機器翻譯

8.人機迴圈 AI 翻譯

人機迴圈 AI 翻譯是指結合人類以及機器的力量,產出符合您需求的翻譯成果。

雖然 GenAI/LLM 能提升翻譯效率及成本效益,但基於以下幾個原因,人類的參與仍是不可或缺:

  • 這個技術無法取代人類的獨創性。
  • 如果沒有監督,我們無法完全信任這個技術
  • 這個技術無法獨立執行。

而人類則可透過以下幾種方式參與其中,協助克服 LLM 的一些重大問題,讓成果更具價值:

  • 人類可以審閱整個翻譯輸出,這對維持一致性特別重要。GenAI/LLM 最適合使用幾百字以內的提示,但這個長度限制往往導致分批輸出的翻譯前後不一致。

  • 人類可以根據專案類型,在一系列的提示中加入多個詞彙表和指示,進而取得一致的品牌調性。

  • 想要獲得成效卓越的 GenAI/LLM 表現,輸入提示是第一個步驟也是必要條件,但這個技術本身無法自行建立提示,而是得由人類建立提示。

  • 人類可以建立複雜精細的專屬平台,組織整理數以萬計的提示、再利用之前的提示,並視需要加入說明和詞彙表以取得所需的成果。Lionbridge 便設計並推出了一個提示疊代平台,能再利用與重複使用有效的提示。

  • 人類可以判斷如何將 LLM 技術,與運用翻譯記憶庫和神經機器翻譯的現有工作流程相整合,進而節省時間與心力並降低成本。Lionbridge 專責的 AI 團隊,便很擅長將 LLM 與現有工作流程順暢整合。

為何要選擇 Lionbridge

Lionbridge 能熟練地運用 MT。我們自 2002 年起便提供大量的 MT 服務,並一向站在最新且精彩進展的最前線。歡迎造訪我們的機器翻譯領導思維網頁,了解最新的 MT 趨勢。

與我們聯絡

想實作最新工具,將翻譯流程自動化嗎?歡迎立即與我們聯絡以深入了解。

  • #blog_posts
  • #translation_localization
linkedin sharing button

作者
Lionbridge

與我們洽談

請輸入公司電子郵件