選擇語言:

MT 引擎分析

Lionbridge 機器翻譯專家檢視主流 MT 引擎的表現,並分享對最新產業趨勢的深入洞見。

大型科技公司看重機器翻譯 (MT) 的程度有多高? 為能自同業中脫穎而出,這些公司正採取哪些行動? 不區分特定月份或語言的情況下,哪一個引擎的表現最好? 這些正是 Lionbridge MT 專家每個月準備回答的問題。 讓您自己具備相關知識,以利進行明智的 MT 投資。

各月份執行摘要:

2022 年 6 月 — 正確分析 MT 品質

2022 年 5 月 — Amazon 與 Yandex 的 5 月表現

2022 年 4 月 — Yandex 的 4 月表現

2022 年 3 月 — 客製化 MT 比較評估

2022 年 2 月 — 神經機器翻譯 (NMT) 的未來

2022 年 1 月 — MT 引擎 1 月表現

2021 年 12 月 — Lionbridge 在 MT 品質追蹤工具中新增 Yandex MT,以進行競爭力評比

2021 年 11 月 — Bing 翻譯工具有所改良

2021 年 10 月 — Amazon 的 MT 引擎如何不斷進步

2021 年 9 月 — Amazon 對 MT 品質進行改善

2021 年 8 月 — 龍頭科技公司及其 MT 引擎發展

2022 年 6 月

在 6 月,我們觀察到 Yandex MT 引擎的俄語翻譯有小幅進步,而 Microsoft Bing MT 引擎的翻譯成效則有些微退步。 這些是值得注意的改變,還是無關緊要的結果? 為進一步釐清,我們以不同方式分析了翻譯成效。

相較於使用單一嚴格標準來衡量 MT 翻譯和「完美」人工翻譯的差距,我們使用多種參考翻譯。 我們將每筆機器翻譯與 10 筆專業譯者的翻譯相互比較。 當我們採取這項做法時,Yandex 和 Microsoft Bing 在 6 月出現的翻譯品質小幅波動就不復存在。 有鑑於此,我們可以下個結論,就是 MT 翻譯品質並沒有改變; 6 月成效持平。

有時,資料以及根據資料繪製的圖表可能會有誤導之虞。 由於不同量測方法之間通常會有些許誤差,使得這類情況經常發生。 因此,使用一種以上的方法來評估資料,會是準確解讀成效的良好做法。

我們預期未來幾個月內,MT 引擎的品質將繼續持平。 我們將在此提供分析和對 MT 的整體觀察。 下個月,敬請期待對不同 MT 語言配對進行的比較。 我們將探討運用資料按 MT 複雜性來分類語言和語系的可行性,並判斷機器是否較為擅長翻譯某些語言配對。

—Lionbridge 創新副總裁 Rafa Moral

2022 年 5 月

對 MT 引擎來說,大體而言,這又是波瀾不興的一個月。

我們注意到,Amazon 在處理英文譯至西班牙文這個組合上的表現有進步, 目前已成為這個語言組合表現最佳的引擎。 其實 Amazon 在其他語言上也有微幅進展,只是程度都沒有英文譯至西班牙文這個組合來得大。 我們推測這些進步是出於某些一般設定的變更,以及對英文譯至西班牙文這個組合所投入的心力。 這些改進似乎影響了某些特殊字元,與含有度量衡表示之字串的處理方式。

Yandex 連續兩個月出現微幅改善, 有趣的是,這些改善也影響到西班牙文。

如前所述,這個月並沒有什麼明顯的變化, 所有引擎的表現都相差無幾。 接下來的幾個月,我們將針對一些特定的 MT 領域進行分析,並提供整體而言觀察到的結果, 當然同時也會繼續追蹤重要的發展。

—Lionbridge 創新副總裁 Rafa Moral

2022 年 4 月

Yandex 的 MT 引擎效能數個月以來都沒什麼變化,最近終於有了一些進步,在德文引擎上尤其明顯。

我們透過一項詳盡的分析,發現到 Yandex 引擎在處理含有標點符號字元 (例如問號、驚嘆號、引號和斜線號等) 及度量衡單位的句子上有進步。 這些改進可能是源自於 MT 設定上的細微調整,而非模型上的改善。 然而,我們在追蹤罕見詞彙時也看到了進步,所以也可能是模型的微調或是更多的資料訓練,使得 Yandex 有所改善。

去年此時,也有數個 MT 引擎展現了我們頗為關注的改善。 因此我們開始思考:這樣的進步是否有時間上的固定模式? 我們今年也會觀察到有如 2021 年的情形嗎? 我們會持續追蹤這些引擎的 MT 效能,並在下個月左右報告我們的發現。

總的來說,人們對 MT 引擎評估越來越感興趣。 時至今日,大多數的人都同意,MT 已是個成熟的技術。 無論是否採用人工干預還是混合作法,人們已經體認到這個技術對幾乎任何翻譯案例而言都很實用。 但該如何妥善地評估、衡量與改善 MT 結果,MT 使用者則仍在求取合適的評估方式。

—Lionbridge 創新副總裁 Rafa Moral

2022 年 3 月

長期關注這個網頁的朋友,一定很熟悉我們對常見 MT 所做的比較評估報告。 每個月,我們都會說明特定語言組合表現最佳的 MT 引擎為何,並追蹤這些引擎的進展。 在 3 月,不同 MT 引擎的效能表現都持平。 這個趨勢已經持續了好一陣子, 正如我們上個月的評論,這可能代表我們需要一個新的 MT 典範。

在我們與大眾分享一般性評估結果的同時,也有越來越多的公司要求我們提供客製化 MT 比較評估。 與一般版本不同的是,這些評估會將公司的具體需求納入考量,來判斷哪些 MT 引擎對他們最為有利。

對於想開始使用 MT 或改善目前 MT 使用方式的公司來說,首要之務就是要找出最適合他們的 MT 引擎。 因此我們在進行客製化評估時,雖然採用的作法跟這個網頁所示的方式雷同,但會根據公司的內容類型跟語言組合要求來提出建議。

客製化 MT 比較評估的提供雖然已有數年之久,但對這類報告的需求卻是有增無減。 我們認為這是因為 MT 在協助企業成功立足數位市場之上,扮演了非常重要的角色。

—Lionbridge 創新副總裁 Rafa Moral

2022 年 2 月

Google 的 MT 引擎在 2022 年 1 月及 2 月有小幅的進步,而我們關注的其他引擎,表現則停滯不前。 這項觀察結果使我們開始思考一些很尖銳的問題: 神經機器翻譯 (NMT) 這個典範是否已經達到頂點? 如果這些引擎無法再有長足的進展,我們是否需要改採新的做法? 畢竟在 NMT 取代統計式 MT 時,我們也觀察到類似的趨勢。

統計式 MT 時代落幕之際,MT 輸出品質幾乎可說沒什麼變化; 此外,不同 MT 引擎的輸出品質也漸趨相同。 現在我們也看到類似的走向。 儘管 NMT 還不會馬上被取代,但如果我們相信指數成長和加速回報理論,再將規則式 MT 為期 30 年和統計式 MT 盛行十數年的壽命納入考量,以 NMT 問世到目前進入第六年來看,或許不久之後就會出現新的典範轉移。

—Lionbridge 創新副總裁 Rafa Moral

2022 年 1 月

在 1 月這段期間,主流機器翻譯 (MT) 引擎的效能表現並未出現大幅改變。 

Google 在部分語言和領域上,表現有微幅改善。 其他多數引擎的效能都屬持平。 Microsoft 在過去幾個月有所改良,但其效能在 1 月未見提升。 整體而言,在一般用途的 MT 技術領域上,Google 的翻譯品質持續領先。 

在 12 月,我們在追蹤工具中加入了第五個 MT 引擎。 透過監控 Yandex,我們可以更精準地分析俄語的 MT 品質。

—Lionbridge 創新副總裁 Rafa Moral

2021 年 12 月

我們在 12 月時,在機器翻譯追蹤工具的品質比較中加入了新的成員:Yandex MT。 

根據我們的測試集,Yandex 截至目前的表現如下:

  • 在俄文方面的表現優於 MS Bing,與 Google 相近,但不如 Amazon 和 DeepL。
  • 在德文方面的表現與 Amazon 和 MS Bing 相近。
  • 在我們追蹤的其他語言組合方面,表現則不如主要的 MT 引擎。
  • 在翻譯超過 50 字的長句上表現不錯。

另外我們也觀察到,MS Bing 在 2021 年最後幾個月的輸出改善令人激賞,譯入中文的進步尤其優異。 Amazon 也有不少改進。 邁入新的一年,則由 Google 率先在輸出結果上有所改善, 更明確地說,他們譯入西班牙文、俄文和德文的成績都有進步。 追蹤已達五週的 Yandex 表現曲線則持平,沒有多大變化。

—Lionbridge 創新副總裁 Rafa Moral 

2021 年 11 月

Microsoft 自然語言處理 (NLP) 的工程人員顯然抓到了訣竅,經過幾週的實驗,整體表現上下震盪後, Bing 翻譯工具的整體表現在過去幾週有所提升,中文方面更是有長足的進步,使得該 MT 引擎榮登上月表現最佳的寶座。 Bing 翻譯工具在大部分領域中的表現已經趕上部分競爭對手,甚至有超越這些對手表現的情形。 Bing 翻譯工具仍舊是訓練潛力數一數二優秀的引擎,而功能上的進步,也使得它會是您為內容建置專用客製化模型時不錯的選擇。

—Lionbridge 語言卓越能力團隊副總裁 Jordi Macias

2021 年 10 月

10 月,Amazon 的機器學習 (MT) 引擎憑藉著之前一個多月來的成果不斷改善,持續與時俱進,締造了相當優秀的成果。根據我們觀察,這是 Amazon 過去幾個月內推出的第二波持續改善。

若您不太清楚 Amazon 過去的成績,在過去幾個月內,Amazon 的機器學習引擎在下面幾個領域中不斷改進:

  • 翻譯的風格比以往更自然貼切
  • 採用全新方式處理度量衡單位
    • 目前會固定顯示英制與公制的度量衡數值
    • 英制度量衡現在會顯示在公制度量衡的前面
    • 現在能分別正確翻譯兩種度量衡的數值
    • 目前會將 Euro 譯為各語言的「歐元」,不再保留貨幣符號 €

—Lionbridge 語言卓越能力團隊副總裁 Jordi Macias

2021 年 9 月

Amazon 的機器翻譯 (MT) 引擎在 9 月的表現可謂可圈可點。首先,Amazon 改善了他們德文與俄文的 MT 輸出品質;其次,他們在西班牙文與中文這個語言組合上的表現也有進步。這是過去幾個月內我們觀察到他們的第二波改善。

Amazon MT 引擎還有以下一些改變:

  • 推出比以往更口語化的風格
  • 改變了度量衡單位的處理作法
    • 目前會固定同時顯示英制與公制的度量衡數值
    • 英制度量衡現在會顯示在公制度量衡的前面
    • 現在能分別正確地翻譯兩種度量衡的數值
    • 目前會以「Euro」(歐元) 取代貨幣符號 €

—Lionbridge MT 專員 Yolanda Martin

2021 年 8 月

所有科技企業龍頭都已開發自己的 MT 引擎,其中包括 Microsoft、Google、Amazon、Facebook 以及最新加入這個行列的 Apple。而美國以外市場中的許多其他主要企業,也紛紛投入這個領域爭取領先。這些一流科技企業顯然都相信,MT 和自然語言處理 (NLP) 技術,對現今連結日趨緊密的全球化世界來說,是不可或缺的工具。

歡迎跟著 Lionbridge 一起,密切關注這個領域的競爭局勢。我們會根據公司的特殊需求、想要使用的語言組合與內容類型等因素,進行周密的全盤考量,找出最合適的 MT 引擎選擇。

隨著眾多一流科技企業投入心力開發 MT/NLP,相信這場競賽將更加激烈。隨著向來以注重細節和品質聞名的 Apple 加入這場戰局,也無疑會促使其他企業卯足全力求取進步。

—Lionbridge 創新副總裁 Rafa Moral