選擇語言:

Black background illuminated by swirls of light, numbers nd letters

語言技術的未來:機器翻譯的未來

機器翻譯將會持續進步,而且只要運用得宜,在提升翻譯生產力上將可佔有更重要的地位。

這是「語言技術的未來」系列的第三篇文章,此系列旨在探討技術發展為語言交付帶來的各項變革。

現今創製的內容數量以前所未有的幅度攀升,因此倍感壓力的企業無不積極尋求各種方法,希望迅速又有效率地完成文案的翻譯工作。而機器翻譯 (MT) 的使用雖然越來越廣泛,但離完美卻還有段很大的距離。品質不良是它一直為人詬病的問題,但可以預見的是,隨著這項技術的進步,它將可提高您日後的本地化作業能力。

在這篇文章中,我們將探討有哪些因素會影響機器翻譯,並告訴您如何善用這項技術為您的本地化策略加分。

 

什麼是機器翻譯 (MT)?

機器翻譯是指在沒有人工干預的情形下,將來源資料自動翻譯為另一種語言。儘管這對一般大眾是個相對而言比較新的概念,但機器翻譯的發展其實已經有數十年之久。

SYSTRAN 就是率先研發機器翻譯的其中一家公司。早在 1960 年代末期,他們便與美國空軍合作進行研發,而時值冷戰時期,美軍希望能有效率翻譯情報資料。當時的目標,是希望機器翻譯能將資料翻譯為人類譯者可以理解的內容,並輕易修改為品質更好的譯文。早期的機器翻譯使用的是規則式方法,也就是仰賴人們或字典制訂的規則來執行翻譯。自那時起,語言技術也有了大幅的長足發展。

哪些因素影響了機器翻譯的發展?

統計式模式與混合式引擎

1990 年代,機器翻譯有了重大進展,當時 IBM 等公司紛紛開始採用統計式模式,大幅提高了機器翻譯的品質。統計式機器翻譯引擎是當時的新興技術,這類引擎主要是使用高等統計學方法以及來自網路的龐大資料,來翻譯不斷增加的內容。Google 稍後也大規模部署了這個技術,試圖讓所有的人類知識都可供搜尋。

初期的統計式機器翻譯引擎在品質上雖然遠優於規則式引擎,但仍舊有很多錯誤。因此,有些公司就開始嘗試混合式機器翻譯引擎,這通常是將統計式機器翻譯與規則式機器翻譯相結合。這些進展帶動了機器翻譯技術的普及,更將這項技術推廣到全球各地。

神經機器翻譯

在 2017 年,神經機器翻譯 (NMT) 的出現,又使機器翻譯在技術上再度大幅躍進。神經機器翻譯是運用人工智慧 (AI) 的強大威力以及神經網路來產出翻譯。

與前述方法不同的是,神經網路是模擬譯者的思考過程,而不是「猜測」可能的結果,因此產出的翻譯不但更為自然,也更能正確掌握到句子的意義及箇中細節。這個進展使得機器翻譯能產出可接受的品質,不但可用來理解大量的文件或掌握其重點,也可應用在非任務關鍵的一般商務文件上。

神經機器翻譯解決了機器翻譯長久以來的一些缺點,像是不通順的自動翻譯,以及難以相容於特定語言 (例如韓文) 的問題。業界也正持續改善神經機器翻譯。如要進一步了解神經機器翻譯,歡迎閱讀我們的部落格文章:神經機器翻譯:人工智慧在翻譯語言時的運作方式

Smiling man looking at laptop screen

神經機器翻譯的進步幅度有多大?

Lionbridge 的研發 (R&D) 團隊估計,神經機器翻譯的進步幅度每年可達 3-7%。在衡量這個進步幅度時,我們的專家是採用稱為「編輯距離」(Editing Distance) 的方法來評估。「編輯距離」會計算要對機器翻譯的輸出做多少次人工編輯,才能使得到的結果和人工翻譯的品質一樣好。

隨著對翻譯服務的需求日漸增多,以及機器學習在自動訓練神經機器翻譯引擎上越來越成熟,神經機器翻譯也將繼續不斷地進步。

哪些因素會加快神經機器翻譯日後的採用速度?

隨著需要進行本地化的內容急遽大幅成長,日後採用神經機器翻譯的速度自然也會更快。

COVID-19 疫情的危機加快了許多公司數位轉型的腳步,也創造出更多的翻譯服務需求。與此同時,這些內容也必須更切合目標對象的需求,形式也必須更加多元。這些市場條件,都將促使產業在內容創製流程中更傾向運用機器翻譯,有時甚至不需要人工加以監督。

所謂人工翻譯監督,是透過機器翻譯譯後編修 (MTPE) 這種混合機器翻譯與傳統人工翻譯的模式執行,也就是在機器翻譯處理之後進行譯後編修,來改善翻譯內容的品質。歡迎閱讀我們另一篇部落格文章,了解使用機器翻譯加譯後編修的時機

神經機器翻譯的採用速度對翻譯服務會有什麼影響?

企業可以預期的是,至少對某些語言來說,神經機器翻譯將會降低翻譯服務的成本門檻。而成本的降低,也將使公司得以增加目標市場的數目,並有助他們更快在這些市場推出產品。

由於神經機器翻譯的採用,往往伴隨著企業的數位轉型,因此可以想見全球經濟體系的競爭態勢,將會變得更加激烈。而使用者也會更期望能以自己的母語接收產品資訊。滿足所有營運市場中的這些期待,將會成為企業的常態,而非例外情況。

自動化工具組:什麼是翻譯記憶庫?

在翻譯流程自動化這個領域,機器翻譯並不是翻譯工具組中唯一的工具。翻譯記憶庫 (TM) 一直是機器翻譯很重要的一個前導技術,也將會持續在本地化產業中佔有一席之地。機器翻譯與翻譯記憶庫經常搭配使用,但是翻譯記憶庫的角色將會有所轉變。

翻譯記憶庫的研發可追溯自 1990 年代,是將一間公司過往翻譯內容匯聚在一處的資料庫,以便日後應用於新的內容以減少工作負荷。

翻譯記憶庫技術是透過電腦輔助翻譯 (CAT) 工具或翻譯記憶庫工具 (TM 工具) 實作,這些工具可以讓多個處理同一個內容片段的譯者,能夠使用來自同一內容不同片段已翻譯好的詞句。

翻譯記憶庫使得企業得以:

  • 享有一致的術語翻譯
  • 降低成本
  • 提高翻譯流程的速度與生產力

翻譯記憶庫一直是節省成本不可或缺的角色,其貢獻不容忽視。

Woman wearing glasses and sitting on couch looks away from her laptop

機器翻譯與翻譯記憶庫有何不同?

雖然機器翻譯以及翻譯記憶庫的用意,都是要自動化翻譯流程,但兩者之間卻大不相同。

翻譯記憶庫就像是容器或資料庫,是用來儲存過往的翻譯資料,因此在產出翻譯時,它們是被動地將整個段落或句子片段與來源文字做比對。相對而言,機器翻譯則是更複雜精細的技術。機器翻譯會使用過往的翻譯以及多種自然語言處理技巧,主動去猜測來源文字的可能翻譯。

這些技術彼此相輔相成,結合在一起,能夠增進譯者的能力,加快他們的工作腳步並提高生產力,也能解決術語一致性等品質問題。這兩種技術密切整合,能合作無間地提供更高品質的翻譯。

機器翻譯與翻譯記憶庫技術如何一同演進?

過去幾年,許多公司開始投入機器翻譯與翻譯記憶庫的懷抱,運用這些技術進行翻譯。踏出這一步,也使他們將注意力轉移到如何有效地執行這些技術的實作。

由於機器翻譯提供的效率遠大於翻譯記憶庫,而它本身多少也墊基於翻譯記憶庫,因此這兩個技術的融合程度也越來越高。然而,機器翻譯正逐漸成為主要的翻譯生產力工具,已充分整合到許多翻譯工作台中。

隨著機器翻譯技術的重要性與日俱增,成為翻譯與本地化產業中最主要的生產力工具,翻譯記憶庫的角色自然也會有所轉變,將會變得更像是訓練機器翻譯引擎用的工具,而不是單純儲存翻譯的資料庫。

機器翻譯有哪些好處?

無譯後編修的機器翻譯,也就是沒有人工干預的機器翻譯,最適合用於能見度不高、相對而言較為簡單的文字內容。傳統上會運用這個技術來翻譯使用者原創的內容,像是評論、論壇或是例如 eBay 等拍賣。視您對品質的要求以及內容的類型和用途而定,某些語言的機器翻譯,在簡單、一般性的商業文件翻譯上,也能有不錯的表現。而機器翻譯日漸廣泛的使用,也使得更多公司得以享有類似翻譯記憶庫所帶來的好處,而且效果更為顯著,包括:

  • 能夠更快在市場中推出內容
  • 一致的術語
  • 更高的譯者生產力
  • 翻譯成本降低

您必須要體認到,譯者是有限的資源,如果他們能夠以更短的時間完成特定工作,就有餘裕可以處理更多專案,這樣即使市場上有越來越多公司急需他們的服務,也能緩解人力短缺的壓力。

在某些情況下,機器翻譯能將譯者的能力提升 3-5 倍,也因此能在更短的時間內將更多內容本地化。有了更高的生產力以及更低廉的成本,企業也就能將更多內容翻譯到更多語言。

機器翻譯技術如何有助您擬定本地化策略?

在規劃內容策略並決定所要進軍的市場時,請務必審慎考量使用現代機器翻譯以及相關技術所能帶來的效率。

與經驗豐富的本地化服務供應商 (LSP) 合作,將有助您根據所欲達成的目標,實作最合適的機器翻譯技術。重要的是,透過這樣的合作關係,您將可以創製更優異的內容,並研擬適當的市場進入策略。有些 LSP,例如 Lionbridge,正加快腳步進入數位行銷領域,以便協助企業管理他們的整個內容旅程,而不是只能處理本地化業務。

審慎規劃與執行的本地化策略,加上實力堅強的本地化夥伴從旁指引,將有助您善用機器翻譯技術的所有好處,進而釋出更多資源來創製更多內容和/或以相同的預算在更多市場中推出內容。

歡迎按一下下方影像,檢視了解機器翻譯的一些重要定義。
 

與我們聯絡

如要進一步了解 Lionbridge 完善的機器翻譯服務,歡迎下載我們的機器翻譯白皮書。如果想確認自己在機器翻譯、翻譯記憶庫和人工翻譯上的分配是否均衡,歡迎與我們聯絡

linkedin sharing button
  • #blog_posts
  • #retail
  • #translation_localization

Kajetan Malinowski with Janette Mandell
AUTHOR
Kajetan Malinowski with Janette Mandell