神經機器翻譯：人工智慧在語言翻譯中扮演的角色

最近更新時間： 2017年02月17日下午 5:43

多數行銷專業人員都知道：大數據正挾著勢如破竹的氣勢，大舉革新企業提高營運效率及推動創新的做法，而且此一現象有加劇趨勢。許多專家預測，資料量可望以 40% 的年增率持續成長。

可想而知，隨著企業紛紛尋求有效運用資料的途徑，如何因應資訊過載，也成為一大艱鉅挑戰。即便如此，大數據也可帶來眾多龐大商機，透過本地化發展全球業務，就是很好的例子。

除了資料量大幅攀升之外，還有兩大因素正催化著本地化產業的變遷：第一項因素為突飛猛進的電腦運算能力，第二項因素則是眾所注目的深度學習，也就是 Google 在影像和語音辨識演算法中採用的其中一種機器學習技術。

在上述因素的交相加乘之下，近期深度學習於翻譯與本地化領域引領風騷，繼而衍生出神經機器翻譯 (NMT) 的現象，自然也不足為奇。畢竟，隨著資料量和技術不斷向前邁進，可翻譯的內容也有所進化。但重點是：什麼是神經機器翻譯？它又會如何提高本地化效率？

在近期的線上研討會中，Lionbridge 機器翻譯部門主管 Jay Marciano 不僅探討如何運用這項嶄新且準確率更高的翻譯方法，也說明這項技術將透過哪些方式帶動產業發展。

神經機器翻譯的運作方式

神經機器翻譯為相對新穎的技術領域，並於 2014 年末首度躍上檯面。在這之前，機器翻譯需借助統計模式之力來運行，機器學習則得仰賴由過往翻譯堆砌而成的資料庫 (也就是翻譯記憶庫)，才能順利運作。

雖然神經機器翻譯也像統計式機器翻譯一樣，必須使用翻譯記憶庫加以訓練，卻能運用深度學習 (以及更大量的訓練資料)，以建置人工神經網路。

Marciano 使用西洋棋遊戲來說明統計式機器翻譯的運作方式。西洋棋程式內存在一個有限的宇宙，而當中涵蓋數量有限的移動方式。該程式會計算所有可能的移動方式，以找出最佳棋步。同樣地，存在於統計式機器翻譯系統中的機器學習，則會比較來源句子和目標語言中的 N 元語法 (N-gram)，或是句子中由 6 個單字組成的字組，以找出關聯性。

相較之下，Marciano 認為神經機器翻譯則如同神經系統中的「舉起動作」。運作方式就好比彈鋼琴一樣：當您彈錯時，就會回到先前的部分、再試一次，然後重複動作，直到彈對為止。神經機器翻譯系統也會比照上述方式來運用其神經網路。

正因如此，相較於有限且通常不甚準確的 N 元語法模式，神經機器翻譯往往更加有效。值得注意的是，神經機器翻譯系統會在強大的 GPU (圖形處理器) 上執行，統計式機器翻譯系統則會於 CPU (中央處理器) 上執行，兩者無法相提並論。統計式機器翻譯系統所需的翻譯時間會比傳統的規則式系統來得長，同理，神經機器翻譯因所用的資料量過於龐大，翻譯句子的所需時間也比統計式機器翻譯系統來得長，但即便如此，對於無法使用 6 個字單位規則的語言來說，統計式機器翻譯可能會發生嚴重的問題。

當然，神經機器翻譯仍有可能會遇到些許問題，例如在翻譯高度技術化的內容時，成效通常不甚理想。不過，包括神經機器翻譯在內的任何機器翻譯系統，都無法妥善翻譯涵蓋未知技術縮寫的來源內容。針對沒有過多訓練資料的語言翻譯組合 (例如德文至韓文)，深度學習可開啟全然一新的可能性，大舉運用以其他語言撰寫而成的來源內容做為間接或「樞紐化」訓練資料。

神經機器翻譯和統計式機器翻譯的主要差異為何？向深度學習演算法提出訓練內容時，您不一定需要告知演算法目標為何。您可以讓系統自行找出模式，例如與來源句子的相關脈絡提示。然而，就許多方面而言，具體流程仍舊是個謎。

神經機器翻譯和大數據：開創無限可能性

神經網路最初被使用在影像和語音辨識程式中，旨在運用受監督的資料 (例如附加中繼資料的小狗影像) 來訓練系統。系統會透過讀取中繼資料，了解如何將影像內容視為小狗。

隨後，系統會試圖透過神經網路找出最佳方法，以順利建立此一連結、回到先前的部分，並在答錯時尋求更好的做法。而這就是後續所欲著重的做法。

在語音辨識方面，指定語言中的指定語句錄音，通常只會存在單一版本的正確講稿，以做為深度學習之用，因此訓練作業十分直接了當。翻譯所涉及訓練內容則「含有較多噪音」，作業方式也更加複雜。

但 Marciano 表示，深度學習和大數據都可協助我們開創無限可能性，繼而進一步認識和分析世界。正因為大數據可產生如此大量的資訊，我們才能運用超越人類能力的力量來識別複雜的模式，並將這些模式予以連結。

不過，建置神經機器翻譯流程的心像，仍為一大難事。許多處理作業會於複雜資料的「隱藏層」中完成，這表示，我們難以看清神經網路的決策方式。

正因如此，我們只能提交訓練內容、讓演算法完成相關作業，然後在翻譯不準確時，著手調整訓練內容。此外，Lionbridge 也會使用 GeoFluent 來清除神經機器翻譯產出翻譯的錯誤。

使用 BLEU 等品質評估方法，則構成灰色地帶。如果神經機器翻譯系統基於不為人知的理由，選擇了不同於參考翻譯的翻譯內容，即使所選翻譯內容完美無缺，依舊會針對其詞彙選擇進行扣分。

神經網路和通訊技術的未來趨勢

雖然難以對神經網路進行除錯，並了解其決策機制，神經機器翻譯在流暢度方面的提升，依舊提供了足夠的考量誘因。那麼，市面上有其他任何機器翻譯廠商正在提供神經機器翻譯嗎？

答案是：沒有。目前，您可以在網際網路上試用三個神經機器翻譯系統，分別是：Google 翻譯 (可整合至任何指定的電腦輔助翻譯 [CAT] 工具中)、Microsoft 線上翻譯 (Microsoft Translator)，以及 Systran 純神經機器翻譯 (Systran Pure Neural Machine Translation)。不過，在備有完善訓練工具組的生產就緒系統上，我們仍領先群倫。本年度，請密切關注 Microsoft、Google、Systran、Baidu、Facebook、Amazon 和其他廠商針對即將推出的神經機器翻譯系統所發出的公告。

相較於統計式機器翻譯系統，神經機器翻譯成果改善幅度最大的語言組合，可望率先推行神經機器翻譯。Lionbridge 有意先行評估市面上的神經翻譯系統，以了解這些工具能否順利運用在我們的本地化流程中，並滿足旗下客戶的需求，再實際推行這項技術。如需機器翻譯領域的最新趨勢，請造訪我們的機器翻譯領導思維頁面。

可以確定的是：神經機器翻譯將徹底改變整個產業。雖然神經機器翻譯至今的發展時間還很短，然而它為翻譯帶來的改善，卻遠比過去十年的進步幅度都要大。傳統翻譯和機器翻譯之間的差距可望持續縮小，而我們力圖了解此項差距可縮小至何種程度。

如需深入了解神經機器翻譯的各項優勢，以及我們對日後的機器學習有何期望，請觀看完整的線上研討會：神經機器翻譯：什麼是神經機器翻譯？它將對翻譯效率帶來哪些影響？

#blog_posts
#translation_localization

作者

Lionbridge

服務內容

產業

Aurora AI™

資源

關於我們

神經機器翻譯：人工智慧在語言翻譯中扮演的角色

神經機器翻譯的運作方式

神經機器翻譯和大數據：開創無限可能性

神經網路和通訊技術的未來趨勢