Our people are our pride, helping companies resonate with their customers for 20+ years. 

About Us
Key Facts
Leadership
Insights
News
Trust Center

 

Harness the Lionbridge Lainguage Cloud to support your end-to-end localization and content lifecycle

Lainguage Cloud™ Platform
Connectivity
Translation Community
Workflow Technology
Smairt Content™
Smairt MT™
Smairt Data™
Language Quality
Analytics

SELECT LANGUAGE:

MT 引擎分析

Lionbridge 机器翻译专家评估了主流 MT 引擎的性能,并针对最近的行业趋势分享了独特见解。

大型科技公司对机器翻译 (MT) 的重视程度如何? 为了能够独树一帜,他们目前有哪些行动? 对于特定月份或特定语言,哪些引擎的性能一马当先? Lionbridge MT 专家每个月都要回答这些问题。 用知识武装自己,做出明智的 MT 投资。

每月执行摘要:

2022 年 10 月 — MT 和语言正式性

2022 年 9 月 — 使用术语库提高 MT 质量

2022 年 8 月 — 克服 MT 中的重大错误

2022 年 7 月 — 语言的机器可翻译性排行榜

2022 年 6 月 — 准确分析 MT 质量

2022 年 5 月 — Amazon 和 Yandex 5 月表现

2022 年 4 月 — Yandex 4 月表现

2022 年 3 月 — 客制化 MT 比较评估

2022 年 2 月 — 神经网络机器翻译 (NMT) 的未来

2022 年 1 月 — 1 月 MT 引擎性能概览

2021 年 12 月 — Lionbridge 将 Yandex MT 纳入了 MT Quality Tracker 对比检查

2021 年 11 月 — Bing Translator 的表现取得进步

2021 年 10 月 — Amazon MT 引擎取得了哪些喜人进展

2021 年 9 月 — Amazon MT 质量更胜以往

2021 年 8 月 — 科技巨头及其 MT 引擎开发

2022 年 10 月

本月,我们想与您一同关注语言正式性问题。在使用机器翻译 (MT) 时,我们通常很难得到正确应用正式性的译文,但也并非没有可能。

机器翻译 (MT) 引擎产出的译文有可能使用了错误的语言正式性,也可能没有确保一致的正式性。 之所以会这样, 是因为 MT 模型在处理每个输入句段时,通常只能返回一种译文。 当输入句段本身表意模糊时,模型必须在众多有效的译文版本中选出一种,而不会顾及目标受众的感受。 让模型在不同的有效译文版本中进行选择,就有可能导致译文不一致或译文正式程度不正确的情况。

尤其是当目标语言的正式性区分细于源语言时,想要通过 MT 获得正确译文,则更是难上加难。 例如,法语对语言正式性的规定就十分明确,有的情况用 tu(你),有的情况用 vous(您),但英语中没有类似规定。

尽管大多数 MT 系统不支持语言正式性或阴阳性参数,我们还是能够看到一些突破。 目前,DeepL (API) 和 Amazon(控制台和 SDK)都具备控制语言正式性的功能。 除此之外,还有 Lionbridge 的 Smairt MT™,它是一款企业级机器翻译解决方案,能够将语言规则应用到目标文本中,让机器翻译也能够产出在语言风格和语言正式性方面都令人满意的译文。

有效地翻译源文本以满足目标受众的需求,这一点至关重要,包括在 MT 译文中使用正式和非正式的语言。 如果应该使用正式语言的译文不够正式,甚至粗鲁无礼,那么客户就有可能对您心生嫌隙。

阅读我们的博客,了解关于 MT 正式语体和非正式语体的更多信息。

—Yolanda Martin,Lionbridge MT 专家


2022 年 9 月

机器翻译 (MT) 的确具备一些优势,但在使用时,您需要多加小心。 通用 MT 引擎有可能引致错误译文,尤其在翻译特定领域的文本时,术语往往翻译不当,导致译文质量不尽人意。 如果是医学和法律内容,后果则尤为严重。 别担心,您可以采取一些措施,优化 MT 译文。

您可以使用术语提高 MT 的质量,获得表述准确、用词一致的译文。

要训练定制的 MT 系统,必须运用包含特定领域专业术语的双语文本。 如果用于训练的专业文本中的术语不一致,那么仍然无法保证引擎输出准确译文。 根据该领域研究,应当将语言信息注入到神经网络机器翻译 (NMT) 系统中。 能否手动或半自动进行注释,取决于资源(如词汇表)和条件(如时间、成本,以及是否有人工注释人员)。

Lionbridge 的 Smairt MT™ 能够将语言规则应用到源文本和目标文本中,还能够根据具体配置的保留不译 (DNT) 和词汇表列表应用术语。 我们能够帮助客户创建、维护并定期完善词汇表,补充新的相关术语,淘汰过时的术语。 运用 Smairt MT 创建词汇表后,客户就可以将其用于所有 MT 引擎,从而节省时间和成本。

在 MT 项目中应用词汇表并非看上去那么简单。 如果应用不当,可能会对机器翻译的整体质量产生负面影响。 在 MT 中应用术语的最佳方式是训练 MT 引擎。 结合使用训练有素的 MT 引擎、定制的词汇表以及预处理和后处理规则识别技术,能够有效确保 MT 输出的译文使用正确术语,译文还能够遵循客户文档的风格。

阅读我们的博客,获取更多关于使用术语优化 MT 译文的深刻洞见。

—Yolanda Martin,Lionbridge MT 专家


2022 年 8 月

如今,各公司更加依赖机器翻译 (MT),将其作为常规做法,对于员工而言,他们将需要防止重大错误传播开来。

普通的 MT 错误指的是与语言特征有关的错误,例如拼写、语法或标点符号,而重大错误比这类错误更严重。 如果 MT 引擎译文严重偏离源文本要传达的信息,那就会出现重大错误,这种错误超出了语言学的范畴, 会产生虚假信息或造成误解,有可能让公司面临声誉、财务或法律方面的问题,还可能会危害公共安全或健康。 因此,必须设法找出这种错误,以免影响您与受众沟通。

Lionbridge 可以针对翻译文本执行特定的自动化质量检查,以此检测严重错误,同时还可以保证 MT 速度并减少对人工干预的需求。

这些自动化方法可以检测以下重大错误:

  • 原文和译文含义相反
  • 使用冒犯性、亵渎性或高度敏感的词语
  • 常用的个人和组织专有名词翻译错误

如果计算机科学家能够改进目前的 MT 技术来避免这些翻译错误,那么公司出现重大错误的几率就会更低。 但在此之前,我们可以利用自动化技术来识别翻译流程中的潜在问题,修改有问题的句子,并提升准确性。

阅读我们的博客,深入研究机器翻译中的重大错误。

— MT 团队负责人 Luis Javier Santiago 与 Lionbridge 创新副总裁 Rafa Moral

Luis Javier Santiago
Rafa Moral

2022 年 7 月

Google NMT、Bing NMT、Amazon、DeepL 和 Yandex,哪个引擎的翻译效果更好?上月数据以及当前综合趋势显示,各主流引擎的表现不分伯仲。因此,在制定 MT 策略时,我们有必要将其他因素纳入考虑,例如,MT 引擎处理特定语言对的难易程度。

了解这一信息有助于您在规划多语种翻译成本时合理分配预算。例如,在处理较为复杂的语言对时,若要获取高质量译文,就需要投入更多精力。了解语言复杂程度能够方便您做出业务决策。

判断各语言翻译的难易程度并非浅显直接,但我们可以使用不同的指标进行衡量,编辑改动程度便是其一,它指的是译后编辑人员为确保最终文本能达到与人工翻译媲美的质量而执行的更改数,可用于判断每个语言对使用机器翻译的复杂性和可翻译性。

从英语译入大多数罗曼语族语言(例如葡萄牙语、西班牙语、法语、意大利语),MT 译文质量通常较好,不需要进行大量修改。我们认为这几种目标语言是机器最容易处理的语言,位列机器可翻译性排行榜前四。匈牙利语和芬兰语这两种乌拉尔语系语言则更为复杂,在我们的排名中位列末尾,分别排在第 27 位和第 28 位。同属乌尔拉语系的爱沙尼亚语也较为复杂。Lionbridge 处理了数百万个句子后得出了以上结论。这个结论凸显出一点:语系是影响 MT 质量的一个重要因素。

对于语系内语言的比较,虽然结论目前尚不完善,但机器可翻译性的排序结果还是可以提供一些耐人寻味的见解,让我们能够更好地管理多语言项目。阅读博客,查看完整的 Lionbridge 语言排行榜。

— Rafa Moral,Lionbridge 创新副总裁 


2022 年 6 月

在 6 月份,我们观察到 Yandex 的机器翻译 (MT) 引擎在俄语翻译方面的表现有所改善,但 Microsoft Bing 的 MT 引擎的翻译表现略有下降。 这些变化是否值得关注?还是只是假象,根本不值一提? 为了找出答案,我们从不同角度对上述结果进行了分析。

我们使用了多份对照译文来衡量 MT 与出色的人工翻译之间的差距,而非仅使用单份对照译文。 对于每一份 MT 译文,我们都将其与 10 份专业译员的译文进行比较。 通过比较,我们发现,6 月份 Yandex 和 Microsoft Bing 在翻译质量方面的小幅波动消失了。 因此,我们可以得出结论,MT 翻译质量没有发生变化。 在 6 月份,上述两种引擎表现均原地踏步。

有时数据及其图表可能会产生误导。 当不同测量值之间存在小幅差异时,这种情况则时常发生。 使用多种方法评估数据有助于对数据结果进行精确解读。

我们预计,MT 引擎质量在未来几个月将一直表现平稳。 我们将在本栏目提供分析和综合 MT 观察结果。 下个月,我们将对 MT 语言对进行比较。 我们将探讨是否可以使用数据并按照 MT 复杂程度对语言和语言谱系进行分类,以及确定机器是否在翻译某些语言对时更加轻松。

— Rafa Moral,Lionbridge 创新副总裁 


2022 年 5 月

对于各 MT 引擎来说,这个月称得上风平浪静。

我们注意到 Amazon 优化了其引擎处理英语-西班牙语语言对的方式。 目前,在此语言对方面,Amazon 引擎已然十分出色。 Amazon 引擎在其他语言方面也略有进步,但提升程度不及英语-西班牙语语言对。 我们猜测,这些改进得益于一些通用设置变动以及针对英语-西班牙语语言对进行的研究。 这一点从对某些特殊字符和带有度量单位的字符串的处理上就能够看得出来。

连续两个月以来,Yandex 都是略有提升。 有意思的是,它的改进也涉及西班牙语。

正如我们之前提到的,这个月没有发生什么显著的变化。 所有引擎的表现都差不多。 在接下来的几个月中,我们将会对一些特定的 MT 领域展开分析并提供综合观察结果。 当然,我们也会持续跟踪各引擎的重大进展。

— Rafa Moral,Lionbridge 创新副总裁 


2022 年 4 月

Yandex 的机器翻译 (MT) 引擎在过去几个月一直表现平平,但最近取得了长足进步,尤其是其德语引擎。

通过一项详细分析,我们发现 Yandex 引擎在处理带有标点符号(例如问号、感叹号、括号和斜杠)和度量单位的句子方面进步非常大。 这可能源于对 MT 设置进行的调优,而非模型改进。 不过,通过对罕见词汇翻译的跟踪,我们发现 Yandex 也有所改进,这说明取得进展的原因可能也包括模型改进或更多的数据训练。

差不多是在去年的这个时候,我们发现多个 MT 引擎都取得了极具意义的进展。 我们不禁思考:这种进展是否会遵循某种时间模式? 今年还会出现我们在 2021 年观察到的情况吗? 当前,我们正在跟踪这些引擎的 MT 表现,并且将在下个月左右报告相关发现。

总体而言,人们对 MT 引擎评估的兴趣日益高涨。 目前,大多数人都认为 MT 是一项成熟的技术。 人们认识到,这项技术几乎适用于各种翻译场景,包括纯机器翻译、带人工干预的机器翻译和混合型翻译场景。 不过,MT 用户仍然在努力寻找适当的方式以评估、衡量和改进 MT 结果。

— Rafa Moral,Lionbridge 创新副总裁 


2022 年 3 月

如果您一直关注相关页面,那么您对我们的通用 MT 比较评估一定不陌生。 我们每个月都会对多个 MT 引擎进行评估,看看对于特定语言对,谁的表现更优秀,并跟踪各引擎的改进情况。 在三月份,各个引擎的表现均原地踏步。 我们发现,这种趋势已经持续了一段时间。 正如我们在上个月的评论中所说,这可能表示我们需要新的 MT 范式。

我们分享的是通用 MT 的结果,但我们发现,许多公司越来越关注客制化 MT 的比较评估。 和通用 MT 评估不同,这类评估将公司的具体需求纳入考量,以此为基础选出更具优势的 MT 引擎。

如果一家公司计划采用 MT 或希望改善当前的 MT 使用方式,其中的关键在于确定哪种 MT 引擎效果更好。 在执行客制化评估时,我们采用的评估方式与此页面中展示的方式类似,但我们会基于公司的内容类型和语言对需求给出建议。

虽然客制化 MT 比较评估已经问世多年,但其需求却更胜以往。 我们将这一趋势归因于 MT 对于帮助公司制胜数字化市场发挥着重要作用。

— Rafa Moral,Lionbridge 创新副总裁 


2022 年 2 月

2022 年 1 月和 2 月,Google 的机器翻译 (MT) 引擎性能略有提高,但我们追踪的其他引擎停滞不前。 人们可能会因此提出一些尖锐的问题。 神经网络机器翻译 (NMT) 范式是否遇到了瓶颈? 这些引擎无法取得重大突破,是否需要转而研究新的范式? 因为在统计 MT 被 NMT 取代时,人们也曾观察到类似的趋势。

在统计 MT 时代落幕前夕,人们发现这种翻译引擎的质量基本不再提升。 另外,不同统计 MT 引擎的质量开始趋于一致。 历史似乎正在重演。 NMT 可能不会立即被新一代引擎取代,可如果我们相信加速回报定律以及技术进步以指数方式发展,再考虑到大环境 — 基于规则的 MT 盛行了 30 年,但统计 MT 只风靡了十年,而如今,NMT 也已诞生六年了 — 这么看来,新范式的面世可能也不是遥不可及。

— Rafa Moral,Lionbridge 创新副总裁 


2022 年 1 月

在 1 月份,各大主要机器翻译 (MT) 引擎的表现变化不大。 

在部分语言和领域,Google 略有进步。 其他大部分引擎原地踏步。 Microsoft 的表现在过去几个月中节节攀升,但在 1 月份进入停滞期。 整体来看,Google Translate 仍然领跑通用型 MT 技术赛道。 

在 12 月份,我们将第五种 MT 引擎纳入了 Tracker 检查。 通过监测 Yandex,我们得以对俄语的 MT 质量进行更准确的分析。

— Rafa Moral,Lionbridge 创新副总裁 


2021 年 12 月

在 12 月份,我们将 Yandex MT 纳入了 MT Quality Tracker 对比检查。 

根据我们的测试,截至目前,Yandex:

  • 在俄语方面的表现优于 MS Bing,与 Google 基本持平,不及 Amazon 和 DeepL。
  • 在德语方面的表现与 Amazon 和 MS Bing 基本持平。
  • 在我们追踪的其他语言对方面,其表现不及各大主要 MT 引擎。
  • 句长如果大于 50 词,该引擎表现良好。

其他观察结果包括,在 2021 年末的几个月内,MS Bing 的翻译质量取得进步,其中,英中翻译的进步尤为明显。 Amazon 也有所进步。 新年伊始,Google 的翻译质量得到改善,开始领跑。 具体来说,其英西、英俄和英德的翻译质量得到改善。 在我们对其追踪观察的五周内,Yandex 的表现未发生变化。

— Rafa Moral,Lionbridge 创新副总裁 


2021 年 11 月

经过几周的实验,在翻译引擎整体性能波动过后,Microsoft 神经语言程序学 (NLP) 工程师们取得了一些研究成果。 在过去几周中,Bing Translator 的整体表现取得进步,中文翻译进步尤其明显,这款 MT 引擎借此成为上个月的大赢家。 Bing Translator 与同类引擎在大部分领域的差距有所缩小,其表现甚至超越了部分同类引擎。 Bing Translator 仍然是一款可塑性非常出色的翻译引擎,经过此次改进,这款引擎成为根据特定内容构建自定义模型的理想选择。

— Jordi Macias,Lionbridge 语言卓越副总裁


2021 年 10 月

10 月,Amazon 的机器翻译 (MT) 引擎在上月成果的基础上加以改进,继续取得了喜人进展。这些成果得益于 Amazon 在过去的几个月内进行的第二轮 MT 优化工作。

以下是 Amazon 的 MT 引擎在过去几个月中持续发展所取得的一些成果:

  • 翻译风格更加自然贴切
  • 采用全新的度量单位处理方式
    • 同时使用英制和公制度量单位
    • 英制度量单位置于公制之前
    • 将源语言中的度量单位值准确转换为目标语言的相应单位和值
    • 译出“Euro”(欧元),不再保留其符号 (€)

—Jordi Macias,Lionbridge 语言卓越副总裁


2021 年 9 月

我们在 9 月见证了 Amazon 机器翻译 (MT) 引擎的巨大进步。首先,德语和俄语的 MT 质量有所提升。其次,西班牙语和中文与不同语言之间的互译质量得到显著提升。这些成果得益于 Amazon 在过去的几个月内进行的第二轮 MT 优化工作。

除此之外,Amazon MT 引擎还进行了以下变动:

  • 翻译风格更加自然贴切
  • 采用全新的度量单位处理方式,即:
    • 同时使用英制和公制度量单位
    • 英制度量单位置于公制之前
    • 将源语言中的度量单位值准确转换为目标语言的相应单位和值
    • 译出“Euro”(欧元),不再保留其符号 (€)

—Yolanda Martin,Lionbridge MT 专家


2021 年 8 月

所有科技巨头都开发了自家的 MT 引擎,例如 Microsoft、Google、Amazon 和 Facebook,现在 Apple 也加入此行列。美国境外市场的许多其他大公司也纷纷争取在该领域站稳脚跟。这些科技巨头显然认为当下世界的互联互通离不开 MT 和自然语言处理 (NLP) 工具。

Lionbridge 也充分意识到这点,抓住机会,密切关注该领域的发展趋势。我们会根据客户公司的需求,针对其要处理的语言对和内容类型,为其甄选出理想的 MT 引擎。

随着众多知名科技公司进军 MT/NLP 领域,竞争将日趋激烈。毋庸置疑,随着被戏称为“细节控”和“品质控”的 Apple 加入,其他公司定会进一步提升其技术。

—Rafa Moral,Lionbridge 创新团队副总裁