Chat with us, powered by LiveChat

定制化神经机器翻译研发流程

为推出新的定制化神经机器翻译引擎(CNMTE),Trusted Translations 需要一段初始训练和设置时期。以下是构建全新 NMT 引擎的典型实施流程。

选择基线引擎

通过算法民主化开发大量内容。但是这一理念应包含更多意义。举例来说,技术解决方案民主化让强大的基线引擎成为构建定制化解决方案的良好基础。通过谷歌、微软或亚马逊提供的服务产品可将您的干净数据录入已接受过良好训练的引擎。

数据选择与语料库准备

目前有多种方法可用于采集定制化引擎构建所需的训练数据。

  • 现有已翻译内容:

    理想情况下,任何定制化神经机器翻译引擎均始于查找和利用以前翻译过的内容,这些内容与将要翻译的内容非常相似。可用的已译材料越多,该流程速度越快且更有成本效益。如源语言与目标语言无法作为翻译记忆单元产生联系,则可进行匹配以获取可激发引擎性能的双语内容。

  • 现有单语数据:

    如已有充分的目标语参考内容,则可通过将其加入混合数据中以运用所有风格类型数据与术语数据。上述内容可能由当地 SME 从零开发,且其价值无可比拟。无需多言,域专用或甚至是客户专用术语库是在以 NMT 技术为基础定制引擎时的一项重要资产,术语库不足曾被认为是定制引擎的主要问题。

  • 运用其他来源创建专用语料库:

    除了使用单语语料,我们还通过网络搜索与通过引擎运行的内容十分相似的材料。同样,花时间搜索质量最高的语料库永远是值得的。可从数据市场获得的双语数据也是如此。应该首先对外部平行数据进行检查(拼写检查、对齐检查、删除重复内容等),然后将其用做 MT 系统的训练用数据。与客户能够一开始就提供足量的高质量对应数据相比较,该情况需要更多的人工参与。构建新引擎需要 4 至 6 周的时间。

由于越来越多的译文经过了译后编辑,因此可以转化为高质量的二次训练用数据。这一适应性模型将使得系统输出质量随着时间迅速提升。

二次训练:借助人工译后编辑完善全新 CNMTE

定制化神经机器翻译引擎设计多种工作流程。最常见的一种配置便是将其与人工译后编辑流程相整合。在该工作流程中,定制化神经机器翻译引擎产生的译文将由我们的语言学专家进行译后编辑,以提高当前译文的质量,并重新培训该引擎,使其更好地服务于未来的翻译工作。在审校人员对输出结果进行修正以提升其质量的同时,借助动态化适应性模型,引擎也会变得更加智能。此外,该引擎处理的翻译越多,就会越加智能化。换句话说,全人工翻译与该解决方案在质量上的差异急剧缩小,而交付周期与成本则显著降低。我们认为,这些翻译引擎对于用于翻译需求的客户而言是笔十分珍贵的资产,同时也是一种市场优势。