AI干起了实时翻译,我们离跨越语言的鸿沟还有多远?

标签:起了,实时,翻译,我们,跨越,语言,鸿沟,还有,多远 时间:2024年04月27日 阅读134次
    来源 | 智能相对论
  1954年,美国成功研制出了世界首个机器翻译体系,实现了俄英两种语言之间的简单转化。但因为人类语言自己的复杂性和多样性,半个多世纪以来,计算机体系对于人类语言的理解一向处于相对较低的阶段,投入现实应用的研究成果寥寥无几。
  直到近10年,以“深度学习”为代表的人工智能技术在语音识别、天然语言处理等基础应用领域与产业结合的营业中取得了较大突破,能够识别语音的机器翻译渐渐从实验室走向普罗大众。
  在AI机器翻译这条赛道上,互联网巨头都在虎视眈眈
  自去年乌镇互联网大会上,百度、搜狗相继亮相人工智能同声传译技术之后,又一次引发机器翻译是否会庖代同声传译的激烈争论。
  尽管专业人工翻译公司依然看衰AI对翻译产业的推翻性,但包括Google、Facebook、微软、百度、腾讯、搜狗在内的各大技术巨头却在不遗余力地推进深度学习在机器翻译领域的研发和应用。
  2016年9月,Google发布谷歌神经机器翻译(GNMT: Google Neural Machine Translation)体系,声称该体系行使神经网络技术,模拟人脑的神经思考模式,产出媲美人工翻译的高质量译文,并将偏差降低了55%-85%。谷歌公司己经将该技术应用于网页翻译与手机应用,译文质量显明提拔。
  腾讯、百度、阿里巴巴等国内互联网公司将深度学习理念应用到机器翻译,在智能翻译领域持续发力,推出多款基于神经网络技术的在线翻译和手机应用。甚至在手机欣赏器的升级战争中,智能翻译也被当作紧张功能革新,搜狗手机欣赏器推出“智能翻译”催化料蜡油批发,荟萃了语音对话翻译、AR实时翻译、拍照翻译等常勤奋能。
  智能翻译架起了不同语种间人们便利沟通的桥梁,已经成为日常交流、出国旅游、外文学习等方面不可或缺的助手。笔者就简要梳理一下AI实现笔墨和口语翻译的基本原理、结合实例介绍智能口语翻译难点以及智能翻译有哪些必要解决的题目。
  各莳花哨的技术概念,核心仍然是AI处理人类语言的三种方法
  实现让计算机处理人类天然语言是人工智能领域的一个紧张课题,与句法分析、语义理解和天然语言生成等计算语言学核生理论密切相干。目前,AI重要有三种方法翻译人类天然语言。
  1、基于规则的机器翻译方法。早期机器翻译的主流方法。基于规则的机器翻译体系寄托人工编纂的双语词典和专家总结的各种情势的翻译转化规则,但在通用领域中的应用性不强,每每被限定在了专有应用上,渐渐被新的方法庖代。
  2、基于实例的机器翻译方法。从已有的翻译经验知识出发,将源语言句子切分为翻译知识中见过的短语片段,通过对已有翻译资源进行主动总结,得出双语对照的实例库,并设计规则处理双语对照实例库中的歧义性等题目,实现对新的源语言句子进行翻译。
  3、基于统计的翻译方法。统计机器翻译方法将任何目标语言句子都看成源语言句子的可能翻译候选,从语料主动学习翻译模型,然后基于此翻译模型,对输入源语言句子探求一个评价分数最高的目标语言句子作为翻译效果。目前谷歌、搜狗等基本采用的是这种。
  深度学习能够主动学习抽象特性透露表现、建立源语言与目标语言之间复杂的映射关系,给统计机器翻译的实现提供新途径,目前已经在词对齐、语言模型训练、解码等模块的优化应用方面取得较多成果。例如,2006年谷歌发布基于短语的机器学习(PBMT)体系,该体系将句子分解成词和短句,进行逐个翻译。它的弱点在于忽略了上下文,因此译文质量不佳。2016年谷歌发布的神经机器翻译GNMT,将句子视为基本单元,不再对词和短句逐个翻译,显明改善了译文质量。
  作为智能翻译的“制高点”,AI口语翻译难在哪?
  与通俗笔墨翻译相比,AI口语翻译难度更大,缘故原由有二:
  一、想要“译的准”,首先要能“听得清”。AI要正确判断出指令发出者的语音、停留,并在极短时间内进行“语音断句”,在涉及一些模糊音时能够根据“上下文”进行及时调整,这必要有深度学习的模型主动替换为一个语义畅通、更吻合作者指令的句子,然后才能进行笔墨翻译处理。
  二、想要“译的准”,还要包容口语的“4个任性”
  基于神经网络技术的智能翻译体系越来越多,翻译质量确有较大进步,但是能不能很好地包容口语的各种任性,我们来做几项测试,检验一下人工智能翻译的水平。为便于说明,选取了具有代表性的谷歌翻译和搜狗手机欣赏器自带的智能翻译进行比对。
  1、日常口语具有不连贯的特征。在口语交谈中,经常会出现一些不连贯的成分,如:重复、次序颠倒、冗余和语句残缺。下文是一个典型的兼有语句残缺和发音重复的句子。
  原文:那六楼呢?咱们……咱们,下战书谈一谈吧?
  谷歌翻译:The sixth floor?Let's talk about us in the afternoon?
  搜狗手机欣赏器智能翻译:What about the sixth floor? Let’s… Let’s talk this afternoon.
  谷歌翻译在重复的处理上未真实表现原文,搜狗手机欣赏器智能翻译如实还原。但是,两个翻译效果在表达上都不同程度地存在错误。
  2、语法束缚相对较弱。口语中很少会有严酷吻合语法束缚的结构完备、精确的句子,而大量存在的是语法规则难以处理的征象。一方面是因为体系的语法知识对语言征象的覆盖程度不足;而更重要的则是口语自己的特征所决定的,例如口语中存在大量的代词,人类口语比较容易理解,但是AI不能结合上下文,缺乏背景知识,难以区分指代对象,导致翻译效果偏离原意。
  原文:Look, man, you don’t got to do anything. This one means a lot to me.
  谷歌翻译:看,男人,你什么都不做。这对我来说意义庞大。
  搜狗手机欣赏器智能翻译:听着,伙计,你什么都不用做,这对我意义庞大。
  翻译的关键在于两个词:look和man。谷歌的翻译也对,而看起来,搜狗手机欣赏器的翻译效果更吻合生活现实。
  3、没有明确的句子边界。口语中没有标点符号来标志句子,也基本没有传统意义上的句子,缺少了需要的声调和停留,很容易造成句子的歧义。
  例如:“这苹果不大好吃”。那么该句有两种不同的理解效果:这苹果不大/好吃(苹果不大,但是味道好),这苹果/不大好吃(苹果味道不好)。两家AI都未能分清句子结构发音上的差别,都默认翻译为“苹果味道不好”。
  4、非正式语体材料多。中英口语中都存在较多随意性的口语或网络用语,生活化气息粘稠,多为非正式的语体材料,智能翻译必要重大的基础词汇库支持。
  原文:近期我们细致到国际上有一种看法,认为中国已经成为世界上最大的经济体,一方面挑衅了美国的向导地位,另一方面在许多国际事务上中国仍在搭便车。请问您怎么看待如许的看法?(总理记者会上中国日报记者的现场提问)
  谷歌翻译:We have recently noticed that there is a view that China has become the world's largest economy, on the one hand challenges the leadership of the United States, on the other hand in many international affairs, China is still free. What do you think of this view?
  搜狗手机欣赏器智能翻译:Recently we have noticed an international view that China has become the world's largest economy. On the one hand, it challenges the leadership of the United States. On the other hand, the Chinese are hitchhiking in many international affairs. I would like to ask what you think of this view.
  专家译文:Recently we have noticed that there is a view in the international community that China has become the world’s largest economy, on the one hand challenges the leadership of the United States,on the other hand in many international affairs in China is still a free ride, how do you think of this view?
  可以说,两家AI对这段话的翻译,虽然都有些许瑕疵关键词优化,但是总体都照旧比较到位的,搜狗手机欣赏器对于“搭便车”这个典型口语化词汇翻译相对更正确。
  
 
  中国古诗英译一向是文化翻译的一个难题,甚至被认为是可译性最小的文学情势。我们来试验一下两家AI对王维《九月九日忆山东兄弟》的理解和翻译能力。
  独在他乡为异客关键词优化,每逢佳节倍思亲。遥知兄弟登高处,遍插茱萸少一人。
  谷歌翻译:Alone in a foreign land for the stranger,every festive times.
  Distinguished brother ascended the throne,who was full of cornelia.
  搜狗手机欣赏器智能翻译:Alone in a foreign land, I miss my relatives more than anything else during the holidays. I know my brother has climbed up to the top and planted dogwood everywhere, but one person is missing.
  参考译文:Alone,a lonely stranger in a foreign land,I doubly pine for my kinsfolk on holiday. I know my brothers would, with dogwood spray in hand, Climbing up the mountain and miss me so far away.
  翻译古诗词,确实特别很是难为两家AI。不过,翻译的效果很风趣,搜狗手机欣赏器对前两句翻译尚可,后两句翻译成了我的兄弟在高处到处莳植茱萸,谷歌对最后两句完全是进行了想象性的拓展。
  要跨越语言不通的鸿沟,智能翻译还需往哪加油
  智能翻译确实取得了令人惊喜的进展,拿动手机和老外进行日常交流已经基本没有题目。但是智能翻译还存在“短板”北京人事考试网首页,会有“词不达意”的时候,AI要想更进一步发展,和有着数十年积淀的高水平翻译员进行竞争,可能还必要从以下几个方面进行努力。
  1、大量增补口语化语料
  智能翻译对于口语化文本处理能力还不强,一是因为翻译语料库口语化语料不足,二是针对口语词汇与口语表达多采取直译体例,因此出现较多误译。该题目的解决应该从扩大对应部分语料库入手,增长口语类文本语料库,包括常见口语化词汇、表达与生活用语。
  2、进步语境理解能力
  智能翻译对于中文复杂含义句式中的时态辨别能力还不够,每每必要充分理解整句话的意思才能正确把握时态。智能翻译并非基于理解,而是基于统计学与语料库,只能做到将这句话意思大致翻译正确,在识别感情色彩方面,还有欠缺。
  将神经网络学习的抽象透露表现和传统符号语义方法结合,建立新的基于语义的机器翻译体系,或允许以大幅进步AI对组合语义、复杂的递归语言结构的处理能力。
  但,我们依然满怀期待AI让我们脱节语言鸿沟的那一天。
  智能相对论:2个前人工智能行业管理咨询老鸟+1个老媒体人组成的三人帮,深挖人工智能这口井,评出咸淡,讲出诟谇,道出深浅。
地图搜索引擎排名
全国服务热线:4000-340-360 企业QQ:4000340360
公司地址:北京市密云县河南寨镇密顺路18号产业基地办公楼420室-958
CopyRight◎2015-2025 版权所有:百信百度排名公司 备案号:京ICP备15033961号