158文章网欢迎您
您的位置:158文章网 > 范文示例 > 机器离真正理解语言有多远?

机器离真正理解语言有多远?

作者:158文章网日期:

返回目录:范文示例

今天小编给各位分享schoolmate的知识,文中也会对其通过机器离真正理解语言有多远?和让机器理解我们的语言(一)语言和计算语言学等多篇文章进行知识讲解,如果文章内容对您有帮助,别忘了关注本站,现在进入正文!

内容导航:
  • 机器离真正理解语言有多远?
  • 让机器理解我们的语言(一)语言和计算语言学
  • 语音识别发展迅速,机器人真的能听懂我们说话吗?
  • 在理解语言上,人脑,电脑(机器)之间有没有不可逾越的鸿沟?
  • 一、机器离真正理解语言有多远?

    翻译 | shawn

    编辑 | 波波、费棋

    【AI科技大本营导读】尽管机器翻译明显玩不转备受期待的长篇内容,但我们得承认,在快速获知单词含义层面,它确实为人们提供了一定便利。可奇怪的是,无论媒体报道还是行业中都似乎营造了一种机器翻译马上要取代人类译者的气氛,这给了人们一种快要成了的错觉。

    有人要揭开盲目乐观的面纱,因《哥德尔、埃舍尔、巴赫》一书而获得普利策奖的美国学者侯世达是其中之一。他以自己亲身体验 Google 翻译的经历指出,翻译软件目前是只知其形,还不解其意。进一步说,机器翻译要想替代人类,不应只是单词解码,更重要的是要拥有人类那样对言语意义的理解力。要解决第二个问题,就需要让机器复制人类智能,但技术研究者却回避着这一难题。

    以下内容由AI科技大本营翻译:

    周日,我朋友 Frank 带了一位丹麦客人来参加我们每周举办的萨尔萨舞会。Frank 的母亲是丹麦人,他小时候在丹麦生活过,能说一口流利的丹麦语。而Frank 的丹麦朋友也能讲英语,按北欧人的标准,还是很流利的。然而,晚上闲聊时我却意外发现,这一对好友却习惯于借助 Google 翻译才能互通邮件:Frank 发邮件会先用英语写好内容,然后用 Google 翻译将其转换成丹麦文;与之相对,他朋友发邮件则会用丹麦语写好内容,然后用 Google 翻译将丹麦文转换成英文。

    你说这事怪不怪?他们明明都能听懂对方说的话,但为什么偏偏要用 Google 翻译,这不多此一举吗?

    以我跟机器翻译软件打交道的经验,它们的翻译效果我一直持高度怀疑态度,但这两人却不以为然。事实上,很多很有头脑的人都是翻译软件的拥趸,极少去苛责机器翻译的浅薄,这让我很是不解。

    作为一个语言爱好者、一个富有激情的译者以及一个认知科学家,我一生都折服于人类头脑的精妙,数十年来一直致力于翻译工作的机器化。这一课题首次令我产生兴趣是在70年代中期,当时,我读到了一封 1947 年的信,是机器翻译的早期拥护者 Warren Weaver 写给 Norbert Wiener 的。信中,Weaver 提出了一个相当有名的观点——翻译即解码,他的原话是这样的:

    每当看到俄语文章时,我会这样说,“这篇内容事实上就是用英文写的,只不过有人用一些奇怪的符号对它进行了加密。接下来,我只需将其进行解码即可。”

    不过,数年之后,他又抛出了一个截然不同的观点:

    “明眼人都清楚,机器成不了普希金,机器翻译永远都无法传达出语言本身的优雅与格调。”

    我发现,Weaver 后来的这个观点更让我感同身受,特别是在我投入整整一年时间将普希金的长篇诗体小说《叶普根尼-奥涅金》翻译成了英文,其中的艰辛就是如何把读出来的俄语内容彻底地重新创作为英文的诗体小说。

    Weaver 最开始的观点,只是揭示了语言被过度简化后的一面。即便如此,他在 1947 年“翻译即解码”的观点,早已成为驱动机器翻译发展的重要信条。

    自那时起,“翻译引擎”不断改进,特别是最近“深度神经网络”在机器翻译中所取得的成果,让一些评论者们又开始叫嚣人类译者濒临消亡的命运。比如,Gideon Lewis-Kraus 在《纽约时报》发表的那篇《The Great AI Awakening》,以及 Lane Greene 在《经济学人》发表的那篇《Machine Translation: Beyond Babel》。根据他们的说法,人类译者将在几年内沦落为翻译质量把控者与错字校对的角色,而不再是文字的生产者。

    要是翻译领域果真发展到这一地步,那我的精神生活必将遭受重创。虽说我能完全理解他们要尝试让机器翻译发挥更大价值的魅力所在,但我一点也不想看到人类译者让毫无感情的机器所取代。一想到这些,我就感到惶恐和反感。

    在我看来,翻译是一门极其讲究的艺术,它要求译者将丰富的生活经验以及创造性的想象力用在再创作过程。如果机器翻译的勉强还算“不错”的语言,使得人类译者沦为了过时“老古董”,这必将严重打击我对人类智慧的尊崇,留下无尽的困惑与悲伤。

    每每读到人们宣称某项新技术又要淘汰人类译者,我就想要亲自一探究竟,部分原因是害怕关于机器翻译的噩梦最后成真,更多的是出于证实该文章有夸大其词之嫌,以疏解我内心的焦虑,因为我坚信戳穿言过其实的 AI 谎言非常重要。

    因此,在我读到 Google Brain 用深度学习增强了旧的人工神经网络理论,并以这种技术实现出革命性的机器翻译效果之后,我决定亲自会一会这款最新的 Google 翻译,看它是否真如国际象棋的“深蓝”与围棋界的 AlphaGo 一般,会成为机器翻译领域的颠覆者?

    众所周知,旧版的 Google 翻译可以处理很多种语言,但深度学习版的新 Google 翻译最初只支持 9 种语言(译注:目前是 96 种)。于是,我把探讨的语种限定在四种:英语、法语、德语和中文。

    在展示我的发现之前,我要先指出一点——“(deep)深度”一词作为多义词,在这里有滥用之嫌。当人们听说 Google 收购了一家用“深度学习”增强“深度神经网络”来做产品的公司(公司名还是 DeepMind)时,他们下意识会把“深度(deep)”理解为“深奥(profound)”,继而推导出“强大”、“见解深刻”、“深谋远虑”的意思。但是,“深度”在这里的真实含义,仅仅是说这些神经网络的层数比过去只有 2 到 3 层的旧网络多一些而已(比如 12 层)。不过,多出来的这几层是否意味着神经网络所完成的任务一定很“深奥”?那可不见得,那只是语言上的使用技巧。

    对于 Google 翻译,我一直怀有较深的戒心,毕竟媒体对其炒作太过了。但是讨厌归讨厌,Google 翻译的一些能力还是让我深感惊奇。全球每一个人都可以免费使用这项服务,它可以在大约 100 种语言之间任意翻译。这一点确实令人类自感羞愧。如果我敢自称“多语言者”,那 Google 翻译就是当之无愧的“百语者”,毕竟我会的语言只有 3 种左右,其中一些语言还是略懂一点点,所以自称“多语言者”是比较心虚的,但 Google 翻译的一百种语言可真是货真价实。

    事实上,我只需把 A 语言的文本复制粘贴到 Google 翻译的输入框内,它瞬间就能把整页内容翻译成 B 语言。况且,Google 翻译还可以时刻不停地为全球用户提供多种语言翻译服务。

    Google 翻译的实用价值毋庸置疑,总体来说它还是个不错的产品。但它所用的方法却存在很大的缺陷,用一个词来描述就是——理解。毕竟,机器翻译的焦点从来都不是理解语言;相反,该领域的研究策略一直都是避开内容的理解及其含义,亦即“解码”。那么,想要翻译好文章,没有对内容的理解果真可行吗?人或机器的高质量翻译,真能离开语言的含义而独自完成吗?

    为了探讨这里问题,我亲自用 Google 翻译做了一些实验,接下来会详细解释。

    英-法互翻

    一上来,我用的是短句,它的意思简单明了,很容易理解:

    In their house, everything comes in pairs. There’s his car and her car, his towels and her towels, and his library and hers.

    (意为:在他们家里,所有的东西都成双成对。他和她有着各自的汽车、毛巾与收藏室。)

    这句话的翻译看上去很简单,不过在法语和其他罗曼语中,Google 翻译对物主代词“his(他的)”或“her(她的)”的处理并不反映性别的变化,因为它处理的只是物主代词后面的名词,给出来的结果是这样的:

    Dans leur maison, tout vient en paires. Il y a sa voiture et sa voiture, ses serviettes et ses serviettes, sa bibliothèque et les siennes.

    果不其然,Google 翻译落入了我的圈套,它根本无法像人类理解语言:即分清这句话描述的是一对夫妻,知道句子强调的是丈夫有的每样东西,妻子都有与之相配的一个。相反,深度学习引擎使用同一个词“sa”来指代“his car(他的车)”与“her car(她的车)”,令读者无从判断汽车所有者的性别。同样,它还使用无性的复数形式“ses”来指代“his towels(他的毛巾)” 和 “her towels(她的毛巾)”。而对最后“his library and hers(他和她的收藏室)”的翻译,名词性物主代词“hers”的“s”彻底把 Google 翻译迷惑了,它以为“s”代表的是复数形式 (“les siennes”)。到最后,Google 翻译彻底误解了这句话所要表达的意思。

    为了传达原句的本来意图,我只好亲自将这些短句翻译成法语:

    Chez eux, ils ont tout en double. Il y a sa voiture à elle et sa voiture à lui, ses serviettes à elle et ses serviettes à lui, sa bibliothèque à elle et sa bibliothèque à lui.

    其中,“sa voiture à elle”表示的是“her car”,“sa voiture à lui”表示的则是“his car”。表达清楚后,让 Google 翻译将我的法语准确译回英语,我以为是水到渠成的事了。但我又一次想多了,它错得更是离谱:

    At home, they have everything in double. There is his own car and his own car, his own towels and his own towels, his own library and his own library.

    这说的都是什么?尽管我在句中尽可能明显地突出了所有者的性别信息,Google 翻译还是一个睁眼瞎,完全不知道这句话所要传达的最关键信息,而是简单将所有人物主代词都转换成阳性的"his"。为什么会是这样?

    我们人类能理解夫妇、房子、个人财产、自尊心、竞争、嫉妒、隐私等各种各样抽象的概念,以及其它更为复杂的情形所形成的癖好,比如一对夫妇要把各自的毛巾绣上“his(他)”与“her(她)”。

    Google 翻译却无法理解这样的情境,或者说,它无法理解任何语境信息。它所熟悉的只是由字母所构成的单词、由单词所构成的字符串。Google 翻译所关心的的只是如何对文本碎片化快速处理,而非文本背后的思考、想象、回忆或者理解。它甚至不想知道单词背后所代表的事物是什么。原则上,计算机程序可以理解语言的含义,可以拥有想法、记忆和经验,并且可以使用它们,但这不是 Google 翻译开发的初衷。它的开发者们甚至都没有这样的雄心。

    看到 Google 翻译这些令人啼笑皆非的语句,我不禁长舒一口气——机器翻译终究还是无法取代人类译者。但我认为,我还是应当更加细致地测试一番 Google 翻译。毕竟,孤证不立,一燕难成夏(One swallow does not thirst quench)。

    那么,对于这句“One swallow does not thirst quench”——我从谚语(“One swallow does not a summer make”,意为孤燕不成夏)中新编出来的话,Google 翻译把它会翻成什么样的法语语句呢?试过之后,Google 翻译输出给我这么一个结果:“Une hirondelle n’aspire pas la soif”。这个翻译倒也符合法语语法,但却着实让人费解。

    首先,它用一种燕子(“une hirondelle”)来指代燕科(swallow)所包含的 74 种鸟,并说这只鸟没有在吸啜(“n’aspire pas”),而鸟吸啜的对象竟然是口渴(“la soif”)。显而易见,Google 翻译完全没有理解我的意思,它只是将句子重新编码成一堆乱七八糟的符号。而这句话“Il sortait simplement avec un tas de taureau.”,它竟翻译成“He just went out with a pile of bulls(他刚跟一大堆公牛出去了).” 再将其翻译回法语便成了“Il vient de sortir avec un tas de taureaux”。请原谅我这糟糕的法语,更准确地说,是 Google 翻译的伪法语。

    英-德互翻

    说完法语,我们再来看德语。最近,我迷上了奥地利数学家 Karl Sigmund 的书《Sie nannten sich der Wiener Kreis》,英文名是《They Called Themselves the Vienna Circle(他们自称是维也纳学派)》。这本书写的是上世纪 20 年代到 30 年代的一群维也纳理想主义知识分子,他们对后世的哲学和科学有着重大的影响。

    我就用 Sigmund 在这本书中所写的一小段文字来测试 Google 翻译,看它能翻译出什么样的英语。我们一一来看,首先是 Sigmund 所写的德语原文,然后是我自己的翻译,最后是 Google 翻译的结果。(顺便说一下,我让两位母语是德语的人检查过我自己的翻译,其中包括 Karl Sigmund 本人,你基本可以认定我的翻译是准确的。)

    Sigmund:

    Nach dem verlorenen Krieg sahen es viele deutschnationale Professoren, inzwischen die Mehrheit in der Fakultät, gewissermaßen als ihre Pflicht an, die Hochschulen vor den “Ungeraden” zu bewahren; am schutzlosesten waren junge Wissenschaftler vor ihrer Habilitation. Und Wissenschaftlerinnen kamen sowieso nicht in frage; über wenig war man sich einiger.

    侯世达翻译:

    After the defeat, many professors with Pan-Germanistic leanings, who by that time constituted the majority of the faculty, considered it pretty much their duty to protect the institutions of higher learning from “undesirables.” The most likely to be dismissed were young scholars who had not yet earned the right to teach university classes. As for female scholars, well, they had no place in the system at all; nothing was clearer than that.

    (意为:战败后,教授们的政治倾向仍以泛德意志主义为主,他们认为自己有责任保护高等研究所免遭“不受欢迎的人”侵扰。其中最有可能遭受敌视的,就是那些尚未有权利教大学课程的年轻学者。至于女性学者,则完全没有她们的立身之处,没有比这更清楚的了。)

    Google 翻译:

    After the lost war, many German-National professors, meanwhile the majority in the faculty, saw themselves as their duty to keep the universities from the “odd”; Young scientists were most vulnerable before their habilitation. And scientists did not question anyway; There were few of them.

    Google 翻译结果中的词汇倒也都是英文单词,纵然如此,其中有几个单词还是很不恰当地用成首字母大写的形式,不知什么原因。这些词开始还能组成一句话,但越往后,你就越不知所云,翻译效果惨不忍睹。

    我们先看引号中的“the ‘odd.”,它在德语原文中所对应的是“die ‘Ungeraden”,意指“在政治上不受欢迎的人”。不过,Google 翻译在这里将其译为“odd”是有原因的:统计。也就是说,在 Google 翻译所用的庞大双语数据库内,“ungerade”几乎总是被译成“odd”。

    虽说翻译引擎自己并不懂得为何要如此转换,但我能告诉你原因。这是因为 “ungerade” 在使用中几乎总是“奇数(无法被2整除的数)”的意思,尽管它在字面上的意思是“不直的”或“不平的”。相反,我用“undesirables”一词来译“Ungeraden”就跟单词的统计数据毫无关系了,纯粹是基于我对上下文的理解——它的含义深藏于字里行间,任何德语词典的“ungerade”释义都文不对题。

    然后说说另一个德语单词“Habilitation”,它指的是一种大学职位,类似于终身教授。在英语中,与“Habilitation” 同源的词汇尽管存在,但却极为罕见,读者肯定不会把它和终身教授联系到一块。这就是为什么我要简单解释一下词中这层含义,而非直接去用一个生僻词,要不普通英语读者读起来肯定一头雾水。Google 翻译当然是做不到这一点的,它压根就没有读者所具有的知识模型。

    原文的最后两句很好地证明了“理解”在翻译中的重要性。“Wissenschaftler”这个由 15 个字母组成的单词指的是“科学家”或“学者”(我认为是后者,因为按原文语境它指的是知识分子阶层。Google 翻译没有理解出这层微妙的含义)。最后一句中的“Wissenschaftlerinnen”是“Wissenschaftlerin”的复数形式,而且是一个阴性德语名词。“Wissenschaftler”在语法上是阳性名词,指的是男性学者,“Wissenschaftlerinnen”是阴性名词,只能指女性学者。我翻的时候用“female scholar”来传达这层含义。但是,Google 翻译并不知道“Wissenschaftlerin”中的后缀“-in”是最后一句中需要仔细注意的地方。它不知道这个词指的只是男性学者,因此它用的是“scientist”这个词,丢失了原句要点。和之前翻译法语一样,Google 翻译完全不知道这个德语句子的唯一目的是突出男性和女性对比。

    除了这个重大错误,最后一句其他部分的翻译简直是灾难。先看前一半。“scientists did not question anyway”真的是“Wissenschaftlerinnen kamen sowieso nicht in frage”的正确翻译吗?译文和原文的含义完全是牛头不对马嘴,译文中的单词只是按照德语单词随意生成的,这能称得上是“翻译”吗?

    最后一句后半部分的翻译也同样很糟糕。最后六个德语单词字面上的含义是“over little was one more united”,更流畅地说是“there was little about which people were more in agreement”(这一点几乎没什么异议),但是 Google 翻译将这个明显的含义翻译为“There were few of them(几乎什么都没有)”。读者看到一定会疑惑地问“Few of what?(什么没有)”,但是对机器翻译这个机械听者而言,这个问题没有意义。Google 翻译没有想象能力,因此它无法回答这种看起来很简单的问题。它在翻译时并不会进行大量或些许想象。它只是随意组合单词,对单词所代表的含义完全没有概念。

    ELIZA 效应

    对于具备人生经验和理解能力,并能熟练使用文字不同含义的人来说,他还是很难意识到 Google 翻译生成的译文有多么空洞。人们想当然认为,可以如此流畅处理文字的软件肯定理解个中含义。人们对人工智能项目产生的经典幻觉被称为是“ELIZA 效应”。上世纪 60 年代,一个名叫 ELIZA 的项目可以让用户相信它可以理解英语,实际上它根本不知道自己在说什么。ELIZA 模拟一名心理治疗医师,与它“聊天”的许多用户都误以为 ELIZA 可以深刻地理解他们的内心感受。

    数十年来,ELIZA 效应骗过了很多见多识广的人,甚至包括一些人工智能研究人员。为了让读者可以避开这个陷阱,我将引用上文中的几个句子来说明:“Google 翻译不理解”,“Google 翻译没有意识到”、“Google 翻译没有最起码的想法”。这些句子看起来似乎是自相矛盾的,一方面说 Google 翻译缺乏理解能力,另一方面又暗示 Google 翻译至少有时可以理解单个单词、短语或句子的含义。事实并非如此,Google 翻译的设计就是为了回避或规避理解语言的。

    在我看来,“翻译”一词散发着神秘且动人的气息。它是一种人文色彩浓厚的艺术形式,要求译者要优雅地用语言 B 将语言 A 中明确的思想表达出来,这个过渡过程不仅要确保明确性,而且还要将原作者写作风格、技巧和特质传达出来。在翻译之前,我首先会仔细地阅读原文,将原文中的思想尽可能清晰地印在我的脑中,一遍又一遍地咀嚼。我咀嚼的不是原文文字,而是文中那些激发各种相关思想的思想,通过这样做,我可以在我的脑中构想出丰富的相关场景。不用说,大部分构想过程是潜意识的。只有当我的脑中构建的场景足够丰富时,我才会试着用另一种语言将它们表达出来——“将它们提取出来”。在翻译时,我试着以我认为的自然方式用语言 B 表达我脑中的场景,这些场景构建的就是原文的含义。

    简而言之,我不是将语言 A 的单词和短语直接译为语言 B 的单词和短语。在翻译时,我会下意识地在脑中构出图像、画面和想法,挖掘我以往(读过、在电影中看过或从朋友口中听过的)的经验。只有当非言语的、意象式的、经验性的思维构想在我脑中形成时——只有当象征原文含义的虚无缥缈的气泡在我脑中漂浮时——我才会用目标语言组织单词和短语,然后再一遍又一遍进行修改。这个以文本含义为媒介的翻译过程虽然听起来相当缓慢(与 Google 翻译两三秒翻译一页文本的速度比起来确实慢),但它正是所有严肃的人类译者在翻译时要完成的一个过程。这种翻译才是我听到“deep mind”(深度思维)这样的词组时所理解的翻译。

    中-英互翻

    接下来我检验了 Google 翻译的中文翻译。相比法语和德语这两种欧洲语言,中文对深度学习软件的挑战更大得多。我从中国剧作家和翻译家杨绛(最近以 104 岁的高龄逝世)的回忆录《我们仨》(We Three)中节选一部分作为测试材料。杨绛的这本书讲述的是她和她的丈夫钱钟书(小说家和翻译家)以及女儿的生活。这本书虽然不是特别晦涩,但是它的文字相当考究且生动。我节选了一小段,让 Google 进行翻译。以下是Google 翻译给出的结果和我本人的翻译(经过中文母语者的检查):

    杨绛:

    锺书到清华工作一年后,调任毛选翻译委员会的工作,住在城里,周末回校。 他仍兼管研究生。

    毛选翻译委员会的领导是徐永煐同志。介绍锺书做这份工作的是清华同学乔冠华同志。

    事定之日,晚饭后,有一位旧友特雇黄包车从城里赶来祝贺。客去后,锺书惶恐地对我说:

    他以为我要做“南书房行走”了。这件事不是好做的,不求有功,但求无过。

    侯世达翻译:

    After Zhongshu had worked at Tsinghua University for a year, he was transferred to the committee that was translating selected works of Chairman Mao. He lived in the city, but each weekend he would return to school. He also was still supervising his graduate students.

    The leader of the translation committee of Mao’s works was Comrade Xu Yongying, and the person who had arranged for Zhongshu to do this work was his old Tsinghua schoolmate, Comrade Qiao Guanhua.

    On the day this appointment was decided, after dinner, an old friend specially hired a rickshaw and came all the way from the city just to congratulate Zhongshu. After our guest had left, Zhongshu turned to me uneasily and said:

    “He thought I was going to become a ‘South Study special aide.’ This kind of work is not easy. You can’t hope for glory; all you can hope for is to do it without errors.”

    Google 翻译:

    After a year of work at Tsinghua, he was transferred to the Mao Translating Committee to live in the city and back to school on weekends. He is still a graduate student.

    The leadership of the Mao Tse Translation Committee is Comrade Xu Yongjian. Introduction to the book to do this work is Tsinghua students Qiao Guanhua comrades.

    On the day of the event, after dinner, an old friend hired a rickshaw from the city to congratulate. Guest to go, the book of fear in the book said to me:

    He thought I had to do “South study walking.” This is not a good thing to do, not for meritorious service, but for nothing.

    下面我将指出几个奇怪的地方。首先,虽然“锺书”这个名字在原文中出现了三次,但是 Google 翻译却没有将它表达为人名。在第一处,Google 翻译使用了人称代词“he”,第二处,Google 翻译将“锺书”翻为“the book”;第三处,Google 翻译将“锺书”翻为“the book of fear in the book”。看看这是什么翻译!

    第二个奇怪的地方在第一段中,文中说的是锺书兼管研究生,而 Google 翻译却说他本人是研究生。

    第三个奇怪的地方在“毛选翻译委员会”(Mao Tse Translation Committee)这个短语上,Google 翻译遗漏了中国主席毛泽东的名字中的“泽”字。

    第五个奇怪的地方是“after our guest had left”被缩减为“guest to go”。

    第六个奇怪的地方是 Google 翻译的译文最后一句根本说不通。

    这六个错误已足以让 Google 翻译颜面扫地,我们暂不追究。下面我们看一个令人疑惑的短语:最后一段中双引号中的内容(“南书房行走”)。这个短语逐字可以翻译为“south book room go walk”,这显然是讲不通的,它在原文中充当的是一个名词,而 Google 翻译的“South study walking”根本不对。

    我承认我也不理解这个中文短语是什么意思。虽然从字面上看,它指的是在某个建筑南侧的一个书房中走来走去,但是我知道这肯定不对;它在上下文语境中根本讲不通。为了翻译这个短语,我必须查清是不是有什么我不知道的中国文化。我该找谁帮忙呢?找Google!(但不是 Google 翻译)。我连带双引号在 Google 搜索中用中文输入了“南书房行走”,搜索引擎很快显示了一大堆中文网页。然后我艰辛地阅读了前几个网页中开头几段内容,试图弄清这个短语是什么意思。

    我发现这个短语可以追溯到清朝(1644–1911),它指的是皇帝的书房先生。书房先生的职责是“在故宫的南书房”帮助皇帝撰写皇旨。“行走”字面上指的是“go walk”,但实际上指的是助手。根据 Google 搜索提供的信息,我将这个短语翻译为“South Study special aide”。

    Google 翻译无法像我一样利用 Google 搜索的服务,这是不是很可惜?虽然 Google 翻译可以在眨眼之间翻译网页,但是它无法理解这些网页的内容。它能吗?以下是我将上文中搜索网页的内容提交给 Google 翻译后给出的输出文本:

    “South study walking” is not an official position, before the Qing era this is just a “messenger,” generally by the then imperial intellectuals Hanlin to serve as. South study in the Hanlin officials in the “select chencai only goods and excellent” into the value, called “South study walking.” Because of the close to the emperor, the emperor’s decision to have a certain influence. Yongzheng later set up “military aircraft,” the Minister of the military machine, full-time, although the study is still Hanlin into the value, but has no participation in government affairs. Scholars in the Qing Dynasty into the value of the South study proud. Many scholars and scholars in the early Qing Dynasty into the south through the study.

    这真的是英语吗?当然我们知道都是——确切地说,大部分是英语单词,但是这是一段英语文章吗?在我看来,这段内容没有任何含义,因此它算不上是英语。它只是一团乱七八糟的随机英语单词沙拉或逻辑不清的单词大杂烩。

    如果你有兴趣,下面是我对这段网页内容的翻译(花了我数小时时间):

    The nan-shufang-xingzou (“South Study special aide”) was not an official position, but in the early Qing Dynasty it was a special role generally filled by whoever was the emperor’s current intellectual academician. The group of academicians who worked in the imperial palace’s south study would choose, among themselves, someone of great talent and good character to serve as ghostwriter for the emperor, and always to be at the emperor’s beck and call; that is why this role was called “South Study special aide.” The South Study aide, being so close to the emperor, was clearly in a position to influence the latter’s policy decisions. However, after Emperor Yongzheng established an official military ministry with a minister and various lower positions, the South Study aide, despite still being in the service of the emperor, no longer played a major role in governmental decision-making. Nonetheless, Qing Dynasty scholars were eager for the glory of working in the emperor’s south study, and during the early part of that dynasty, quite a few famous scholars served the emperor as South Study special aides.

    一些读者可能怀疑我为了抨击 Google 翻译故意挑选了翻译得很差的片段,他们认为实际上 Google 翻译的结果有绝大部分段落的表现要更好。这似乎听起来有点道理,但是事实并不是这样。从我正在阅读的书中节选出的一些内容输入到 Google 翻译,它翻译的每一段都有各种各样的大错误和小错误,包括像上文那样的无意义和无法理解的句子。

    当然我承认,Google 翻译有时候给出的翻译确实看起来不错(尽管它们可能是有歧义或是完全错误的)。一整段或几个句子可能翻得相当不错,但这可能让人错误地认为 Google 翻译知道自己在做什么,知道什么是“阅读”。在这种情况中,Google 翻译似乎真的表现得很好——几乎像人一样!这当然归功于它的创造者以及他们的努力。但同时,不要忘了 Google 翻译在翻译上面两段中文以及法语和德语文章时的糟糕表现。

    为了理解这样的糟糕表现,我们必须时刻谨记 ELIZA 效应。Google 翻译虽然可以翻译一百多种语言,但是它不能阅读——人类定义中的“阅读”。它只是在处理文本,它处理的符号是和现实生活经验脱节的。Google 翻译没有可以利用的记忆和理解能力,它快速生成的翻译有时甚至没有任何含义。

    机器离真正理解语言有多远?

    一位朋友曾问我,Google 翻译的翻译水平是否只是程序数据库的一个函数。他的观点是,如果将数据库的大小扩大一百万倍或十亿倍,最终 Google 翻译将能完美地翻译任何语言。我并不这样认为。再多的“大数据”也不能让机器拥有理解能力,因为理解的关键在于有思想。没有思想是当前机器翻译所有问题的根本所在。因此,我认为更大的数据库——甚至超大的数据库——是无法解决问题的。

    另一个常见的问题是,神经网络技术的使用是否能帮助机器实现真正的语言理解能力。刚开始时这听起来很有道理,但是现在的尝试全都局限在单词和短语的翻译上。神经网络虽然可以利用各种关于大型数据库的统计学事实,但是这些统计学事实只是将单词与其他单词联系起来而已,而不是将单词与思想含义联系起来。当前还没有人在尝试创造可以实现思想、想象、记忆或经验的内部结构。现在来说,用计算实现这样的超智能技术简直是天方之谈,因此人们才转向快速、成熟的统计学词语聚类算法。但是这种算法得出的结果差强人意,跟人类阅读、理解、创造、修改和评价一篇文章时的思维过程根本无法相提并论。

    虽然我持否定态度,但是仍有很多人对 Google 翻译提供的服务评价很高:它将语言 A 写就的有意义文本简单快速地转换为了由语言 B 组成的意义并不明显的文本。只要语言 B 文本或多或少可以让人理解,许多人对此就会感到非常满意。如果他们可以“大致理解”用他们不懂的语言写的文章,他们就满足了。我个人认为 “翻译”的定义并不是这样,但是一些人认为 Google 翻译是一项好服务,而且给出的结果可以算作是翻译。好吧,我知道他们的需求,我也理解他们为什么会感到满意。这对他们而言是一种幸运。

    我最近看到一些新技术爱好者制作的条形图,他们用此来代表人类和计算机翻译的质量,这些条形图表明最新的翻译引擎在翻译水平上已非常接近人类了。在我看来,将不可计量的假科学进行量化,实际上只是技术狂们试图用数学来解决他们不理解的无形、微妙、艺术性的东西。依我之见,当前 Google 翻译得出的结果有的很好,有的则十分可笑,但是我无法量化我对这些翻译的感受。以我举的第一个例子来说,无思想的 Google 翻译几乎把所有单词都翻译对了,但是它完全没有翻出原文的含义。在这种情况下,翻译的质量可以被量化吗?用看上去很科学的条形图来表示翻译质量,只不过是乱套上科学的“外衣”而已。

    谈到人类译者未来令人悲哀的境况,他们不久便会被机器超越并淘汰,逐渐成为质检员和校对员。对平庸的译者来说,这是最好的出路。但是真正的艺术家是不会屈身于处理错误满篇的译文,通过到处修改来生成高雅的艺术作品。这不是艺术的本质,而翻译却是一门艺术。

    在多年的写作生涯中,我一直认为人类大脑是一种机器——一种非常复杂的机器,我非常反对机器本身无法处理含义的观点。有一个哲学家学派甚至声称计算机是永远无法“掌握语义”的,因为它们的“构造”(硅)是错的。在我看来,这完全是无稽之谈。在本文中我不会探讨这一论题,但是我不想让读者认为我相信机器是永远无法实现智能和理解的。如果我在本文给读者造成这种印象,那是因为我在本文中讨论的技术没有尝试复制人类智能。相反,它试图用迂回的方法来避过人类智能,上文中给出的译文清楚地揭示了这种技术的缺陷。

    我认为,没有任何实质性理论依据可以证明:在理论上机器无法思考、创造、搞笑、怀旧、激动、害怕、狂喜、顺从、满怀希望,无法完美地翻译语言。也没有实质性理论依据可以证明:机器不可能完美地翻译笑话、双关语、剧本、小说、诗歌或像本文这样的文章。但是只有当机器像人类一样拥有思想、感情和经验时,这样的美梦才会实现。我相信这一天离我们还很远,作为一个对人类心智的深奥的崇拜者,这是我所热切希望的。

    如果有一天翻译引擎可以用英语创作出巧妙绝伦、富有感染力、朗朗上口的诗体小说,而且是韵脚采用抑扬格调的四音步诗,那时,我就该隐退文坛了。

    原文地址:

    https:///technology/archive/2018/01/the-shallowness-of-google-translate/551570/

    一、让机器理解我们的语言(一)语言和计算语言学

    语言可能是人类最早习得的后天技能之一,并且在绝大多数情况下,伴随着我们的一生。英国 每日邮报 调查发现,人类平均每天要说接近一万个词(女性会说的更多),假设一句简短的话平均包含10个词,那么,你也许每天不知不觉就已经说了上千句话了。可是,你真正知道你说了些什么吗?

    语言的历史同人类一样古老,也被认为是一切文明的基础,只是表现形式的不同,尼罗河流域的语言是碑铭体,两河流域用楔形文字,而三体文明他们的语言则是脑电波。叔本华在《作为意志和表象的世界》谈论语言,

    语言是如此深刻地存在人类历史和生活中,但是,就连语言学的泰斗人物,诺姆·乔姆斯基对语言是什么这样基础的问题也谨慎非常,难以回答。佛讲

    佛认为,语言是第二性的,是表征,是缘性的投射,是无法”得故“的。

    那对于这样无法定论的议题,是不是就无法从事语言学的研究了呢?其实也不尽然。乔姆斯基认为,语言是什么是所有语言学的核心议题,所有的研究应当围着这个核心而具体展开。事实上,基于对这个核心问题的不同假设和回答,语言学中流派纷呈,展现了既分裂又有融合的图景。这种现象,也是自然科学、社会学、人类学激烈交汇、碰撞的产物。

    早在古希腊事情,人们就开始思考语言,其中最著名的分为两大派别,其一是古典自然主义者,他们认为语言是声音的自然固化,是事物的直接名称(象声词),比如雷这个词的发声就同于雷的本身声音。另外一派是古典实用主义者,他们认为语言是人民约定俗称的,跟事物本质没有关系。比如数字一就是通过约定来定义的,因为数字一本身无法发出声音。在古希腊之后,语言学的相关研究一直有所发展,但总的看来,当时的语言学只是哲学范畴下的思辨,并没有成为一门真正独立的科学。

    终于到了20世纪前期,以瑞典语言学家弗迪南·德·索绪尔的结构主义才标志着现代语言学的诞生。索绪尔讲了一件什么样的事情呢?他认为

    这样的概念使得语言学发生了从传统的语文学、历史比较语言学研究范式向现代的语言学、结构描写语言学的重大转变。从此,研究语言机构、对语言系统本身进行客观的描写和分析成为主流,也使得语言学独立与文学和其他社会学科。

    但是结构主义的技术主要体现他们用分布分析的办法,探索语言在各个层面上的单位及其结构关系的操作程序,例如对语言流层层切分,找出最小的语言单位---音素,对音素进行替换测试,从而总结出语言结构的配置关系。但是,这样事实描写的方法关心的是既成结构(what), 它只能研究具体的语言事实,但不追究这些语言事实的成因(why),无法回答”为什么句子只能这样说不能那样说,只能这样理解而不能那样理解“这类问题。

    在20世纪中叶,乔姆斯基带来了一场语言学的革命。 他的三本书《句法结构》、《句法理论的若干问题》、《深层结构、表层结构和语义解释》引发了语言学界的大地震。乔姆斯基说了一件什么样的事情呢?他认为

    说话人通过一系列结构规则可以生成这种语言的句子的深层结构,即在每个句子表达出来以前就在大脑中存在的概念结构。形成了这种句子的深层结构之后,他头脑中已经有了一个正确的句子。在乔姆斯基看来,人们在说话之前他的头脑中存在着一个深层的语言结构或是思维能力,而且会形成一个内在的正确的句子。

    乔姆斯基认为,深层结构通过“转换部分”可以转换成表层结构,这就是通过说话时的语音所表达出来的句子,表层结构是句子的形式,深层结构代表句子的意义。

    乔姆斯基语言学的特点是更注重于语言的结构转换规则的研究。他认为,短语规则是形成句子的一套规则,这一规则先有一套短语结构改写规则。以英语为例来说,就有这样一套规则:

    上述规则表明前者可以改写为后者,如“句子”可以改写为“名词短语+动词短语”。根据这些规则就可以推导出一个句子来。

    乔姆斯基语言学的特殊意义在于,他提出了形式语言和形式文法的概念,把自然语言和计算机程序语言放在同一空间下,用统一的数学方法来描述和定义,这就使得用计算机解析语言、表达语言、理解语言成为可能,也引出了我们今天的主角,计算语言学。

    数学家马尔科夫这个名字应该理科生都耳熟能详,那除了都是俄国人之外,他和文学家普希金又有什么联系呢?

    在这里,我想多谈几句马尔科夫,毕竟是概率统计出身,见了开山的前辈总要作揖行礼。

    一般搞数学都有点宗派,讲传承,当然凡事总有例外,但马尔科夫肯定不是例外。他的导师是切比雪夫,对,就是那个切比雪夫不等式的切比雪夫。他的大师兄呢,是柯尔金,二师兄呢,是李雅普诺夫,这样环境下很难不成为一代大师。果然不出意料,在1897年第一届国际数学家大会时候,马尔科夫就是五名筹备委员之一,此时他已经是圣彼得堡教授,圣彼得堡科学院院士了,另外四个人都是谁呢,分别是克莱因,庞加莱,克雷蒙纳,戈斯达•米塔格-莱弗勒,对,这就是那个传说中和诺贝尔夫人有染,导致了最终诺贝尔奖里没有数学的数学家。

    回到马尔科夫,大师除了数学上出了大量的成果用来虐我们之外,其人是有比较理想主义的,用现在的话讲是有情怀的。马尔科夫喜欢读诗,还和著名文学家高尔基有过很多交流,在好友高尔基因为政治因素没能入选科学院时,马尔科夫不停写信抗议,甚至拒绝领取沙皇的奖章。所以后来马尔科夫去用他的马尔科夫链去解读普希金的长诗《叶甫盖尼·奥涅金》语言符号出现概率的时候,这也是并不为奇了。算好之后,马尔科夫觉得毕竟诗歌两万字太短了,不过瘾,又去算了十万字的阿克萨科夫三部曲之一《孙子巴格洛夫的童年》。那个时候可没有计算机,要算都得靠人工手算。

    讲了这么多马尔科夫,他和计算语言学有什么关系呢?可以说,马尔科夫在算普希金诗歌所用的马尔科夫模型,是当代计算机语言学最重要的理论支柱之一。从那之后,大量的概率统计学就被用到语言学中来分析计算词汇。

    虽然概率统计开始运用到语言学中去,但直到1948年,香农才是真正把该概率模型和语言描述联系在一起的第一人。

    谈到香农,不免又要多谈两句。香农是信息学的学科奠基人,并且这个学科奠基人,在开创信息学这门学科的时候,就明白地告诉大家,这门学科我已经知道它的发展终点了,不过中间的这些路,你们还是要走走的。

    只需要随便提起香农的三篇文章,就能一窥大师风采。第一篇叫做《继电和交换电路的符号分析》(这是他的硕士论文,哈佛大学的哈沃德·加德纳说“这可能是本世纪最重要的硕士论文”指的就是这篇),第二篇叫做《密码学的一个数学理论》,第三篇叫做《通信的一个数学理论》,这三篇文章,篇篇都重新定义和开创了一个学科。要知道,这可已经是20世纪,再不是牛顿那会儿微积分还没出现的时候。

    香农和语言学又有什么关系呢?他在马尔科夫模型的基础上,提出了有限状态自动机,首次用他的信息论来测定了英语的熵。其实当时香农把信息熵这个概念用到语言上,是一个副产品,他主要的研究在于信息熵与密码学,正好就拿英语来试试了。后来乔姆斯基又是在香农工作的基础上,把语言定义为有限状态语法生成的语言,提出了形式文法。从这以后,计算语言学开始由萌芽期走向了发展期。

    很多人都喜欢斯嘉丽·约翰逊,但是我喜好的原因应该尤为奇特。迄今两部跟计算语言学有关的电影主角都是她:《迷失东京》(lost in translation,2003) 和《她》(her,2013)。

    当然,这两部其实是爱情电影,但的的确确涉及了计算语言学的两个重要议题:机器翻译和语音识别。

    机器翻译可以讲就是最早的计算语言学应用。军事常常能够促进科学的快速发展。由于军事的需要,引发了一阵机器翻译的热潮。这时候的办法主要是基于逻辑规则,大量的资金和人力投入到机器翻译这个领域。但机器翻译本身是一个困难的研究方向,在计算语言的初期,很难取得突破性的成果,在军方转移了支持之后,这股热潮也很快消失了。不过,正是因着机器翻译的热潮,计算语言学度过了最开始的萌芽期,从此之后研究会一直跟进。再后来,计算语言学发展迅速,机器翻译成为了其下的一个子学科。而今随着计算机处理能力的大幅提升,规则逻辑方法、统计方法以及近年来热门的机器学习方法不断进步,机器翻译又迎来了长足的发展。

    最早的语言识别器其实是一只叫 "Radio Rex" 的玩具狗,不过这只狗只能识别一个音,就是"Re",而且还得是成年男性发出来的。现在经过了几乎一个世纪,几家大厂都有语音识别商用的模块了,比如苹果的 siri,谷歌的 google voice,微软的 cortana,但这些模块还是很难讲完全成熟,目前可能主要还是作为玩具。由此可见,玩具也是推动人类科技进步的一个动力。那为什么我想要个《她》里面的 Samantha 这么困难?是因为这里面除了语言识别以外,还需要很多其他的技术,比如语言理解,人工智能等等。当然随着越来越多的单身科学家急切地投入到这个领域,也许本世纪会有所突破也未可知。

    那么,谈了这么久的计算语言学,它究竟是怎样去解决一个问题的呢?

    在现今大数据时代,计算语言学的用武之地越来越多,对文本、语音数据的处理和理解将是今后大数据、人工智能的基石。可以说,当机器真正能够理解语言甚至创造语言的时候,机器才能真正走入智能时代。

    二、语音识别发展迅速,机器人真的能听懂我们说话吗?

    如果让机器能能听懂人的话,它必须经历一个类似于人的训练过程。人们首先找到代表语音的音素或单词音节,以及它们的频率、振幅和时变特征,并将其存储在机器中。机器人识别人类语音时,首先将待识别的语音参数与机器内部的参数逐一进行比较,找出最相似的参考声音,并通过显示、声音等方式输出识别结果。如果没有类似的声音,它会拒绝识别。毕竟,机器人不能和人的“智商”相比。它基于对人们语音的识别。然而,人们的语音因人而异,从紧急到缓慢,从高到低。发音的模糊性如此之大,以至于机器人很难识别。

    近年来,智能机器人在中国的发展呈现出快速增长的势头,其中代表性的是由小型ⅰ型机器人推出的智能客服机器人系列。利用自主开发的机器人平台,小i机器人为飞信海宝博士、江苏移动、天津市政府、联想集团、交通银行等200家大型企业和政府推出了高质量、高效率的智能客服机器人解决方案,在社会上取得了积极的反响。其中,飞信海宝博士问题的解决率在98%以上,与海宝聊天时,用户感觉和真人一样。江苏移动的客服机器人每天被访问超过20万次,机器人处理75%的问题,准确率超过90%。河南移动短信机器人每天处理100多万条短信。幽默风趣答曾经在微博等网络媒体上广泛传播。

    让机器人听懂人讲话是人类科技面临的一个难题。因为这种语音技术有着广泛的应用,使用这种技术可以自动将人类的语音输入计算机,自动翻译成许多国家的语言,并与不同国家和民族的人们交换信息。在自动控制领域,声控广场和机器人可以用来说话,可以降低劳动强度,提高生产效率。国内外研究人员在这一领域取得了一些成果。1223年,一家美国公司开发了一种声控打字机,可以理解4万个孤立的单词。这被认为是实用语音识别系统时代的到来。1221年,中国研究人员建立了语音识别系统,可以识别4333个由孤立音节组成的汉语句子,具有很好的知识学习能力。

    人类已经初步掌握了让机器人理解人类语言的技术,赋予人类高度智能的听觉能力,使其适应寒冷、无感情的机器。这项技术将迅速发展,进一步实现科学家研究语音识别技术的更高理念!

    三、在理解语言上,人脑,电脑(机器)之间有没有不可逾越的鸿沟?

    有.电脑不可能超越人脑.因为 电脑是人脑造出来.人不可能超越大自然.因为人是大自然的产物.你座在椅子上.无论如何不会把椅子搬起来.所以这就是哲学上的质的差别了.不同质之间有不可逾越的鸿沟

    关于schoolmate的问题,通过《语音识别发展迅速,机器人真的能听懂我们说话吗?》、《在理解语言上,人脑,电脑(机器)之间有没有不可逾越的鸿沟?》等文章的解答希望已经帮助到您了!如您想了解更多关于schoolmate的相关信息,请到本站进行查找!

    本文标签:schoolmate(5)

    相关阅读

    • 机器离真正理解语言有多远?

    • 158文章网范文示例
    • 今天小编给各位分享schoolmate的知识,文中也会对其通过机器离真正理解语言有多远?和让机器理解我们的语言(一)语言和计算语言学等多篇文章进行知识讲解,如果文章内容对您有帮
    • 教育英语词汇

    • 158文章网范文示例
    • 今天小编给各位分享schoolmate的知识,文中也会对其通过教育英语词汇和教育的英语怎么写教育这个词的单词怎么写等多篇文章进行知识讲解,如果文章内容对您有帮助,别忘了关注本站
    • 「CET-6应用文」Letter to Schoolmate

    • 158文章网范文示例
    • 今天小编给各位分享schoolmate的知识,文中也会对其通过「CET-6应用文」Letter to Schoolmate和历年英语四六级作文等多篇文章进行知识讲解,如果文章内容对您有帮助,别忘了关注本站,现
    • 常见的教育相关词汇

    • 158文章网范文示例
    • 今天小编给各位分享schoolmate的知识,文中也会对其通过常见的教育相关词汇和与“教育”相关的词语有哪些?等多篇文章进行知识讲解,如果文章内容对您有帮助,别忘了关注本站,现
    关键词不能为空

    范文示例_作文写作_作文欣赏_故事分享_158文章网