欢迎来到斯坦福青岛研究院!

改变世界的创新:SRI如何帮助Siri进入世界并赋予计算声音

作者:qdsitanfu   时间:2020-11-12
"下午好,苏珊,最近怎么样?" - Siri的声音来自2020年的iPhone。

 

在华金-菲尼克斯(西奥多)主演的电影《她》中,一个孤独的男人爱上了一个基于人工智能的虚拟助理。故事中的虚拟人工智能助理萨曼莎变得越来越 "像人",与西奥进行语言交流,帮助他度过人生中的一段困难时期。

 

改变世界的创新:SRI如何帮助Siri进入世界并赋予计算声音(图1)


电影可能是一个发明的故事,但人类是社会性动物。我们善于将遇到的一切事物拟人化。从我们的狗到我们的汽车,我们都会为其编造声音和角色。所以,这并不奇怪,我们现在在电脑中反映自己,让我们的声音来指挥和创造对话。

 

Siri是第一个带有声音的虚拟助手,它通过基于人工智能(AI)的技术做出反应,它的诞生就是为了让我们与电脑的互动更加 "像人"。如今,作为苹果iPhone不可或缺的一部分,Siri诞生于斯坦福国际研究院(SRI International)。

 

这就是Siri的故事。

 



Siri的觉醒:行星的排列


在开发Siri的过程中,技术星球是一致的。


该团队使用语音识别和自然语言处理(NLP)的混合物来推动Siri这一创新。利用这些技术,Siri接受了回答问题的训练。在启动一个唤醒短语后,例如 "嘿,Siri",一个人就可以问一个问题,例如,"今天门洛帕克的天气怎么样,Siri?"。由此产生的音频文件将被发送到远程服务器;语音识别软件被用来将单词转录成文本。然后,这些文字被传递给自然语言处理软件进行解释。

 

创新和进入新领域发生在解释阶段。语言是复杂的,一句话可以有多种含义,同一件事有多种说法,口音使口译任务更加困难。

 

斯坦福国际研究院的一项发明通过DECIPHER项目推动了NLP领域的发展。这个项目对SRI的一个附属公司Nuance Communications开发的先进语音识别技术起到了重要作用;这项技术后来被Siri使用。

 

Siri背后的NLP软件使用机器和深度学习的AI子集,以及大量真实人类声音的数据集,来训练Siri识别人类语言中复杂的语气、口音和意图。能够解读人类语言是开发有效的个人数字助理供消费者使用的重要基石。

 



Siri在科技史上的地位

 

Siri的开发受到了美国国防高级研究计划局(DARPA)探索 "认知 "软件助手理念的计划的影响。 学习的感知助手(PAL)是DARPA计划中研究创建认知计算系统的部分。SRI国际公司在2003年获得了2200万美元的资金,用于开发PAL计划下的个性化认知助手。SRI将这个项目命名为CALO,即学习和观察的认知代理。

 

斯坦福国际研究院(SRI)分拆了一家专门开发Siri的公司,并将其命名为Siri公司。2010年,苹果收购了Siri,2011年iPhone 4S上出现了这个数字助理的集成版本。

 

改变世界的创新:SRI如何帮助Siri进入世界并赋予计算声音(图2)



计算机生成的声音是如何让我们坐立不安的?

 

据说,Siri公司的亚当-切耶(Adam Cheyer)在SRI国际公司的办公桌上放了一张道格拉斯-恩格尔巴特的照片,以寻求灵感。几十年前,恩格尔巴特是一位有远见的人,同时也是SRI的校友,他发明了电脑鼠标。Siri是人机交互领域的一次灵感进化,它诞生于卑微的电脑鼠标的同样的意识形态--通过使用 "以人为本 "的设计原则模拟人与人之间的交互,从而推动技术的发展。


Siri首屈一指。计算的声音进入了这个世界,从她/他/它那悠扬的音调中,催生了新的声控个人数字助理。语音指令是探索人机界面(HCI)的另一种方式,也是一种让人感觉非常自然的方式。预计到2025年,全球声控数字助理市场将增长到77亿美元。人类的声音是强大的。纵观我们的进化史,使用语言交流的能力是我们人性的一部分。利用SRI国际在NLP和语音识别方面的创新,Siri把电脑的无声世界,用声音来填充。

 

一个有趣的侧面说明。Siri经常被误认为是 "语音解释和识别界面 "的缩写。然而,Siri团队一直坚持认为,Siri不是一个缩写。相反,Siri的联合创始人之一Dag Kitlaus想要一些简短而不寻常的东西;他提出了Siri,因为这是在斯堪的纳维亚半岛上一个不起眼的女人的名字。

 

有兴趣了解更多来自斯坦福国际研究院(SRI)的信息吗?关注斯坦福青岛研究院公众号或联系我们。