使用社交账号登陆

当前位置: 主页 > 观点 > 专栏 > [技术档案]Technical files
  • [技术档案]Technical files

对机器说话

时间: 2012年05月17日 | 来源: 环球科学

专栏作者简介

戴维· 波格(David Pogue)是《纽约时报》"个人技术" 专栏撰稿人,他还作为美国哥伦比亚广播公司的记者获得过艾美奖(Emmy Award)。

   语音识别程序已经越来越靠谱。

 

    在过去两年里,语音识别软件已悄悄地成长起来,延伸到我们生活的每个角落:它安装在客服热线和机票预订系统的人机交互端口设备中;扎根于微软视窗(Microsoft Windows)操作系统之中;它是iPhone和Android之类触摸屏手机的一种替代文本输入的方法。但是我们还得面对这样的现实:大多数使用这种软件的用户都宁肯自己不必用它。 

    这是因为语音识别通常只是B计划:它是替代打字或人类实际交谈的最糟糕方法。一些公司之所以将它用在电话系统中,是因为它的成本低于雇佣真人。许多向电脑输入指令的人之所以使用语音识别软件,是因为他们必须这样做。语音识别之所以在触摸屏手机上崭露头角,则是因为在屏幕键盘上打字又慢又麻烦。 

    那么怎样才能让语音识别更上一层楼,而不仅仅是一种变通方法(B计划)呢?我们离《星际旅行》中从不出错的会话计算机还有多远? 

    好啦,现在我们正在接近这一目标。经过十年的收购、兼并和挪用公款丑闻之后,主要的语音识别公司现在只剩一家:Nuance通信公司。该公司仅销售唯一一款商用语音识别软件,供Windows、Macintosh和iPhone使用。该软件也为奥迪、宝马、福特、奔驰汽车,还有摩托罗拉、诺基亚、三星、Verizon公司和T-Mobile公司的移动手机提供语音控制系统。用它能玩转声控玩具、GPS单元和自动取款机,并可接听AT&T公司、美国银行、CVS和许多其他银行的电话。 

    Nuance通信公司每年都会推出一个新的用户语音识别程序版本,例如它所推出的Dragon Naturally Speaking。通常情况下该公司不会为新版本添加很多新功能。相反,它将大部分资源集中用于一个目标:提高精确度。

    最初,你必须对着话筒阅读45分钟的脚本来训练这些程序,让程序能识别你的声音。多年来随着技术的改善,训练时间不断减少,逐步降到20分钟,10分钟,5分钟——而现在你已经完全不用对该软件进行训练。一旦发出指令,便能得到(由笔者测试)99.9%的精确度。按照这种精确度,每读两页文字还是会错一个单词,但这已经让人印象深刻了。 

 

 

    语音工程师使用各种方法来提升精确度。最早的语音识别程序要求你说话时两个单词之间要暂停一下;那种软件根本无法区分“their”与“there”和“they’re”。但假以时日,更强大的PC处理器将会使连续语音分析成为可能。现在的语音识别软件已能开始鼓励你用较长的句子说话,这样,软件就会有更多上下文用来进行分析,以提高精确度。 

    提高语音识别精确度还有另一种技巧:去年Nuance公司为iPhone提供了一款免费语音识别应用程序,名为Dragon Dictation。你说的话被传送到该公司的服务器,在那里进行分析之后,几秒钟之内就会转换成文本并返回到你的手机屏幕上。 

    不过,没人知道该公司已储存了所有这些语音样本,有数百万份,这样一来便创建出一个包括有不同声音、年龄、语调的抑扬变化和口音的巨大数据库,根据它们可对不同的语音识别算法进行测试。

    是的,该技术正在不断改善。但读者经常问我:“如果语音识别软件这么好,那么我能用它来做电话和访谈记录吗?”

    答案仍然是否定的。除非你对着话筒说话,无背景噪音,最好不带口音,否则这个软件的效果也没有这么好。你依然必须读出所有的标点符号,最后还要加上“句号”。天知道,我们人类相互理解都会如此困难,要求一台电脑完美地完成这一任务,确实有点过分。难怪今天的语音识别应用程序仍然会犯错误,比如将“mode import”误听为“modem port”,将“move eclipse”误听为“movie clips”和将“oak wrap”误听为——够了,你应该完全清楚了。 

    因此,在我们的有生之年,键盘肯定不会消失。《星际旅行》中的计算机会话方式仍然是数十年之后的事情。当然,99.9%的精确度对我们来说已经非常好了——但是除非达到100%精确度,语音识别技术仍将属于B计划。

电子版详见:http://www.huanqiukexue.com/plus/list.php?tid=30