用中文调戏SIRI?

princy | October 21st, 2011 - 13:21:25

最近网络上充斥着对于Siri的各种调戏,并俨然已经称为Iphone4S的一个相当大的卖点了.不过自己最感兴趣的是大家具体把Siri搞到手后,到底调戏的效果如何?还有,以后Siri真得可以完美的对应汉语和日语吗?自己以前是做声音处理的,所以就被问到了对Siri的看法,于是就简单的整理分析如下.

首先一起看一下Siri是怎么实现语音助理这个功能的:
第一步,iPhone会对录取的用户语音进行采样处理和压缩,然后通过网络传到苹果的服务器上.
第二步,通过服务器上训练好的语音模型来进行语音特征提取,然后借助他们比较灵活的文本模型就行最终识别.
第三,拿前面的语音识别结果和事先统计训练过的对话模式来进行文本处理和匹配,从而完成调用命令和实现语音对话.

然后在分开看一下各个部分可能出现的问题:
第一步,数据传输和处理问题.iphone通过网络传输的语音数据应该是已经被采样和压缩过的,所以只要网络不是太差就没有问题.但关于接下来的语音识别和模式匹配,因为都是从暴大的数据库中进行匹配求概率,所以服务器的负担应该是比较大的.若几百万的Iphone用户一起用Siri的话,苹果的服务器能不能撑住就是一个问题了.

第二步,语音识别的精读问题.根据现在的语音识别技术来说,无背景杂音,语法比较正常的native的英语识别率已经是比较令人满意了.但在噪音环境下,并且说话人的发音过于随意的话,识别率应该还是不够令人满意的.其次,对于身边的这些日式英语什么的来说,因为本身的声响特征差别太大,所以识别率就更加惨不忍睹了.最后,对于大家期待的汉语Siri,受到方言和口音的影响,相信识别效果也不会太理想的.

第三步,对话模型的覆盖面问题.通过最近Siri讨喜的事例来看,Siri的对话模型的覆盖面应该是比较广的,并且前后文的相关性也比较强.但代价就是初期的训练成本比较高以及匹配过程的处理时间比较长.所以,中文的文本训练什么的估计会很费苹果的功夫的.并且,相信他面对关于鸡公和公鸡的这类区别的时候也还是会抓狂的.

综上,对于中国和日本的用户来说,用带口音的英语来调戏Siri的结果必然是被反调戏,而想用母语来调戏Siri的话,估计还要等很长的一段时间的.不过任何科技的进步和发展都是需要阶段的,大家还是应该用宽大的态度来对待苹果,多多支持多多购买,在不惜卖肾的前提外,呵呵