谈谈语音交互式产品设计

很难想象我手中的智能手机会变成一个能听会说的机器人,但这确实正在发生着。iphone 4s中出现了siri后,掀起了一阵语音交互技术的发展高潮,但经过人们一段时间的使用发现,siri的娱乐功能要大于它的实用功能,也有人说siri只不过是包装苹果设备的噱头而已。不管怎样,一项新技术的应用,开始肯定会获得极大的争议,就像史蒂芬孙驾驶第一台蒸汽机车被马夫们嘲笑一样,因为开始的时候蒸汽机车的速度确实连马车都赶不上,但是再看看100年后的今天呢?一切解放人类双手的技术必定是有前途的,所以我个人也很看好语音交互技术的发展。一项新技术都是在不断的应用过程中逐步完善和成熟的,所以将语音交互技术发展成接地气的应用是一项十分有意义的工作。

20130123050305433

中文siri们那些事

2012年,中文siri如雨后春笋般冒出来,先是讯飞语点、智能360,然后是搜狗语音助手,巨头百度在年末也发布了百度语音助手,群雄逐鹿语音交互产品市场,竞争尤为激烈。但这些“语音助理”产品的核心技术均在于中文语音识别技术,目前掌握该核心技术的有老牌的nuance公司(siri的技术支持者),以及科大讯飞,2013年初语音识别技术领域又杀出一匹黑马云知声公司,目前已经是搜狗的战略合作伙伴,据说老罗也考虑过使用云知声的技术。由此可见不仅在应用领域,在底层技术研发方面,语音市场也注定会竞争激烈。

语音助手的设计

要谈产品设计,首先要分析用户需求。语音转换文本即语音输入,解放了人的双手;文本转换成语音即语音输出,解放了人的双眼。语音的输入和输出再加上语义理解与分析,就构成了一个完整的“能听会说”的机器人。中文siri们都把自己定位为“语音助理”的产品角色,从产品名称来看都是一个拟人化的产品路线,比如搜狗语音助手、百度语音助手,讯飞语点目前也改成了“讯飞语点语音助手”,都试图让用户了解“助手”的产品概念。既然是拟人化的产品,我们就不妨从人身上来借鉴“优秀助手”的一些品质,比如理解准确、主动关心、随叫随到、忠心耿耿,等等。我个人认为语音助手的设计也需要有以下几方面的品质:

准确性:语音识别技术的精确性是第一道坎,用户说的话,助手最起码要能听得懂才行,这其中首先就是语音识别精确性,然后是语义理解的正确性。语音识别精确性是一道门槛,首先说中国话太复杂,除了普通话还存在大量的方言。另外就是说话的环境十分复杂,私密的环境下用户说的话音很小,嘈杂的环境下对背景噪声的区分又很有难度。

主动性:这是优秀助手的核心品质,还没等用户张口,助手便已经猜透用户的想法,这或许是此类语音助手的最高境界。大胆预测用户的需求并提前给予满足,我觉得这是语音助手下一步要做的。因为目前看来中文siri们最大的问题就在于缺乏主动性,”不搭理它,它就不搭理你“是目前的状况。语音交互技术赋予了产品生命,但只有和用户主动交互的时候,这个产品才能真正的鲜活起来。目前智能手机上集成了诸多的传感器,例如:方向传感器、距离传感器、三轴陀螺仪、光纤传感器、电子罗盘、重力传感器、磁力传感器等等。通过这些传感器,我们不难判断用户的使用场景,例如讯飞语点的车载模式,这是一个很好的功能,但是需要用户手动开启,这就不方便了。那么能不能够利用手机的传感器判断手机的运动状态,比如车载时运动速度基本会达到20km/h以上,这时候如果用户忘记开启车载模式,产品自己能不能自动打开呢?根据系统的时间,我们可以判断白天黑夜,休息日与工作日,比如早上起床随便说一句“主人早上好,今天天气怎么样,需要注意什么。。”此类关怀问候的话,多一些这样的主动交互,让用户感受到产品是活的,与产品产生感情,这样才能产生粘性,从一个单纯的工具产品成为用户离不开的助手。社交类产品是用户粘度最高的一类互联网产品,之所以粘度高是因为产品寄托了用户的情感联系,这是冷冰冰的工具类产品无法比拟的。

便捷性:最快捷地获取服务,目前的语音助手都是OS上面的一个app,我觉得app的形态大大限制了语音产品的能力。首先来说语音交互入口的问题,现在如果想和语音助手进行交互,必须先解锁——找应用——点开——点击麦克风——最后在说话,这样一个繁琐的步骤,这使得语音助手就像一个工具,如果我查询周边的餐馆,我直接打开大众点评就行了,干嘛还要你的语音助手,而且大众点评的数据也比较全。所以我一直觉得语音助手应该是一个OS级别的产品,google now和apple siri就是一个深度集成到OS的产品,用户可以通过快捷操作来调用语音服务。比如iphone4s长按中间的圆键来启动siri,android可以通过长按home来启动google now。所以,快捷性对于语音助手们十分重要。如果暂时没有能力做成OS级别的语音产品,用户直接通过launcher的锁屏,或者一些wight来启动语音助理也较为方便。搜狗语音助手正在超这个方向发展,在V1.4.0beta版中集成了launcher应用,用户可以在锁屏的情况下直接启动语音助手。launcher是android OS的第一道大门,我个人认为会是将来语音产品的必争之地。

截图0531

搜狗语音助手集成了launcher,锁屏情况下可直接进入语音服务。

另外还有一点,语音产品本来的目的就是为了解放双手的,但是目前的语音输入都需要点击麦克风后才能激活,这个设计就有点美中不足了。判断用户的语音输入需求,是不是可以通过手机的距离传感器呢,当用户把手机靠近嘴部的时候麦克风会自动激活,这样岂不是更方便一些。总之,我个人倾向于语音交互产品向OS发展,语音交互技术与OS深度结合后,才能使手机真正成为一个”能听会说“的机器人。

个性化:要让用户觉得语音助手是属于只属于自己的,最了解自己的。对于情感化和个性化的产品设计我觉得腾讯和360是做的最好的。语音助手走的既然是拟人化的产品路线,那产品形象就十分重要了。虽然搜狗的语音助手有一个卡通形象,但其实大家做的都不够好,讯飞就更差一些了,用户闭上双眼对于讯飞语点这个产品形象根本就没有感知。搜狗有卡通形象但是这个形象竟然和它的icon没有丝毫关联,这也是让人匪夷所思的。语音助手需要有个形象,但是这个形象不应该是产品经理定的,而应该是用户定的。除了产品形象,还有声音风格的选择,这些都是用户实现个性化需求的必要因素之一。通过个性化设置,用户可以创作出完全属于自己的语音助手形象,比如有人很喜欢林志玲姐姐,那我们为她提供一个相似的形象,相似的嗓音的讯飞语点又有何不可呢。总之个性化也是产品情感化的一部分,有了这些才有用户粘性。

截图03

360安全卫士这类工具产品都在试图通过情感化的产品形象来提升用户粘度

数据传输优化:糟糕的无线网络和昂贵的流量是当今中国的国情,而语音助手们又十分的依赖云,语音识别和语义分析都需要云计算的实现,所以无线流量在目前会成为语音助手的发展瓶颈。适当的利用离线数据功能,可以弥补这样的缺憾。这里想分享一些细节,搜狗语音助手和讯飞语点人机对话时都同时提供文本和朗读的交互,当用户发送query请求后,讯飞语点的文本信息和语音信息是同时从云端反馈到用户的,这样一来,当用户的网络状况不好时,文本信息和语音信息都无法被用户接受,这样用户体验就会很差了。而搜狗语音助手这点做的比较好,在网络状况不好的情况下只加载文本不加载语音信息,这样至少用户有反馈,体验就不会太差。

关于语音助手的产品设想就先写这些吧,总之目前的中文siri们距离接地气还有比较长的路要走,让手机变成能够和用户语音交流的机器人是一个美好的愿景。到现在为止,没有什么机器比手机能更长时间陪伴我们,更多地储存我们的个人信息了。或许有一天,手机会成为我们人生的第三位伴侣,哈哈,或许会惹得我们的另一半很不高兴,这点很难说啊,还不知道会造成什么社会问题。

 

发表评论

电子邮件地址不会被公开。

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

使用新浪微博登陆