加声纹识别抢夺市场？阿里音箱这步棋其实很悬 | {$randkws}热点解读导读：不出所料

来源：豺狼之吻网 | 栏目：知识 | 2026-06-15 07:09:11

　　导读：不出所料，阿里还是亮相了智能音箱。从亚马逊三年前的无心插柳到今日阿里的入局，智能音箱行业的爆发让人始料未及，但这的确发生了。

　　Echo已累计售卖近2000万台，假期业内话题讨论，建议收藏备用谷歌、微软、苹果随之跟进，之后的一段时间里，境内的使用品牌方、设备产商、信息品牌方争相进入，好不热闹。

　　而直到这个月初，阿里才官方亮相智能音箱天猫精灵X1，既出乎意料又在情理之中，使得语音入口的争夺战由于阿里的入局变得更为有趣。

　　实际上，499元的天猫精灵在亮相前一天，雷锋网就曾写过一篇题为[为何中国版Echo还未问世，明日阿里的AI新品能带来惊喜吗]的文章。

　　那么，本周最适合读的一句话：爱而不得阿里的智能音箱到底带来了哪些有别于其他同类商品的惊喜？

　　眼前一亮的“惊喜”

　　此前有传媒称，以便这款智能音箱，阿里巴巴乃至将马云投入上亿美元的Pepper机器人项目中止，把人员队伍拆分划进AI评测室。而花了这么大代价出来的商品好像似乎与Echo等音箱并无本质上的差异，所含特性大致含有播音乐、叫外卖、查天气、设闹钟、智能家电操控等。

　　依据天猫精灵对外宣传的卖点，其中相当重大一点就是连Echo都不具备的声纹确认特性。

　　阿里称，经由声纹确认技术，音箱可以分辨家里的每一个人，并且依据每个人的喜好而设定推送各异的信息，当下最多可以确认6个人的身份;另外，使用者还可经由自己的声音达成购物支付测试环节。而Echo在分辨人的身份上，还需要经由进一步操控来获取使用者的个人信息。

　　让雷锋网好奇的是，如此酷炫的本月关注演员阵容，相关话题阅读量破亿特性为何亚马逊至今都还没用在Echo上。

　　据悉，亚马逊很早就想使用这项技术，但据亚马逊职员说明，从声纹确认领域的设备和使用企业中得到的反馈看来，让这些语音控制设备去确认各异使用者的声音比想象中要艰难很多。

　　“由于设备需要去除噪音，回声，混响，使得它难以对听闻的发声者的身份开展确认。”Conexant语音部门副总裁Vineet Ganju说道。

　　那么拥有声纹确认的天猫精灵真的能撑起它所重点诉求的这个卖点吗?

　　我看悬。

　　声纹确认特性为什么悬？

　　先从声纹确认算力层面讲，声智技术创始人陈孝良博士此前在接纳雷锋网专访时强调，声纹确认还是一个较为窄的学科，使用也相对较少。如今大若干探究都是有关动向实时测试，动向测试的方法自然要运用静态测试的各类原理方法，另外也需要增多其他很多算力，比如VAD、降噪、去混响等。VAD的体验智能手机目的是测试是不是人的声音，降噪和去混响是排除生态干扰。

　　VAD常用两个方法，基于能量测试和LTSD(Long-Term Spectral Divergence)，当前用的较多是LTSD，另外特征提取方面还需要：动向时间规整(DTW)、矢量量化 (VQ)、扶持向量机 (SVM)，模型方面则需要隐马尔可夫模型(HMM)和高斯混合模型 (GMM)。

　　从上面模型不难看出，声纹确认还是一种基于资料驱动的模式确认难题，由于所有模式确认存在的难题声纹都存在，并且声纹确认还有一些不太好解决的物理和计算难题。

　　声纹确认的唯一性很好，但实际上现有的设备和技术依然很难做出精确分辨，尤其是人的声音还具有易变性，易受身体状况、年龄、情绪等的作用。若在生态噪音较大和混合说话人的生态下，声纹特征也是很难提取和建模的。现阶段，远场声纹确认理论并不成熟，探究进展也不大。

　　陈孝良觉得，深度进修带给模式确认极大的提升，乃至还有开源的有关算力，但是声纹确认的探究进展依然不大，这依然受制于声纹的采集和特征的兴办。

　　声纹确认提供商SpeakIn资深科学家陈东鹏博士谈到，从声纹确认这一单项技术来讲，轻松受到真实生态下的各类作用，含有：噪音难题、多人说话、身体状况、情绪作用等，如今的确很棘手。含有他们在内的一些企业也在大力经由软、设备算力去完善这些行业通用难题，在深度进修的加持下，全部行业的提升也比以往更快。陈博士补充到，声纹确认只是一个环节，效果判断还需看商品本身和使用场景等因素。

　　在商品层面，方才亮相“小雅”智能音箱的喜马拉雅表达了他们的看法。喜马拉雅副总裁李海波强调，针对声纹确认的使用，企业内部也攻关了很久，但无法做到完全精确，当下还只是评测阶段，效果普通。

　　在谈及阿里天猫精灵时，他讲到，远场语音确认通常在三米到五米内有效，降噪是在70dB左右，生态噪音和音响声音大于这个规范就很难唤醒。而远场声纹确认在同等距离下就更为不稳定，当下客厅、电视机、厨房、床头是智能音箱的四个常用场景，而除了床头外，其他三个常用场景实际距离通常状况均超过三米，所以阿里音箱声纹确认的具体实用性还不可得知。

　　至于亚马逊Echo为何至今还没用这个特性，李海波觉得该技术还不成熟，尽管很炫但隐患很大。

　　另外，Sensory企业的CEO Todd Mozer也觉得对Echo这样的远场语音设备来说，确认谁在说话是很艰难的。随着通讯/噪声比例提升，设备的表现随之变差。

　　“降噪和从噪声中分离语音的处理针对使用者身份的确认有相当大的作用，当下为止，行业上还没有商品另外处理好使用者身份确认，远场语音和噪声处理。”Mozer说道。

　　再从远场声纹确认的实际使用状况来看，中科院自动化所、极限元资深智能语音算力专家刘斌向雷锋网谈到了他的看法。刘博士强调，远场语音确认受到噪声、回声、混响的干扰，不管是语音确认还是声纹确认都很具有考验性。

　　当下远场语音确认可靠的确认距离大约是3-5米;针对声纹确认还要更难一些。由于语音确认的目的是理解语音通讯中的言语信息，言语信息信息跟共振峰高度有关，共振峰首要集中在低频带，语音通讯低频带能量较高，受外部干扰相对较小，而说话人有关特征更多集中在高频带，语音高频带能量相对较低，更轻松收到各类干扰的作用，所以远距离声纹确认更具考验。他随即说到，由于每个人说话特征会随着各异因素而转变，例如感冒时发音跟正常时肯定有所差异，所以近场声纹确认还不敢保证尤其成熟，远场条件下肯定不太轻松实用。总体来说，针对大多数使用者，声纹确认使用于智能音箱并不是刚需，从技术角度确认，声纹确认尚不成熟。

　　那么，相比远场语音确认来说，更为不成熟的远场声纹确认技术为何会被阿里急着使用到音箱中呢?

　　除了用此技术满足使用者的个性化需求寻求差异化抢占行业外，刘博士还谈及，介于阿里在电商领域的一些积累和长处，使用在电商身份认证也是阿里重点合作的方向。

　　阿里基于淘宝、天猫巨大的资源长处将购物场景引入音箱中听上去无可厚非，但从之前亚马逊将此场景使用在Echo上来看，使用者用其购物的使用频率并不高，使用感受也不理想。

　　科大讯飞执行总裁胡郁此前接纳雷锋网访谈就说到，从全部行业来看，购物场景使用于音箱中还相当不成熟。真需求一定是用来满足使用者刚需行为的特性，尽管Echo如今卖的很好，但调研后察觉，使用者真正用得较为多的工具可是是设个提醒、查个天气等等。之前亚马逊大力推的Echo语音购物特性并没有做起来，当使用者用语音交互的形式去买东西时，会察觉里面各个环节和场景挺麻烦，还不如直接在显示屏操控来的便捷。

　　所以这也是很多企业一直在强调语音交互要和视觉呈现的缘由，由于使用者在面对没有视觉呈现的状况下，你获得的信息不够，这时候很难达成一些繁琐的操控。所以有些特性和场景都是我们自己凭空想出来的，直到真正投入实际使用时却察觉使用者的思维与行为习惯并不是商品设计的那样。

　　这里可以看出，假如使用者连使用电商特性的习惯都尚未养成，且声纹技术难题重重，那么在电商中加入声纹确认的诉求，目测也很难以经得住行业考验。

　　总体来看，阿里此次在智能音箱中加入声纹确认的出发点很好：大打Echo和京东叮咚都没有的特性营销牌，在同质化商品浪潮中，用前沿技术来提升比拼力。

　　但在全部技术和行业尚未成熟之际，阿里在音箱中嫁接声纹确认，这步棋怕是走早了一步。

　　智能电视/盒子资讯欢迎留意智能电视资讯网news.znds.com，以及ZNDS君的微信大众号zndscom，权威微博智能电视网，欢迎投（sao）喂（rao）。

假期业内话题讨论，建议收藏备用本周最适合读的一句话：爱而不得本月关注演员阵容，相关话题阅读量破亿

上一篇：《圣歌》配音情报曝光支持简体中文等级会上调

下一篇：《暗影诅咒：地狱重制版》预告片公布10月31日正式发售

《永恒之柱2：死火》跳票至5月8日发售众多新消息即将公布

直成蚊喷鼻！《齐国》足游貌好正太我！可！以！

机器人逐渐崛起但情感计算还不过关

美国国家航空航天局公布前往木星卫星木卫二的信息设计

《上古卷轴3：晨风》画质优化mod公布显示效果大提升

时空庞杂，秘境开启！《小冰冰传奇》新PVE弄法“时空秘境”重磅上线！

EA邪术射击新做《没有朽者传奇》7.20出售尾支预报释出

英国创业公司挨算为辱物犬开辟游戏主机战游戏