乐学京东 2023-09-24 17:15:02

一文看懂语音合成：模拟人类语言，暗藏哪些商机？

语音合成技术给我们带来了很多惊喜，你知道自己每天都在与它们打交道吗？而开车时的导航就是语音合成的一种。虽然目前的"它们"只会相对机械的朗读文章，但可以肯定的是，语音合成技术已经走出实验室，开始商用，其潜在的巨大市场已露出曙光。

我们的身边总是人声鼎沸。

婴儿牙牙学语，男女互诉爱意。在肺部、气管和声带的共同作用下，声音出现，喉内肌肉协调作用下，我们说出能够代表自己想法的字符，再赋予其愤怒或喜悦或悲伤的情感，人类的语音就此形成。

18世纪末，一个因土耳其行棋傀儡的骗局将在多年后臭名昭著的发明家沃尔夫冈·冯·肯佩伦，花费了人生最后20年的时间，试图模拟人类的语音。他做了一个布满孔洞的空箱，空箱连接着一个奇异形状的鼓风机，鼓风机被压动后将使得内置的簧片振动，这一过程模拟了人类的发声，也确实发出了声音，而这也成就了人类最早的语音合成机械之一。

让机器更像人类，是无数科学家的梦想。这样的梦想被多方位的推进，从机器的外形上、内核的思考运算上，以及对外表达的说话上。

如今，电子设备取代了空盒子，算法则比簧片更能够协调发声。在技术发展下，声音的波动被计算机捕捉、计算、指引，最终发出声音。这一项带着前人梦想的技术，不再单单出现在和小说里，也承载起了巨大的市场走进千家万户，这就是语音合成。

从Siri开始的热潮，语音合成潜力无限

同时，Siri的热潮也拉开了语音合成技术运用的大门。

2014年微软推出了"小娜"与"小冰"，这是将Siri所拥有的语音识别技术及语音合成技术分开来，小娜负责理解复杂的口语指令并进行执行，而小冰主要能够和人类友好地聊天。

随后，这样的运用逐步增多：2014 年底，亚马逊发布了 Echo 智能音箱，语音助理 Alexa也随之亮相；一年半后，Google 也发布了第一代智能音箱 Google Home 和语音助手 Google Assistant。

国内的巨头也不遑多让，京东叮咚智能音箱、天猫精灵智能音箱、小爱系列智能音箱、小度智能音箱，也纷纷进入了国人的家居生活。

Siri的热潮同步开启的，不仅仅是语音合成技术在硬件上的应用，也包括一系列更具想象力的交互场景，带来了巨大的商机。

2015年春节，本就搭载了语音导航的高德地图与郭德纲合作，推出了高德地图欢笑版。用户打开高德地图，不仅能够听到导航播报，还能听到郭德纲的极具特色的段子。这一次尝试，让高德地图一度跃至苹果App Store榜单第2名。

在今年新冠肺炎疫情期间，"宅经济"大行其道，"听书"市场也快速爆发，有声阅读成为新的阅读潮流。

除此以外，短视频中的AI配音，让视频内容者省去大量配音时间；对已故知名艺人的声音采集，实现过去与现在的交互，圆了一代粉丝的梦想……

我们可以看到，语音合成技术的未来拥有巨大的想象空间，根据赛迪智库数据，预计到2021年智能语音市场规模将达195亿元。在这其中，智能语音就由语音识别技术（ASR）和语音合成技术（TTS）共同组成。

而这两项技术也正在被头部企业迅速推进，市场之下，语音合成已经不仅仅代表人类过去的梦想，更是代表着更"大一统"的科技格局，毕竟，这一技术改变着人类与机器的交互方式，也将改变未来人类的机器使用习惯，代表着全新的机会与入口。

从过去到现在，语音合成技术一览

1773年，俄国科学家、在哥本哈根生活的生理学教授克里斯蒂安·克拉特齐斯坦（Christian Kratzenstein）制造了一个特别的设备，通过共鸣管和风琴管的连接，几乎可以完美的发出 a、e、i、o、u 这五个元音。

十多年后，前文提到的沃尔夫冈·冯·肯佩伦也制造了一台类似的机械声学语音机器。随后，多位发明家基于这一机器进行改进，都是试图通过物理机模拟人说话发音。

这样的尝试已经令人难以想象，不过，即使这样的物理机发展得登峰造极，也无法模拟出我们说出的每一个音节、无法拥有人说话的音质，也无法停顿、无法带有情绪。

因此，另一种方式出现——拼接系统，让说话人录制语音存入系统，在合成语音时选择对应的片段进行拼接、合成。这样的拼接系统能够相比物理机极大地接近人声，虽然拼接处的瑕疵难以消除，但是随着如今大数据时代的来临，大语料库的出现，让拼接出的语音逐步真人化，直至如今依然有商业系统在使用。

基于参数的合成技术的诞生背景则是基于神经网络架构的深度学习方法的飞速进展。当时，对语音的识别不再是识别一个简单的词和短词组，而是基于统计的方法，运用声学模型帮助计算机认知每个音素单元的声学特征、运用语言模型帮助计算机实现对人类用词习惯的认知，最终给到用户最高可能性的连接。在这其中，典型的模型是隐含马尔可夫模型（HMM），用来描述如何在可变长的时序特征序列上打词标签。

2017年3月，行业的引领者Google 提出了一种新的端到端的语音合成系统：Tacotron。端到端语音合成是在参数合成技术上演进而来的，把两段式预测统一成了一个模型预测，即拼音流到语音特征流的直接转换，省去了主观的中间特征标注，克服了误差积累，也大幅度提高了语音合成的质量。

然而，为了实现真正像人一样的发音，语音合成系统必须学会语调、重音、节奏等表达因素，这一问题，Tacotron也并未解决。

谷歌曾共享了两篇新论文试图解决这一问题，第一篇论文《Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron》介绍了"韵律学嵌入"（prosody embedding）的概念。论文中为 Tacotron 增加了一个韵律学编码器，该嵌入捕捉包括停顿、语调、语速等在内的音频特征可根据一个完全不同的说话者的声音生产语音。

第二篇论文《Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis》则在上一篇论文的架构上进一步展开，并且创新性地提出了一种建模潜在语音"因素"的无监督新方法。这一模型之下，学习的不再是时间对齐的精确的韵律学元素，而是较高层的说话风格模式，并且可以迁移于任意不同的短语之中。

如果论文提到的模型实现，那么我们便可以迫使 Tacotron 使用特定的说话风格，不需要参考语音片段，并能创造出语音长度多样化的不同语句，并带有情绪。

在不远的将来，或许我们就将听到，来自机器的人类声音。

国内：积极商用，进展瞩目

在语音合成的重要研究中，因为国内起步较晚，所以我们很少看到突破性的技术发展。但是，即便停留在艰难的探索初期，巨头们之于语音合成仍旧趋之若鹜。

我们也惊喜地看到，不少企业在近期通过语音合成的商用落地，展现出了自己的技术实力。

① 京东数科：AI主播"小妮"上岗

京东数科基于京东多年在人工智能、大数据、云计算等领域的技术沉淀，在2018年就开始组建机器人的团队，研究覆盖生命科学、传感器材料乃至运动力学与人机交互。

在全面的机器人开发体系下，今年5月，京东数科推出了令人瞩目的AI主播"小妮"，这是京东数科自主研发的AI虚拟数字人产品首次亮相。

小妮的真实是全方位的，在听感、表情、头部动作乃至口型上，小妮都极像真人。从文字到语音，小妮通过自研的轻量级对抗语音合成技术进行转化；而小妮特色鲜明的声音及极具真实性的呼吸和停顿，则是来源于在多人数据上结合深度神经网络进行个性化建模……

更为重要的是，小妮的出现打通了语音、图像、视频，在语音生成视频的阶段，她的形象同样真实。因为京东数科AI实验室利用对抗生成网络来还原更真实的表情，通过3D模型运动追踪技术来确保AI主播在说话时口型准确、表情细腻、头部运动自然。

而除了主播领域以外，AI虚拟数字人还可以用智能客服及招聘领域。在未来，我们可以预见到，AI虚拟数字人在其他高重复性场景的更多运用可能性。而伴随着京东数科全面的机器人体系研发技术的进展，或许也将出现超乎我们想象的AI运用。

② 科大讯飞：为多家企业提供底层技术支持

早在之前，科大讯飞就推出了讯飞录音笔、智能鼠标、阿尔法蛋等涉及语音交互的产品。今年，来自科大讯飞地一款彩色墨水屏阅读器正式面世，一方面，阅读器可以进行常见的新闻播报、语音读书，满足用户的基础要求；另一方面，阅读器结内置了神秘AI主播，可以对话用户、助力用户解决问题。同时，科大讯飞也为多家企业提供底层技术支撑，覆盖智能手机、智能汽车等多个领域。

③ 腾讯云：语音累计音色种类达24种

而对于拥有国内最大流量池——微信、QQ的腾讯而言，这家企业则选择为内容创业者提供服务。

今年9月，腾讯云语音合成团队正式开放面向全量用户的合成音频平台，该平台能够帮助用户在零门槛的情况下实现语音合成技术的运用，用户只需要直语音合成控制台上生成和下载文本对应的音频文件即可。该功能的侧重点是帮助内容创作者在公众号、短视频、小视频等内容上更简单、快捷地插入对应所需的音频文件。同时，腾讯云还发布了全新地11种音色，其中甚至包括粤语这样的方言在内，目前累计音色种类达24种。

④ 百度：百度大脑开放全栈语音引擎能力

作为将AI作为战略进行投入的百度，在语音合成上的推进也不容小觑。

去年，已经开放三年的百度发布了语音引擎。这是一套非常全面的系统，覆盖内容非常广泛，包括硬件模组、开发板以及语音交互场景解决方案等。在这其中，百度也专门围绕语音合成的成功进行了发布，推出了6个在线语音合成精品音库和5个离线语音合成精品音库。

未来语音合成将更接近人类的语言

立足现在，我们不禁畅想，未来的语音合成将是什么样，又将出现在哪些地方？

在技术上，毫无疑问，未来的语音合成将更接近人类的语言。一个理想的语音合成系统由三部分组成：文本分析、韵律生成和合成语音，而在这三方面，行业的发展都还有待提高。

在这其中，韵律生成是行业面临的共同问题，如何可以让语音合成更像人类？更具表达力？作为声学模型，还有大量个性化、情感化的变化因素需要学习。而值得一提的是，语音合成技术的复杂度也需要降低，从而实现更广度地运用。我们也相信，随着大量语料的有效使用，这一切问题也都将解决，未来，语音合成必将更加"传神"。

而随之而来的，我们的生活也将被改变。

一方面，在科技带来革新的同时，传统也将受到冲击。在上文中，小妮被运用与客服以及招聘的部分环节，那么很明显，在不远的未来，具有重复性的语音性质的工作将受到巨大影响。

而另一方面，更为智能的未来也将到来，在将来，人与机器的交互方式或许将被彻底改变，到那时，全新的商业机会也将藏于其中。

为了迎接这一时代，巨头趋之若鹜，而普通人也同样该砥砺前行。

#智能语音##语音合成#

2017年11月15日，科技部在京召开新一代人工智能发展规划暨重大科技项目启动会。会上宣布首批国家新一代人工智能开放创新平台名单：
依托百度公司建设自动驾驶国家新一代人工智能开放创新平台，依托阿里云公司建设城市大脑国家新一代人工智能开放创新平台，依托腾讯公司建设医疗影像国家新一代人工智能开放创新平台，依托科大讯飞公司建设智能语音国家新一代人工智能开放创新平台。各开放创新平台代表和产业技术创新联盟代表分别发言，表示愿意为我国新一代人工智能发展贡献力量。
2018年9月，科技部宣布依托商汤集团建设智能视觉国家新一代人工智能开放创新平台。
2019年8月29日，在上海举办的2019世界人工智能大会开幕式上，科技部李萌副部长发布了新启动建设的10家国家新一代人工智能开放创新平台：
依托上海依图网络科技有限公司建设视觉计算国家新一代人工智能开放创新平台；
依托上海明略人工智能（集团）有限公司建设营销智能国家新一代人工智能开放创新平台；
依托华为技术有限公司建设基础软硬件国家新一代人工智能开放创新平台；
依托中国平安保险（集团）股份有限公司建设普惠金融国家新一代人工智能开放创新平台；
依托杭州海康威视数字技术股份有限公司建设视频感知国家新一代人工智能开放创新平台；
依托北京京东世纪贸易有限公司建设智能供应链国家新一代人工智能开放创新平台；
依托北京旷视科技有限公司建设图像感知国家新一代人工智能开放创新平台；
依托北京奇虎科技有限公司建设安全大脑国家新一代人工智能开放创新平台；
依托北京世纪好未来教育科技有限公司建设智慧教育国家新一代人工智能开放创新平台；
依托北京小米移动软件有限公司建设智能家居国家新一代人工智能开放创新平

打开京东阅读里先下载一本书，点开图书，点图书中间部分，跳出“阅读设置”，在右上角有一个小喇叭的图样，点小喇叭，会通过——PP助手——下载：讯飞语记，下载“讯飞语记”好后，就可以再点小喇叭，下面就会显示出“离线朗读”和“在线朗读”，这时如果点“离线朗读”（当变成红色字样）后，再点有“声音”就可以下载声音了。下载后，再选自己喜欢的声音就行。不过好象有些声音是默认的，貌似不能删除。

提起科大讯飞，第一个印象便是语音识别。

实际上，硬币的另一面，科大讯飞在基于人脸识别的智能安防市场获得的成绩也可圈可点。

据科大讯飞2018年半年报显示，其经营期内营业收入为321亿元，归属上市公司股东的净利润为13亿元。

同时，它的全资子公司讯飞智元营业收入为108亿元，营业利润为102亿元，净利润为83484万元。

也就是说，讯飞智元的净利润已经占到科大讯飞净利润的半数，高达642%。

雷锋网了解到，作为科大讯飞全资子公司，讯飞智元的主营业务包括信息工程（大数据城市社管云平台）及音视频监控（嵌入式硬盘录像机等数字监控设备销售）等。

而这，与海康、大华等传统安防公司所做业务吻合度较高。

打开讯飞智元官网，点击 产品与解决方案 一栏，视频与安防、交通超脑等AI场景赫然在列。

就视频与安防版块，讯飞智元也提供了包括讯视天眼、天眼人像系统、结构化系统、视频智能应用一体化平台等各类产品及解决方案。

据悉，目前这些产品及解决方案已经落地至合肥智慧警务云、亳州市公安局交警支队新建道路、蒙城县视频数据平台及智能交通、涡阳县视频数据平台及智能交通等项目中。

在具体的系统功能上，其所提供的能力与市场主流玩家大同小异。

以合肥智慧警务云为例，讯飞智元也是将人脸识别、视频结构化技术、警务大数据相结合，解决海量视频数据的实时分析问题。

在这其中，讯飞智元认为他们的差异化优势可以体现在三点：1、语音调度；2、城市多元化且智能化的交通信息服务体系；3、城市非现场执法体系综合应用模式。

据佳都科技市场业务部总经理张新房统计，2018年讯飞智元斩获了11个重大项目，合同金额55亿人民币，绝大部分项目都在安徽省境内，具体包括：

由此来看，科大讯飞大力推进安防已是板上钉钉。

科大讯飞无疑是智能语音市场的龙头企业。但目前整个行业的语音技术落地受到诸多掣肘：

中国科学院院士张钹曾指出，处理具备这三个限制条件的问题，机器的能力一定强于人类。但是如果缺少其中一个条件，就会存在很多未知。而NLP正是一个不确定、不完全的知识和信息、开放且非特定化的课题。

语音交互本质上是人与机器的主动交互，因此用户体验是最为重要的因素之一。而用户体验更多体现在，用户发出交互信号后，机器能否给予准确的反馈。

截止目前来看，用户在远场、噪音大、语音指令文本复杂的情况下，其反馈结果仍存在不少问题。

通用场景中的语音识虽存在诸多问题，但仍不影响以科大讯飞为代表的语音识别企业们，根据特定场景去推出特定的解决方案提升识别率和鲁棒性。

科大讯飞总裁胡郁曾在接受雷锋网采访时提到，语音识别选择的场景存在一定的优先级，他判断语音交互在电视、机顶盒和冰箱产品上的应用会最先普及起来，然后是手机、机器人，最后是VR。

现阶段科大讯飞已针对不同的场景/产品，推出了多类更合适的语音方案来匹配软硬件产品。

与此同时，除了语音外科大讯飞也在重点布局计算机视觉技术，更是在去年招募来知名计算机视觉专家李世鹏出任AI研究院联席院长。

目前科大讯飞将主要业务分为八大部分，从最新的财务报表中营业额高低来划分，包括教育领域、智慧城市、政法业务、开放平台及消费者、汽车、智能业务以及其他。

作为科大讯飞第二大营收领域的智慧城市，计算机视觉技术在其中大有可为，安防蓝图也随之清晰。

此外，科大讯飞陆续投资了商汤科技等公司，进一步完善自己的计算机视觉生态。

计算机视觉能力不断加码的讯飞，其安防竞争力无疑变得越发愈发强劲。

但它除了面对海康、大华等传统安防企业和AI公司外，还要面对来势迅猛的互联网巨头。

百度在2018年正式推出安防监控相关解决方案，利用人脸识别技术，对静态人像库、动态视频流中的人脸进行精准识别，整合人脸跟踪与捕获、实时布控。腾讯优图实验室也推出安防产品“天眼”。

此外，阿里巴巴城市大脑的运行直接将这个巨无霸公司推进交通与泛安防领域。

众多行业人士向雷锋网表示，现阶段互联网巨头在AI安防项目的竞标过程中表现并不亮眼。

但To B大时代下的互联网企业，越发看重微小机会和过往认为不起眼的业务。

凯文凯利在《失控》一书中谈到，互联网行业的特点是巨头企业为了保证高利润率以及自身战略保守性，往往忽视边际端的业务。

而随着消费级互联网红利逐渐殆尽之际，互联网巨头开始下沉To B端，大力进军自己此前从不涉足的边缘性业务，并投入大量人力、财力。

云天励飞首席科学家王孝宇曾在雷锋网主办的中国人工智能安防峰会中讲到一个观点：互联网巨头很有可能是安防企业最大的隐形对手。

海康和大华的商业模式非常清晰，行业玩家非常清楚跟他们在哪些维度竞争。

互联网巨头的可怕之处在于，它是一个生态系统，它完全可以不在某些领域挣钱，但却可以在占有这个领域后，衍生出其他盈利模式。

360用免费模式淘汰了大部分杀毒软件公司，这之后其主要盈利方式则是通过360杀毒软件引流至搜索，从而利用广告盈利。

而在安防行业，有业内人士打比方，互联网企业甚至可以免费帮客户架设摄像头、服务器来采集数据。

过去互联网企业的AI应用，是为线上数据建模。

而随着视频监控系统的智能化和联网一体化，整个行业又产生对线下视频等数据建模的需求，实现城市大脑化。而为大规模数据建模的优势，正体现在互联网企业身上。

犹如科大讯飞语音业务受到互联网巨头的冲击一样，未来安防业务或许也不得不面对BAT。

泛安防业务之间的正面战场，将从安防公司与AI公司两大势力之争，进入安防公司、互联网科技与通信公司、云服务公司、AI公司四局鼎立的局面。

现在年营收数亿的讯飞安防，未来将如何布局？我们拭目以待。

而未来的整个AI安防市场，将会变成什么模样？

2019年3月23日，雷锋网将以此话题切入，举办第二届中国人工智能安防峰会。

本次大会以“城市大脑与边缘计算”为主题，汇聚以“海康、大华”为代表的传统安防企业，以“阿里、华为、微软、京东”为代表的城市大脑领导者，以“AI独角兽”为代表的人工智能新锐力量，为行业精英指明AI+安防的发展方向。

本次大会正在邀请的部分嘉宾：（近十位嘉宾已确认出席）

主办方：雷锋网 & AI掘金志

会议规模：1000人

地点：杭州滨江银泰喜来登大酒店

欲购买第二届大会的限时4折门票，点击 >2014年11月发布亚马逊低调发布智能音箱Echo，内测半年后于2015年正式发售，当年销量为250万台，16年销量520万台，超越传统音箱领头羊Sonos ，成为在线音箱行业霸主，一度在细分的智能音箱市场占据了99%的市场份额。亚马逊发布的智能音箱Echo 受到市场强烈反响以后，google在2017年5月发布google home，苹果在2017 年WWDC 发布智能音箱HomePod，国内厂商京东和科大讯飞合作推出叮咚音箱……一时间国际互联网和硬件行业巨头纷纷加入战局，争夺语音交互流量入口，带动了AI落地的一轮热潮。

智能音箱已经成为全球增长最快的消费级硬件。2017年6月苹果home pod发布以来，下半年至今，每月都有一两家科技公司发布智能音箱新产品或二代、三代产品。目前为止国内科技巨头BAT、小米，老牌电器厂商联想、苏宁，语音技术企业科大讯飞、思必驰，硬件技术创业公司出门问问、若琪等都陆续通过自研或合作的方式入局。

智能音箱的爆发离不开语音技术的支撑，掌握语音技术的有两类厂商。一是互联网巨头如Amzon、Google、BAT、苹果、微软等，二是专研语音交互技术的厂商如科大讯飞、思必驰等。语音技术厂商通过自主研发软硬件产品，或对外输出技术，赋能传统智能音箱厂商、内容和互联网服务厂商，获取用户和数据，建立平台生态。

1Amzon Alexa

基本信息： Amzon Alexa是亚马逊的智能虚拟助理和开放平台，2010年启动研发，于2014年11月和Echo同时发布。Alexa 具备语音技术能力，并通过运行独立的程序，称为“技能”（Skills）来实现不同功能应用(类似手机里在 *** 作系统上运行APP)，支持音乐播放、语音购物、智能家控、智能通讯等一系列功能。由于其先发优势与大量的落地产品，不论是从产品搭载数量和智能水平上，alexa都已远超其他技术厂商(CNET在CES2017的统计)。

开放情况： Alexa 2015年6月，亚马逊将Alexa开放给第三方开发者，发布了 Alexa Skills Kit（ASK）和Alexa Voice Service （AVS）两套开发工具包，让开发者能够更加容易开发Alexa的“技能”；并设有了风险投资基金alexa found专门扶持语音交互领域的初创企业，以及大学生开发竞赛Alexa prize。从2014年发布时的29余项技能，到如今近4w项技能，积极开放政策和不断优化的开发工具，使得Alexa拥有了远超其他技术厂商的海量技能。

应用范围：截止目前Amzon Alexa已陆续在全球38个国家开通（中国暂未开通），涵盖英语、德语、法语、意大利语、西班牙语和日语等6种语言（暂不支持中文）。除了搭载自家echo系列音箱产品外，Alexa也赋能sonos、联想、哈曼卡顿等音箱产品，amzon fire TV 等智能电视，amzon fire、华为mate9、HTC等平板电脑和智能手机，华硕、惠普、联想等笔记本电脑和PC，智能冰箱、智能灯、智能开关等智能家居产品，智能耳机、智能手表等可穿戴设备，以及包含福特、宝马、雷克萨斯、丰田等品牌的智能汽车。

2Google Assistant

基础信息： Google assistant是谷歌的虚拟助理，于2016年5月在谷歌开发者大会正式发布，支持语音交互，搭载在Google的智能手机和智能音箱中。

开放情况： 2016年12月，Google推出开发者平台Actions on Google，2017年4月发布了SDK（软件开发工具包）以便第三方开发者为Google assistant开发应用程序，并进一步扩展支持智能汽车和其他智能家居设备。Google assistant支持语音输入和视觉响应，可通过设备的相机识别物体并收集视觉信息。

应用范围：当前Google assistant已支持英语、日语、法语、德语、西班牙语等8种语言，预计2018年底将支持30多种语言，覆盖95%的Android手机(暂不支持中文)。除了搭载自家Google home系列音箱和Pixel系列智能手机外，Google assistant还赋能索尼、诺基亚等智能手机，松下、LG、Sonos等品牌的智能电视、智能机顶盒、智能音箱产品，联想、爱可视等电脑及沃尔沃等智能汽车产品。

3Microsoft Cortana

基础信息： Cortana是微软的虚拟智能助理，于2015年1月正式发布，逐步应用于搭载windows *** 作系统和Android/ios系统的移动设备。Cortana具备语音交互功能，并使用bing的搜索引擎信息回答问题，能够调用应用程序、查询天气、提供餐厅和景点推荐，控制智能家居。

开放情况： 2017年的build开发者会议上，微软退出Cortana技能开发平台，允许第三方开发者为cortana开发技能。

应用范围：截止目前cortana支持包括中文(简/繁)、英语、德语、法语、日语在内的近10种语言。Cortana已集成到微软众多产品，如Edge浏览器、windows10、车机系统、Skype(微软的即时通讯服务)，并赋能微软与harman kardon合作的智能音箱invoke等。

4Apple siri

基础信息： Siri（Speech Interpretation and Recognition Interface）是苹果的虚拟助理。Siri 公司创建于2007年。起初 Siri 只是 iOS 平台的一个应用程序，苹果在 2010 年 4 月收购了 Siri 公司并重新开发后，Siri 成为了苹果设备的内置软件，于2011年重新发布，并只允许在 iOS、macOS 中运行。Siri支持语音交互，可以完成数据搜索、天气查询、设置闹钟等许多服务。

开放情况： 2016年6月苹果开发者大会上开放了Siri接口，在IOS开发平台中新增Sirikit，支持开发者调用Siri展示应用内容。Siri目前暂无独立的技能开发平台。

应用范围：截止目前Siri支持包括中文(简/繁)、英文、法文、德文、意大利文在内的20余种语言，并赋能苹果全线产品，如iPhone、iPad、iPod、Apple watch、mac等。

1 科大讯飞

基本信息：科大讯飞成立于1999年，是国内最大智能语音技术厂商，在智能语音技术领域有着长期的研究积累，并在中文语音合成、识别、评测等多项技术上拥有国际领先的成果，与中国官方关联密切，堪称“中文语音产业国家队”。科大讯飞占有中文语音技术市场70%以上市场份额，语音合成产品市场份额达到70%以上。

开放情况：讯飞开放平台是全球首个提供移动互联网智能语音交互能力的讯飞开放平台，基于讯飞开放平台陆续推出讯飞输入法、灵犀语音助手、AI+教育、AI客服、AI医疗(语音电子病历、医学影像辅助诊断系统、智能助理等)、晓译翻译机、飞鱼智能车载系统、家庭场景的讯飞魔飞麦克风系统等是多宽人工智能产品。

应用范围：科大讯飞支持34种语言，包括中文各地方言，目前已赋能长虹、海信、康佳等国内大牌智能电视、GlassX、ZWatch等可穿戴设备，奥迪、宝马、奔驰、通用、福特、上汽、广汽、长安、吉利、长城、奇瑞等国内外智能汽车，智能音箱（京东叮咚音箱）、聊天机器人（小鱼在家）等智能硬件产品，窗帘、空调等智能家居产品，为包括滴滴打车、高德地图、QQ阅读等在内的超过60000个App提供智能语音交互服务，覆盖聊天通讯、工具、视频、新闻、导航等生活领域的方方面面。

2百度DuerOS · 小度

基本信息： DuerOS是百度的对话式人工智能系统，于2017年7月百度AI开发者大会上正式发布。DuerOS具备影音娱乐、信息查询、生活服务、出行路况等10大类目共200多项能力，用户可在不同场景下实现指令控制、信息查询、知识应用、寻址导航、日常聊天、智能提醒和多种O2O生活服务；同时支持第三方开发者的能力接入。

开放情况： DuerOS开放平台包括智能设备开放平台和技能开放平台，分别适应不同类型的硬件厂商和为开发者。为方便“上手”，百度发布了针对个人、产品厂商、特殊厂商的DuerOS套件，并融合包括声智科技、先声互联、Intel、Rockchip等第三方解决方案，上线了技能商店APP“小度之家”。

应用范围： DuerOS支持普通话、英语、粤语、四川话等多种语言，已赋能智能音箱、电视、冰等大小家电与智能家居产品，智能手机、手表等随身设备，车机、智能后视镜等智能车载产品，累计搭载5 000万设备，日活超过1000万，有1600万DuerOS合作伙伴，落地80多家主控设备，积累了超过10000名DuerOS开发者，DuerOS累计回答问题数已达24亿。

3小爱开放平台·小爱同学

基本信息：小爱开放平台(原水滴平台)于2017年5月对外开放语音能力与SDK，基于小米的硬件生态和海量数据，提供全球领先的语音识别、NLP等多项人工智能技术，为开发者提供一站式的人工智能服务。

应用范围：小爱开放平台能力已在小米电视、小米AI音箱、小米金服‘米小贝’等小米软、硬件产品中集成，为小米生态链中8500万台IoT连接设备赋能，虚拟助手小爱同学的日活跃用户也达1000万。

4AliGenie 语音开发者平台·天猫精灵

基本信息： AliGenie开放平台于2017年10月12日云栖大会发布，由阿里巴巴人工智能实验室发起的，面向企业/机构/创业者/开发者，将阿里巴巴在人工智能领域积累的技术以API或SDK等形式对外共享的在线平台，目前已经拥有涵盖影音娱乐、新闻资讯、购物外卖、家居控制、生活助手、儿童教育等的100多项技能。

应用范围: AliGenie开发者平台主要包括三大部分：精灵技能市场、硬件开放平台、行业解决方案，全面赋能智能家居、制造、零售、酒店、航空等服务场景

5腾讯云·小微

基本信息：腾讯云的智能服务系统和智能服务开放平台，帮助智能硬件厂商实现语音人机互动和音视频服务能力。微信AI团队自 2012 年起，就将语音输入、语音识别、语义分析技术等功能应用到微信中，腾讯云小微将微信的语音技术作为底层能力，故命名为“小微”，于2017年6月腾讯“云+未来”峰会上正式对外发布。

应用范围: 腾讯云小微包括硬件开放平台、Skill开放平台、服务机器人(智能客服)平台，结合腾讯社交关系链，覆盖家庭、车载、运动、酒店和儿童陪伴教育等众多场景。

6思必驰·DUI开放平台

基本信息：思必驰2007年成立于英国剑桥，创始人均来自剑桥，2008年回国落户苏州，是国内少有的拥有人机对话技术，国际上极少数拥有自主产权、中英文综合语音技术的公司之一。思必驰于2017年9月正式发布DUI(Dialogue User Interface)开放平台，以任务式对话为核心，兼具闲聊与问答功能，打造人性化交互。作为一个全链路智能对话开放平台，DUI开放基于思必驰智能语音语言技术的对话功能，并提供GUI定制、版本管理、私有云部署等开发服务。

DUI具备青囊(服务与研发支撑)、天机（大数据）、紫微（丰富的第三方资源）、玲珑(终端解决方案与环境)四大系统。DUI平台对接丰富的第三方内容，内置国内最专业的语音语言技能商店，具备深度数据可视化、个性化自定义、零门槛 *** 作，开发者通过DUI可实现全链路的高度定制，几乎可自定义每个模块。

应用范围: 平台已覆盖车载、家居、机器人、故事机、手机助手等多应用场景，提供智能车载、智能家居、智能机器人等解决方案，赋能天猫精灵X1、小米AI音箱小爱同学、联想智能音箱、小米板牙70迈智能后视镜等前沿智能产品。

1出门问问

出门问问是Google(谷歌)投资的一家中国人工智能公司，由硅谷华人科学家李志飞于 2012 年回国创立。拥有自主研发的语音识别、语义分析、垂直搜索、基于视觉的ADAS和机器人SLAM等核心技术。代表性的软硬件产品包括智能手表Ticwatch、车载智能后视镜问问魔镜Ticmirror、智能音箱Tichome、出门问问语音助手APP以及高级驾驶辅助系统问问魔眼Ticeye。

2 猎户星空

猎户星空拥有全套远场语音技术，自研全链路的远场语音交互系统“猎户语音OS”，已赋能喜马拉雅“小雅”音箱，美的、海尔、博联、海尔优家、欧瑞博等品牌的智能家居产品。小米AI音箱、小米电视，也应用猎户星空的TTS（语音合成）技术以及ASR（语音识别）技术。猎户星空自己音箱小豹AI音箱，接入微信支付、银联支付、融合区块链技术。

2017年猎户星空还获得了世界公认人脸识别“世界杯”的微软百万名人识别竞赛识别百万名人子命题有限制类（只使用竞赛提供数据）的第一名。2018年3月21日，猎户星空正式对外发布人工智能领域的机器人产品矩阵，在接待、售卖、儿童陪伴等多个场景落地。同时发布了猎户机器人平台 Orion OS ,集合了自研的多芯片系统，摄像机+视觉算法，麦克风阵列，猎户TTS，室内导航平台和七轴机械臂等，形成了完整的机器人技术链条。Orion OS现与微软、搜狗、高通、英伟达和锤子科技等建立了战略合作伙伴关系。

3 若琪Rokid

Rokid公司成立于2014年7月，隶属于杭州灵伴科技有限公司。总部位于中国杭州, 北京和旧金山分别设有研发中心，致力于机器人领域研究，专注于远程定向拾音/语音语义识别、人脸/手势识别、音响和投影系统等核心技术。Rokid现有PEBBLE • 月石智能音箱、AR眼镜Rokid Glass、智能机器人ALIEN·外星人等产品，Rokid智能家居机器人在2016年和2017年连续两年获得CES国际消费电子产品展创新大奖。

4 聚熵智能·DeepBrain

DeepBrain 2012年成立于上海，致力于研发人工智能产品，核心团队是来自于国内外名校的技术研究人才，为超过100家厂商提供深度人机对话能力，并与三星、华为、联想、中兴达成深度合作。DeepBrain在2014年发布了国内首款智能音箱——小智超级音箱，比 Echo 的推出还要早半年。其语义技能平台已进驻上千名开发者，开发了超过 1000 种以智能家居为主的语义技能。

5 搜狗语音

搜狗由搜狐公司创建于2004年8月3日，域名为Sogoucom，目的是增强搜狐网的搜索技能。2013年9月，腾讯注资搜狗，并将腾讯旗下的搜搜业务，输入法业务注入搜狗。2017年11月，搜狗在纽交所上市，腾讯目前持有搜狗4537%的股权；搜狐持有搜狗股权比例为3921%。搜狗语音技术研究于2012年启动，并在2013年6 月正式上线搜狗语音云开放平台，接入搜狗包括输入法、地图在内的全线产品，并推出搜狗语音助手，与Siri一样，搜狗语音助手在手机端上提供的交互体验并不能让用户产生足够的依赖性，产品的使用率并不高。2016年8月搜狗发布了语音交互引擎「知音」，2017年12月与四维图新、飞歌展开合作，推出飞歌智能车联网软硬件解决方案G8Ⅱ 后装智能车机，为2018年3月发布的小米电视 4A提供ASR语音识别能力，为会议平板厂商视源股份发布的首款智能语音平板 MAXHUB提供语音技术。

销量与市场占有率对智能音箱产品有着非比寻常的意义。因为智能语音技术刚刚落地，极其依赖用户数据的喂养，越使用才能越智能。

根据笔者估算，截止2018年Q1，全球智能音箱市场保有量占比如下所示。Amzon凭借其先发优势和形态丰富的产品，一骑绝尘，占领了71%的份额，Google以其完备的低-中-高产品矩阵和用户基础，抢夺12%的份额，天猫、小米分别凭借电商体系、智能家居生态与低价爆款策略占据6%、4%的份额，京东涉足智能音箱较早，品类丰富，也占据了3%的市场份额，apple的homepod在今年 2月9日才正式发售，且定价偏高，仍旧占据了1%，其他所有品牌占据3%。

作为智能音箱品类开创者，Amzon不断地优化音箱产品新能，持续创新。从场景和形态出发，陆续推出小巧低价的echo dot，带屏音箱echo show、闹钟音箱echo spot。既有促销爆款铺量，又有高端品类防守，具备了高、中、低三个档位完善的产品矩阵，各型号累计销量在3千万以上，是目前唯一销量破千万的智能音箱厂商，引领着全球智能音箱市场。

京东与科大讯飞联合成立的灵隆科技推出叮咚音箱，作为国内较早涉足智能音箱的厂商，从2015年5月开始，京东已经发售了一系列新品。整体产品线与Amzon相似，不断探索更多形态与场景，持续提供更多自定义功能，并以儿童教育音箱，切儿童早教市场。随着小米、阿里、百度的强势入局，京东也推出了高端带屏音箱叮咚PALY，低价叮咚mini2，抢夺国内市场。

2016年5月，在Amzon几乎垄断智能音箱市场之时，Google入场搅局，推出Google home，凭借其优雅的设计、背靠Google搜索引擎的智能问答和价格差异，曾一度占据了20%以上的市场份额，并在2017年10月推出低价的Google home mini和高价的Google home max，不断支持更多新技能和场景：接入更多智能家居设备、支持500w个菜谱抢占厨房，支持语音购物等。

小米作为国内领先的智能家居生态构建者，产品覆盖了耳机、移动电源、手环、插座、血压计、空气净化器、净水器、运动相机、平衡车、电池、床头灯、电饭煲等智能家居设备。小米于2016年底开始研发虚拟助手小爱同学，并在2017年9月正式发布了智能音箱小爱同学，除了强大的小米家居生态背景，小爱同学还因其机智的人设获得极高关注。2018年小米推出Q萌版小爱同学mini加入国内低价冲量大战。

阿里对新技术研发极为重视，在17年7月发布了天猫精灵x1，同时亮相的还有负责阿里消费级AI产品研发的阿里巴巴人工智能实验室，17年10月云栖大会正式宣布成立达摩院，网罗各个重点技术领域的专家人才，进行基础科学、AI芯片和颠覆式技术创新研究。18年3月推出天猫精灵M1曲奇，火眼支架，6月推出天猫精灵方糖，持续探索更多音箱形态，花式输出AI技术，包括图像识别、人脸识别、物体检测及情感反馈等能力。同时提高产品性价比，紧守音箱低价冲量的战场。依托阿里强大的电商网络，天猫精灵已成为国内销量最大的智能音箱品牌。

2017年2月百度全资收购渡鸦科技，11月发布了RavenH智能音箱，形状新奇色彩绚丽，带有可拆卸点阵触控板，对标高端音箱Sonos、Bose 和哈曼卡顿，售价1699。18年初联合老牌音响制造商DOSS（德仕）推出DOSS智能音箱，3月、6月陆续推出国内首款智能视频音箱599元的小度在家、89元低价小度智能音箱，在京东和天猫发售，凭借极高的性价比，在国内音箱价格战中尚有一席。

除了销量可见的主流智能音箱，国内外仍有不少智能音箱产品。如微软与哈曼卡顿联合推出的invoke，搭载了微软Cortana，Line与高通合作推出的Clova，以及国内中小创业团队的系列智能音箱，出门问问的Tichome、喜马拉雅的小雅音箱等等。随着智能音箱市场的逐步成熟，各类音箱或者会找到自己的位置，或者无声寂灭。

智能音箱除了提供核心内容资源消费功能，各品牌还深挖居家场景，开放平台，吸引第三方开发者，提供了越来越多的技能。智能音箱界独领风骚的Amzon Echo已经具备了超过3w项技能，从技能增长梯度看，2016年开始爆发式增长，随着Echo销量的增加，至今仍在不断攀升。超过3w项技能加持的Amzon比它的一众追随者更像一个语音 *** 作系统。
如同智能手机 *** 作系统的app一样，海量的语音 *** 作系统技能中，真正获得关注的还是少数，大量的技能成为僵尸技能，无人问津。因此其他智能音箱品牌，只要覆盖了高频、核心功能，提供更多资源、家控和创意功能，则无需畏惧Amzon恐怖的技能数量。
智能音箱产品功能趋同，主要分为内容技能、工具技能、互动娱乐三个大方向；功能面向核心场景及针对核心人群的核心功能趋向性逐渐显现。

用户关注度高的功能主要有音乐影视、生活助手、智能家居、游戏娱乐，其次是教育内容、趣玩搞笑、新闻，再其次是新闻、财经类功能；

工具技能用户口碑偏低，但有不可替代性；互动娱乐技能可替代性强，口碑和体验好的功能更受欢迎；内容技能评价均匀，重点在优质资源可得性。

摘录自ebay、Walmart、京东、天猫等电商平台的用户评论数据。

用户体验总结：

1）智能音箱产品整体受欢迎程度很高、用户接受度较高，评价矩阵皆为70~80%的5星好评；

2）用户对音箱产品唤醒、识别、解析等语音基础性能感知差异不大（可能由于个人拥有音箱品牌数量少于1个，对比不明显）；对音质、内容资源丰富度、“聪明程度(智能感与趣味性)”等较为敏感。

3）老人、孩子对音箱的满意度、喜爱度是重要消费决策因素。

4）海外用户对音质要求更高，对音箱的使用场景区分更鲜明，倾向于为不同居所场景配备多个音箱产品，对是否自带电池等要求不多；国内用户音质要求和鉴别水平不足，期望自带电池便携便移动。

5）用户期望唤醒词自定义、内容资源更丰富、资源内容相互打通。

1 ）音箱销量： 2017年全球智能音箱出货量3200w台，其中Amzon与Google以大约9:1的比例瓜分市场。Amzon 音箱销量量级已超2000w，铺货量和活跃设备数全球遥遥领先。截止2018年4月底，国内厂商销量以天猫、小米为首，量级在200w左右，百度、腾讯及众创业公司量级均在10w之下。具备生态闭环和技术平台的大厂商均有“高性价比铺量”的趋向，以低价占据迅速用户市场。据Canalys分析公司保守预测，2018年全球音箱销量将增长到5630台，美国作为主战场销量将达3840台，中国作为第二大市场销量可达440万台。

2 ）功能覆盖：智能音箱产品功能同质化明显，主要分为内容技能、工具技能、互动娱乐三个大方向；具备生态闭环和技术平台的大厂商正在将以语音技术为核心的AI技术平台打造成Android/ios式的 *** 作系统，吸引更多智能硬件厂商、独立开发者入驻；鉴于技术水平差距不明显和技能开发者的可转移性，技术、技能都不会是决胜的关键因素。

3 ）用户反馈：智能音箱产品整体市场接受度较高，评价矩阵皆为70~80%5星好评；用户对唤醒成功率、识别成功率、解析成功率等语音交互基础性能感知差异不大，对音箱的音质、内容资源丰富度、智能感与趣味性等维度较敏感；同时用户期望仍处于不断攀升的阶段，对音箱产品提出了越来越多个性化要求。