咨询:029-85396651

详细内容

CONTENT

好风凭借力 2017年智能语音风口将至

浏览次数:310次    发布时间:2017-04-18

  语音交互是最有效的沟通控制方式,帮助用户把家中的各终端设备无缝连接起来,让用户随时轻松控制家电或天气、新闻等信息。就像众多科幻电影中显示的那样,未来语音操控及识别技术注定成为智能家居产品实现人机交流的主导。
 
  智能语音的风口真来了?
 
  投资界流行这样一句话:投资要投“第三眼美女”,第一眼、第二眼美女交往的门槛和成本都比较高,而只有第三眼美女是属于大众的,对应到产品上,就是任何技术产品都要到第三代才能被大众广泛接受,才能长时间的存在下去。
 
  人工智能技术从50年代的控制论与早期神经网络,走到如今的AlphaGo、Master,现在正好在经历技术发展的第三个阶段。50年代末是一波高潮很多死掉了,到70年代的时候国家自然科学基金会都不支持了。80-90年代又活跃了一次,但许多认知科学家强烈反对当时很火的一个人工智能概念“物理符号系统假设”,认为身体是推理的必要条件,加上科研经费的削减,又死了。今天正好是第三波,理论上机遇比较大。
 
  第三代技术应该足够下方到消费领域,接下来我们看看各电视厂商智能语音技术具体的应用情况如何。
 
  TCL:发布会上TCL着重演示了人工智能助手“小T”,具备感知、认知、服务、学习的三大特性。而“小T”是TCL集团与腾讯、阿里在人工智能及云服务上进行数据打通,实现资源共享的结晶。
 
  长虹:推出以电视机为中心的人工智能平台AI Center。据悉长虹除了与IBM、科大讯飞等达成合作,也与杜比、腾讯、华帝,以及清华大学、西安交大、微软、中科院等结成“人工智能产业联盟”。
 
  微鲸:微鲸科技推出了微鲸智能语音电视2.0高端产品醉薄A系列,并宣布微鲸全线产品也将进入2.0时代。其与科大讯飞与美国麻省理工媒体实验室、微软等,分别在语音遥控、多媒体交互领域、人脸识别等方面达成了合作。
 
  乐视:从乐视一代超级电视开始就搭载有语音功能,超级电视语音技术经历从合作到自主研发的过程,乐视的超级语音技术,不仅包括语音识别和语义分析,其自主研发的语音合成TTS技术已全面上线。
 
  几乎每一个厂商都在强调对语音认知已从功能层面上升到人工智能。而且背后还有巨大的合作团队,与知名的语音技术和人工智能平台密切合作和研发。这种全军出击的局面,很难否定智能语音在电视行业的发展盛况。但盛况并不意味着技术和商业的足够成熟。
 
  语音识别究竟有多难?
 
  为什么智能语音技术发展了这么长时间,还是做不到对语音和语意的精准识别呢?我们有必要先了解一下语音识别是怎么做到的。
 
  声音实际上是一种波纹,就像自然中的光谱一样。如果要对声音进行分析,就要先把声音的这种波纹切分成很很多小片段,就好比一个视频由很多帧画面构成,画面又由很多个像素点构成一样,语音也可以切分成很多帧。所以语音识别的大概流程可以归纳为以下几点:
 
  采集:声波信息分段采集
 
  编码:把每一单位长度的语音变成多维向量(内容信息)
 
  训练:从数据中学习对语音的判断,而不是用人工的规则。 用数据库和建立模型让语音系统自我学习(如果遇到方言,需要建立独立的一套系统)
 
  解码:用训练好的模型组合起来就可以通过判断新的语音向量,来识别语音了。
 
  反馈:将分析结果通过设备播放出来。
 
  看似很简单的一个过程,其实每一个环节都有很多难点,有很多不可控的因素存在。一方面是复杂条件下,识别率显著下降,比如地方方言、背景噪音,还有说话语速的差异,都是不具规律性的;另一方面是语音的训练和测试用数据的并非完全匹配,如果用人民广播电台的语音来训练数据库,那实际操作中哪有这么多广播员呢?
 
  这些都还只是皮毛,最重要的是人工智能对于语意的理解才是巨大的困难。就算作为人类,在没有前后文的情况下,突然扔给你一段话,你也不见得能理解它的意思。而人工智能就更是一脸懵逼了,不同的麦克风、噪音、口音以及谈话内容下,人工智能作出的反应可能都截然不同,本质上它还不具备意识,对人类的语言缺乏足够的认知。
 
  语音交互在电视上的实际操作过程中,还会遇到这样一个窘境:反应速度问题。试想一下如果对电视提出一个问题,哪怕回答的结果是准确的,但是等待时间却长达两三秒的话,你还有欲望继续对它说话吗?
 
  综上所述,无论是语音识别算法的亟待革命、语音工程上或缺的奇迹,或者是硬件性能上的各种限制,智能语音发展到今天远远还谈不上轻车熟路。只不过正好它遇上了这个时代,能够忽略它的不成熟,容忍它的成长过程。因为它已经发展的足够快了。
 
  除了足够智能,还需要什么?
 
  如今的智能语音并非完美,但是在电视这个平台上,真的需要需要那么智能吗?
 
  电视的用途主要是什么?搜索-点播-播控,无非就这是三点,深度整合一下在线和离线时的语音识别工具包,并及时更新,就能够基本满足用户对此的需求。
 
  但是如果把电视当做的人工智能控制中心,那电视就将会高频率的用起来。那对智能语音的要求就要高很多了。但是有一点作为智能电视的本质属性,是永远不会改变的。那就是给用户提供足够多的内容和服务。
 
  如果电视没有足够多的模块和功能,没有足够多的内容和服务,用户使用语言的动机就会缺失。如果没能打通所有家电智能平台,没有统一控制协议,那用户使用智能语音就会处处受限。
 
  真正要让用户把智能语音功能使用起来,优秀的语音识别技术,仅仅是其中很小的一部分,在家庭场景下的解决用户实际问题的服务,才是根本。像很多厂商在电视上加入的人脸识别、儿童教育,配合智能语音,才能发挥语音技术在这一场景下的价值。
 
  总结:人工智能只有在不断交互的情形下,它才有使用的意义和进步的空间。所以在智能交互不断更迭的物联网时代,智能语音技术来得恰是时机。很多人把它看做是下一波风口,也并非无稽之谈。只不过,一切科技的价值都是围绕人性服务而产生,如何用智能语音连接所有家庭环境下人性的需求,才是技术研发的同时,品牌制造商们迫切需要思考的问题。


(来源:太平洋电脑网)

QQ在线客服

咨询热线

  • 02985396651