LOFTER for ipad —— 让兴趣,更有趣

点击下载 关闭

LOFTER-网易轻博

语音识别

510浏览    35参与
壹鸽智能
壹鸽智能
itashk

车载语音交互的技术原理及方案

作者:itashk

语音识别是如何实现的呢?首先一段声音进入之后,语音识别系统会做声音的特征提取,把一段声音分成一帧一帧的状态,几个状态组成一个因素,这个因素就是声学模型。

花语
花语
客知音
客知音

语音识别技术突飞猛进,国内语音识别公司都有哪些?

作者:客知音

大致来看,语音识别可以分为以下三个梯队:

第一梯队:科大讯飞、腾讯、百度

第二梯队:思必驰、捷通华声、声智科技、云之声等

第三梯队:客知音等创业公司或者背靠其他学术或技术团队

Andy

刚才在计算机上安装了语音输入法。然后忽然有了一种莫名的恐惧感。如此以往人类会不会退化呀?

刚才在计算机上安装了语音输入法。然后忽然有了一种莫名的恐惧感。如此以往人类会不会退化呀?

客知音
客知音
客知音
MOPING

AI加速,魔屏未来会议快车

语音识别 Voice Recognition


> 智能语音唤醒  


检测到唤醒词指令时,“魔屏智能语音识别”功能自动开启,直接进入到等待语音输入状态。

*说出指令词(例:“停止”)即可关闭语音识别功能,无需手动退出。


>智能语音识别


语音发言精准识别,快速转换成可编辑文本,实时保存。


>会议纪要 


会议重点语音发言实时转换成可编辑文本,实时保存,手机扫码带走,方便二次编辑,快速形成规范性文档。


图像识别 Image Recognition


>智能手写体识别


手写内...

语音识别 Voice Recognition


> 智能语音唤醒  

检测到唤醒词指令时,“魔屏智能语音识别”功能自动开启,直接进入到等待语音输入状态。

*说出指令词(例:“停止”)即可关闭语音识别功能,无需手动退出。



>智能语音识别

语音发言精准识别,快速转换成可编辑文本,实时保存。


>会议纪要 


会议重点语音发言实时转换成可编辑文本,实时保存,手机扫码带走,方便二次编辑,快速形成规范性文档。


图像识别 Image Recognition


>智能手写体识别

手写内容智能识别,支持中英文、数字、符号混合识别,自动转化为可编辑文本自动排版,会议内容扫码带走,方便后期文本录入和二次编辑。


智能图表Intelligent Chart


精准识别绘制的各类图形自动排版,提升图表规范性,让思路演示更清晰直观


人脸识别   Facial Recognition


基于百度AI平台,快速提取人脸特征,准确识别、比对、确认身份信息。

身份确认的同时快速检索对应的用户信息,完成会议签到,匹配坐席号、议程等会议信息。


魔屏——百度AI生态合作伙伴

魔屏——百度云战略合作伙伴


误入藕花深处

智能的声音


http://www.babayface.com/nd.jsp?id=2#_jcp=1

从十九世纪末的打孔卡和纸带输入,到盛行了数十年的键盘鼠标,再到现在流行的触摸输入,人机交互正在变得更直观、自然和人性化。近几年,随着语音识别技术的快速发展,智能语音正成为新的人机交互方式。

  “以前我们说鼠标加水泥等于新经济加传统经济,现在鼠标已经不是新经济,手机的输入方式已经是手势、语音甚至图像。”百度CEO李彦宏说,去年一年语音识别的准确率提升比此前15年提升的总和还要多。智能手机的普及也使得这方面的需求大大激发。

     2011年10月4日,iPhone4S...


http://www.babayface.com/nd.jsp?id=2#_jcp=1

从十九世纪末的打孔卡和纸带输入,到盛行了数十年的键盘鼠标,再到现在流行的触摸输入,人机交互正在变得更直观、自然和人性化。近几年,随着语音识别技术的快速发展,智能语音正成为新的人机交互方式。

  “以前我们说鼠标加水泥等于新经济加传统经济,现在鼠标已经不是新经济,手机的输入方式已经是手势、语音甚至图像。”百度CEO李彦宏说,去年一年语音识别的准确率提升比此前15年提升的总和还要多。智能手机的普及也使得这方面的需求大大激发。

     2011年10月4日,iPhone4S对外发布,让用户感到新奇的是,智能语音助手Siri被成功植入iPhone4S之中。Siri的横空出世,在全球引发了语音热潮,各类语音助手几乎成为智能手机的必备应用。

相比早期的语音控制系统,Siri将iPhone变成了一个智能机器人,用户对着手机说话,不仅可以让手机读短信和拨号,甚至能够查询天气、餐厅位置、航班等以往不可想象的功能。在Siri身上,人们看到了语音成为手机实用交互方式的可能,而不像以前只能通过键盘或手写输入文字来传递信息。

  除了手机内自带的语音助手,不少第三方语音助手应用也如雨后春笋般涌现,譬如讯飞语点、百度语音助手、搜狗语音助手、虫洞语音助手、智能360语音助手等。这些语音助手的功能也越来越强,不仅可以通过语音搜索内容、查询信息,还可以聊天解闷、讲故事、唱歌。

  最近中关村在线手机事业部针对手机语音功能现状进行了一项调查,结果显示,67.68%的受访者表示使用过语音助手软件,这足以证明手机语音助手类应用的市场热度。

  不单单是手机,语音技术也逐步应用于PC、平板电脑、家电、车载、玩具、手表、眼镜等智能终端,以及教育、电信、金融、保险 、客服等领域。在2013年英特尔信息技术峰会(IDF)上,英特尔“感知计算”概念的提出,意在建立起一个新的人机交互框架,掀起“重塑PC”的革命,而语音识别就是感知计算的一部分。

  实际上,“听话”的浏览器离我们并不遥远。Google Chrome浏览器已经开始尝试支持声控命令,或许要不了多久,我们就能通过声控浏览器完成浏览网页、发送邮件等。比如,你可以通过“暗一点”“亮一点”“字体大一号”等语音命令来控制浏览器。

  结合地图系统和智能语音识别的打车软件一经面世便得到消费者的广泛关注。曾在北上广风靡的打车叫车软件“嘀嘀打车”,前不久正式进入武汉运营。据了解,“嘀嘀打车”软件在武汉市场试运行的14天时间里,召车成功率达88%,远远超过武汉官方叫车平台“电召”的48.5%。

  4月10日~12日,第一届中国电子信息博览会在深圳举行。由工业和信息化部指导,19家单位联合发起成立的中国语音产业联盟组团参展,将神奇的智能语音体验带到了现场,全面展示了智能语音技术在移动互联网、教育、智能电视、车载终端、玩具等方面的新产品、新应用。

  清华大学吴及副教授表示,通过技术上的不断优化和完善,快则一两年,慢则三五年,语音识别技术会成为人机交互的重要组成部分。未来最可能还是混合的交互方式,语音成为主流交互方式之一,因为不同的场景、用户需要和用户习惯,都会造成选择交互方式的多元化。

发端于上世纪50年代的语音技术,经历了多次潮起潮落,这次是真正的变革,还是又一轮泡沫?吴及告诉记者,“这次的兴起与过去不太一样,超过以往任何一次的高度,商业化应用的规模,普通民众的接受和认可程度,都远远超过了以往。”

  对于语音产业爆发的原因,吴及有着自己的思考:一是移动互联网的发展,使手机成为重要的客户端,现在手机数量已经远远超过PC和笔记本,导致越来越多的交互行为通过手机来完成。苹果ios、安卓等智能手机操作系统推出后,手机应用和手机交互逐渐增多,但在手机上靠传统的键盘输入很不方便,手写又太慢,而使用语音输入很方便,这样用户的需求就被激发了。

  二是随着移动互联网和云计算的发展,语音识别不需要在本机做了,可以在云端做。这样资源条件大为放松,对语音识别引擎不需要非常严格地限制了。此外,用户的语音数据可以存放在云端,就能有大量的真实数据用于模型训练,语音识别性能得到了迅速地提高,识别率可以达到85%~90%以上,这就达到了用户使用的最低门槛。

  三是语音识别技术一直在进步,最近十年也不断有新的突破,例如声学模型的鉴别力训练和近年来非常热的深度神经网络。

   智能语音技术应用非常广泛,不单单是前面提到的手机、电视、玩具、汽车等领域,也包括即将兴起的智能客服、智能订单、智能营销等智能语音服务。

   几年前,语音行业不景气,从事语音技术研究的多以学术界为主,这使得国内的语音核心技术一直掌握在清华大学、中科院声学所、中科院自动化所、中国科技大学等几家单位,同时也导致语音行业的人才很稀缺。

  从2008年开始,伴随移动互联网的大发展,语音识别产业才真正兴起。谷歌于2008年在美国发布了英文语音搜索服务Voice Search,应用于Android、诺基亚S60、黑莓、iPhone等多个系列的手机。2009年,Google在全球范围正式发布了谷歌中文语音搜索。

  2009年苹果收购Siri,并于2012年推出中文版Siri,大受用户欢迎,掀起智能语音热潮。

   最近几年,智能语音产业之所以有突破性发展,有几个因素起到了关键作用:一是移动互联网的发展,使手机成为重要的客户端。现在手机数量已经远远超过PC和笔记本,导致越来越多的交互行为通过手机来完成。苹果ios、安卓等智能手机操作系统推出后,手机应用和手机交互逐渐增多,但在手机上靠传统的键盘输入很不方便,手写又太慢,而使用语音输入很方便,这样用户的需求就被激发了。

  二是云计算的发展。以前语音识别讲两头,一方面看电信领域能否应用,另一方面尽量挖掘手机的资源潜力,但手机的计算资源和存储资源很有限。现在随着移动互联网和云计算的发展,语音识别不需要在本机做了,可以在云端做。这样资源条件大为放松,对语音识别引擎不需要非常严格的限制了。此外,用户的语音数据可以存放在云端,就能有大量的真实数据用于模型训练,语音识别性能得到了迅速地提高,识别率可以达到85%~90%以上,这就达到了用户使用的最低门槛。有了服务端以后,数据形成了循环,计算资源的要求放松,这是智能语音产业发展的重要条件。

  三是语音识别技术一直在进步,最近十年也不断有新的突破,例如声学模型的鉴别力训练和近年来非常热的深度神经网络。


原文链接:http://www.babayface.com/nd.jsp?id=2#_jcp=1

九衢专栏
轩澜_king

腾讯AI Lab副主任俞栋:语音识别领域四大前沿问

#电商科普##电商快报#

5 月 27 日,由机器之心主办、为期两天的全球机器智能峰会(GMIS 2017)在北京 898 创新空间顺利开幕。


腾讯 AI Lab 副主任俞栋博士、「LSTM 之父」Jürgen Schmidhuber、加州大学伯克利分校人工智能系统中心创始人Stuart Russell教授、中国科学院自动化研究所复杂系统管理与控制国家重点实验室主任王飞跃及Citadel 首席人工智能官邓力等多位知名人工智能专家参与峰会,并在主题演讲、圆桌论坛等互动形式下,从科学家、企业家、技术专家的视角,解读人工智能的未来发展。

在会上,腾讯 AI Lab...

#电商科普##电商快报#

5 月 27 日,由机器之心主办、为期两天的全球机器智能峰会(GMIS 2017)在北京 898 创新空间顺利开幕。

 

腾讯AI Lab副主任俞栋:语音识别领域四大前沿问

腾讯 AI Lab 副主任俞栋博士、「LSTM 之父」Jürgen Schmidhuber、加州大学伯克利分校人工智能系统中心创始人Stuart Russell教授、中国科学院自动化研究所复杂系统管理与控制国家重点实验室主任王飞跃及Citadel 首席人工智能官邓力等多位知名人工智能专家参与峰会,并在主题演讲、圆桌论坛等互动形式下,从科学家、企业家、技术专家的视角,解读人工智能的未来发展。

在会上,腾讯 AI Lab 副主任、西雅图人工智能研究室负责人俞栋博士发表了主题为《语音识别领域的前沿研究(Frontier Research of Speech Recognition)》的演讲,探讨分享了语音识别领域的四个前沿问题。

俞栋认为,虽然语音识别在过去几十年里取得了一定进步,如今机器也已经在电话聊天这样的任务上达到甚至超过人的识别水准,但是离真正的人与机器的自由交流还有一定差距。

以下是俞栋演讲的主要内容:

 

腾讯AI Lab副主任俞栋:语音识别领域四大前沿问

语音识别是一个有着悠久历史的研究领域。在过去的几十年里,研究人员从最简单的小词汇量朗读语音识别问题 Read Speech 开始,逐渐走向更加复杂的 Broadcast Speech 和 Conversational Speech语音识别问题。如今,即便是在以前认为非常难的电话自由聊天这样形式的语音识别问题上,机器也已经达到甚至超过人的识别水准。但是我们要看到,虽然取得了这些进展,但离真正的人与机器的自由交流还有一定差距,这也就是为什么语音识别的研究前沿需要继续往前推进一步。

 

腾讯AI Lab副主任俞栋:语音识别领域四大前沿问

如今我们研究的语音识别问题越来越没有环境、说话风格、口音、词汇等限定(不像以前有非常多的限制),这极大地增加了语音识别的难度,同时研究的前沿也从近场麦克风转向远场麦克风。两者的区别在于,在远场情况下,当人的声音传达到麦克风时,声音衰减很厉害。所以以前在近场麦克风很难见到的一些困难,在远场麦克风场景下就变得很明显。如果不解决这些问题,用户在很多的应用场合仍然会觉得语音识别效果欠佳。

今天我介绍一下在这样的背景下语音识别的一些前沿研究方向。

 

腾讯AI Lab副主任俞栋:语音识别领域四大前沿问

研究方向一:更有效的序列到序列直接转换的模型。

语音识别实际上是把语音信号的序列转化为文字或词的序列,所以很多人认为要解决这个问题,找到一个行之有效、序列到序列的转换模型就可以了。

 

腾讯AI Lab副主任俞栋:语音识别领域四大前沿问

从前的绝大部分研究是通过对问题做假设,然后据此在语音信号序列到词序列之间构造若干个组件,把语音信号序列逐步转换成词的序列。这些假设中的许多部分,比如短时平稳假设和conditional independence假设,在某些特定场合是合理的,但是在很多真实的场景下是有问题的。而序列到序列直接转换的模型背后的思路是说,如果我们去掉基于有问题的假设而设计的这些组件,然后以从训练数据中学到的转换模型来替换,就有可能找到更好的方法,使序列转换更准确。

这样做另外一个好处是整个的训练过程也可以变简单。

 

腾讯AI Lab副主任俞栋:语音识别领域四大前沿问

序列到序列直接转换的模型目前来讲主要有两个方向:方向一:CTC模型。

CTC模型十分适合语音识别这样的问题,因为它要求输出序列长度比输入序列长度要短很多。CTC模型还有一个优势,在传统的深度神经网络/隐马尔科夫混合模型中建模单元一般非常小,都在sub-phone级别。但是在CTC模型里面你可以相对自由地选择建模单元,而且在数据量足够大的情况下建模单元越大,识别效果反而会越好。

最近 谷歌(微博) 有一项研究从YouTube上采用几十万小时甚至上百万小时的训练数据量。CTC的模型可以不依赖额外的语言模型就能做到识别率超过传统的混合模型。但由于训练稳定性差,CTC模型相对于传统模型仍然更难训练好。

 

腾讯AI Lab副主任俞栋:语音识别领域四大前沿问

更有效的序列到序列直接转换的模型的第二个方向是:Attention 模型

Attention 模型首先把输入的语音信号序列转换成一个中间层的序列表达,在这个中间层序列表达上面,能够融合上下文信息,然后就可以基于这个中间层的表达用一个专门的、基于递归神经网络的生成模型来生成转换后的词序列。这个方法在机器翻译里面现在成为了主流方案,但是在语音识别里面它还是一个非常不成熟的技术,它有目前有几个问题。

问题1:生成模型所依赖的信息在训练和解码时是不一致的。这使得在解码时错误会累加。所以目前比较适合短语的识别,对长的句子效果比较差。

问题2:attention的窗口没有时序的限定,所以有时候要生成下一个词时,attention 窗口反而跑到时间上更靠前的语音信号上去了。所以在做语音识别的时候,它的训练因而最后的结果相对来说非常不稳定。

 

腾讯AI Lab副主任俞栋:语音识别领域四大前沿问

那么如何解决这些问题?目前最佳的解决方案就是把 CTC 与 Attention 结合起来,这主要是因为CTC能保证时序信息,即后面的词一定是根据后面的语音信号生成的,由于编码部分是CTC 与 Attention共享的,这有助于 Attention模型所基于的中间表达能更好地生成识别结果。有意思的是在某些情况下两者结合的模型比CTC和Attention各自训练的效果都更好。

但是,即便把 CTC 与 Attention 两种模型结合起来,其效果与传统混合模型相比,依然没有太多优势。所以我们仍然需要解决一些问题。

 

腾讯AI Lab副主任俞栋:语音识别领域四大前沿问

问题一:在这样的架构下面,有没有更好的一些模型结构,或者是训练准则,能够比现有的CTC或者Attention模型更好。

问题二:当拥有的数据较少时,有没有办法建造一个结构,使得语言模型和声学模型紧密结合在一起。有语音信号时语言模型可以和声学模型一起训练,没有语音信号时,语言模型可以只用文本信息来训练。

问题三:如何利用各种语料的数据,整合起来训练一个更好的序列到序列转换模型。这可能需要在模型的很多层面上可以做迁移学习。

 

腾讯AI Lab副主任俞栋:语音识别领域四大前沿问

研究方向二:鸡尾酒会问题。

人在鸡尾酒会这样非常嘈杂的环境中能够把注意力集中在某一个人的声音上,屏蔽掉周围的说话声或噪音,非常好地听懂他/她要关注的那个人的说话声音。现在绝大部分的语音识别系统还没有这个能力。这个问题在近场麦克风并不明显,这是因为人声的能量对比噪声非常大,而在远场识别系统上,信噪比下降得很厉害,所以这个问题就变得非常突出,成为了一个非常关键、比较难解决的问题。

 

腾讯AI Lab副主任俞栋:语音识别领域四大前沿问

鸡尾酒会问题的主要困难在于Label Permutation,而这个问题目前有两个较好的解决方案:

方案一:Deep Clustering。

方案二:Permutation invariant Training。

 

腾讯AI Lab副主任俞栋:语音识别领域四大前沿问

但是在这些工作里我们只用到了单麦克风的输入信息。而我们知道麦克风阵列可以提供更多的信息,所以一个很重要的问题是如何有效地利用多麦克风信息来继续加强这些模型和方案的能力。第二个就是有没有办法能够找到一个更好的分离模型,因为现在大家用的还是LSTM,但是LSTM不见得是最佳模型。第三个问题是我们有没有办法利用其他的信息,比如语言和发音模型以及解码器里的信息来进一步提升它的性能。

研究方向三:持续预测与适应的模型。

 

腾讯AI Lab副主任俞栋:语音识别领域四大前沿问

第三个大家关注的热点是能否建造一个持续做预测并自适应的系统。我们之前做了一个模型叫PAC-RNN,它的好处是能够非常快地自适应,从而持续改进识别结果。但是这个模型由于递归神经网络的环路比较大,训练上比较困难。

所以现在的问题是如何建造一个更好的模型,它能够持续地做预测和自适应。它需要的特点是什么呢?一个是它能够非常快地做Adaptation并优化接下来的期望识别率。另外它要能发现频度高的regularities并把这些变成default model的一部分,不需要再做adaptation。还有就是我们有没有办法把大类的自适应模型用更好的方式压缩在模型里面,使得adaptation可以直接从这些模型开始而不是default model。

研究方向四:前后端联合优化。

 

腾讯AI Lab副主任俞栋:语音识别领域四大前沿问

第四个研究前沿有关远场识别以及如何做前端和后端更好的联合优化。目前来讲,前端的信号处理技术一般只用到当前状态下的语音的信号信息,这些信息的利用主要靠对声学物理规律的把握并基于一定的假设。而机器学习的方法能利用很多的训练集里学到的信息来建模,但是它一般不是基于物理原理的,对当前帧信息的使用比较弱。所以我们有没有办法把这两种方法比较好地融合在一起,这是目前很多研究组织发力的一个方向。

另外,我们有没有办法把前端的信号处理跟后端的语音识别引擎做更好的联合优化。因为前端信号处理有可能丢失信息,且不可在后端恢复。以前那种分别优化的策略可能对于前端来说是最优的,但是放在整个系统里就不是了。所以我们有没有办法做一个自动的系统,能够比较好地分配前后端的处理,使得前端可以有效提升信号质量但同时比较少地丢失信息,而把一些剩余的噪声留给更强大的后端来处理,从而提升整体性能。

关于腾讯AI Lab

腾讯AI Lab于2016年四月成立,总部位于深圳。作为腾讯公司级AI实验室,AI Lab专注于基础研究和应用探索的结合,致力于提升AI决策、理解及创造能力,并为腾讯各个产品及业务提供AI技术支持。

AI Lab专注四大基础研究方向:计算机视觉、语音识别、自然语言处理和机器学习。每个领域代表一个AI基础研究方向,又能进行深层次的研究拓展。结合腾讯独有场景和业务优势提出内容、游戏、社交和平台工具型AI四大应用探索。技术在天天快报、手机QQ及天天P图等上百个产品中应用。

腾讯AI Lab深圳总部由机器学习和大数据领域专家张潼博士领导,现有50多位世界知名院校的AI科学家(90%为博士)及200多位应用工程师,聚焦四大基础研究及应用方向的结合。西雅图研究室由AI Lab副主任、语音识别及深度学习领域专家俞栋博士领导,偏向语音识别及自然语言理解两大领域的基础研究。

关于俞栋

俞栋博士是腾讯AI Lab(人工智能实验室)副主任,及美国西雅图AI实验室负责人,负责该实验室的运营及管理,推动腾讯在语音识别及自然语言理解等AI领域的基础研究。俞栋博士是语音识别与深度学习领域的资深专家,曾在相关领域出版两本专著并发表大量论文。他也是60项专利的发明人及深度学习开源软件CNTK的发起人和主要作者之一。加入腾讯前,他曾担任美国微软研究院语音和对话组(Speech and Dialog Group)首席研究员,并兼任浙江大学兼职教授、中科大客座教授及上海交通大学客座研究员。

俞栋博士与George Dahl 博士、邓力博士等共同研发的上下文相关深层神经网络-隐马尔科夫模型(CD-DNN-HMM)是深度学习技术在大词汇量语音识别任务上的首次成功应用。他们的这项突破性工作,获 2013年IEEE信号处理协会(IEEE SPS)最佳论文奖,引起了大词汇量语音识别研究方向的转变,极大地推动了语音识别技术的发展。俞博士曾获2013年和2016年IEEE信号处理协会最佳论文奖,现任 IEEE 语音语言处理专业委员会委员,曾任 IEEE/ACM 音频、语音及语言处理汇刊、IEEE 信号处理杂志等期刊的编委。

俞栋博士拥有中国浙江大学电子工程学士学位、美国印第安纳大学计算机硕士学位、中国科学院自动化所模式识别与智能控制硕士学位及美国爱达荷大学计算机博士学位。

腾讯AI Lab副主任俞栋:语音识别领域四大前沿问

资讯大部分均来源网络,如有侵权,请联系博主!同时内容不代表博主意见!

轩澜_king

谷歌语音识别技术差错率降至4.9% 归功神经网络技

#电商科普##电商快报#


腾讯科技讯 据外媒报道, 谷歌(微博)CEO桑达尔-皮查伊(Sundar Pichai)刚刚在2017年谷歌I/O大会上宣称,该公司的语音识别技术现在的差错率已降低到了4.9%。


相对于以往来说,这是一个非常大的进步。在2013年,它的差错率为23%;在2015年的I/O大会上,谷歌宣称其语音识别技术的差错率为8%。

谷歌利用深度学习技术来实现准确的图像识别和语音识别。这种方法包括用大量数据来训练名为“神经网络”的系统,然后给该系统提供新的数据,让它进行预测。

“我们在很多产品中都采用了语音输入方式。”皮查伊说...

#电商科普##电商快报#

 

谷歌语音识别技术差错率降至4.9% 归功神经网络技

腾讯科技讯 据外媒报道, 谷歌(微博)CEO桑达尔-皮查伊(Sundar Pichai)刚刚在2017年谷歌I/O大会上宣称,该公司的语音识别技术现在的差错率已降低到了4.9%。

 

谷歌语音识别技术差错率降至4.9% 归功神经网络技

相对于以往来说,这是一个非常大的进步。在2013年,它的差错率为23%;在2015年的I/O大会上,谷歌宣称其语音识别技术的差错率为8%。

谷歌利用深度学习技术来实现准确的图像识别和语音识别。这种方法包括用大量数据来训练名为“神经网络”的系统,然后给该系统提供新的数据,让它进行预测。

“我们在很多产品中都采用了语音输入方式。”皮查伊说,“这是因为电脑越来越善于识别语音了。从去年以来,我们在这方面取得的进步非常惊人。我们在嘈杂环境中的语音识别技术正在不断完善。因此,当你用手机或智能家居设备Google Home对谷歌讲话时,我们就能够正确地识别你的声音。”

相对而言, 微软 在2016年10月宣称,它已取得了可与人类媲美的语音识别水平。它的差错率当时为6.3%。但是,我们并不清楚这两家公司是否采用了相同的衡量标准。

事实上,谷歌吹嘘其语音识别技术的进步已有一段时间。今年初,该公司就宣称,它的语音识别差错率从2012年以来已减少了30%。这种技术进步的主要原因是什么呢?谷歌证实这是因为它使用神经网络技术的缘故。

皮查伊还分享了开发Google Home的逸闻趣事,“当我们开发Google Home的时候,我们原计划使用8个麦克风。但是,由于采用了基于神经波束赋形技术的神经网络系统,我们最后只需要用两个麦克风就达到了相同的效果。”(编译/乐学)

谷歌语音识别技术差错率降至4.9% 归功神经网络技

李小毛Bella

奇点峰会,站得高看得远

 搜狗CEO王小川在奇点峰会

 刚刚过去的两天(7月15,16号),科技领域最值得关注的就莫过于在上海举行的“奇点·创新者峰会”了。这次奇点的主题是“科技与幸福”,和往届一样,这次的来宾阵容就让人觉得这个门票买的值得——包括搜狗CEO王小川,联想CEO王峰,Pico CEO周宏伟,出门问问CEO李志飞,超级高铁Hyperloop One 高级副总裁(名字及不得了),英伟达,HTC高管,对了,还有锤子的老罗。

奇点峰会一直就代表了科技领域的最新风向,今天怒刷了一天奇点峰会的演讲,感觉科技小白实在没有什么发言权,所以总结点大牛牛门的干货出来,留着以后慢慢看。...

 搜狗CEO王小川在奇点峰会

 刚刚过去的两天(7月15,16号),科技领域最值得关注的就莫过于在上海举行的“奇点·创新者峰会”了。这次奇点的主题是“科技与幸福”,和往届一样,这次的来宾阵容就让人觉得这个门票买的值得——包括搜狗CEO王小川,联想CEO王峰,Pico CEO周宏伟,出门问问CEO李志飞,超级高铁Hyperloop One 高级副总裁(名字及不得了),英伟达,HTC高管,对了,还有锤子的老罗。

奇点峰会一直就代表了科技领域的最新风向,今天怒刷了一天奇点峰会的演讲,感觉科技小白实在没有什么发言权,所以总结点大牛牛门的干货出来,留着以后慢慢看。

 奇点峰会发言截图

 就像上面说的,科技市场总在面临着大洗牌,在未来几年里,下面几个趋势还是值得关注的。下面总结点纯干货,留着以后慢慢了解。



 VR领域

VR领域值得关注的新锐公司:

 •上海拆名晃信息科技有限公司(hypereal)

•小鸟看看科技有限公司(Pico)

•北京诺亦腾科技有限公司(诺亦腾)

•天舍(上海)文化传媒有限公司(天舍文化传媒)

 •北京时光梦幻科技有限公司(TVR 时光机虚拟现实)

  •指挥家(厦门)科技有限公司(指挥家)


 智能硬件领域

智能硬件及数据服务领域值得关注的潜力公司:

•极米科技有限公司(极米)

•北京羽扇智信息科技有限公司(出门问问)

•上海小蚁科技有限公司(小蚁)

•北京花花草草科技有限公司(花花草草)

•魅族科技有限公司(魅族)

•北京零零无限科技有限公司(零零无限)

  •广东泰一高新技术发展有限公司(泰一)

  •广州极飞电子科技有限公司(极飞)


 人工智能领域 

人工智能领域值得关注的新锐公司:

•北京云知声信息技术有限公司(云知声)

•北京旷视科技有限公司(旷视科技)

•苏州思必驰信息科技有限公司(思必驰)

•深圳市优必选科技有限公司(优必选)

•北京地平线机器人技术研发有限公司(地平线机器人)

•北京格灵深瞳信息技术有限公司(格灵深瞳)

•上海依图信息技术有限公司(依图)


 泛娱乐领域

泛娱乐领域值得关注的新锐公司

•追光人动画设计(北京)有限公司(追光动画)

  •北京米未文化传媒有限公司(《奇葩说》的脑残粉表示终于有一个我认识的了)

 • 西安摩摩信息技术有限公司  (《暴走大事件》的粉丝也不甘落后

  •上海一条网络科技有限公司(一条)

  •北京昆尚文化传媒有限责任公司(昆仑决)

  •炫一下(北京)科技有限公司(一直播)

  •上海看榜信息科技有限公司(新榜)

  •北京思维造物信息科技有限公司(罗辑思维)


最后插一个人工智能的方向

 

加点私货,我最喜欢的王小川的开场词,霸气外露么么哒。

 

 


 

智能界www.znjchina.com

日本推出坐在手机上与人交流的超萌机器人

东京玩具展于2016年6月9日至12日正式在日本召开。TAKARATOMY公司最新推出的超萌机器人“Smapon”凭借可爱的外形和讨喜的设定赢得了来场者的一致好评。


Smapon是仅有手掌大小的迷你机器人,只要将其放置在智能手机上它便可说话、变换表情,甚至还能够对提问做出反应。这款玩具机器人将于7月2日正式发售,价格为1500日元(约合人民币95元),共有6种颜色可供选择,只需要与iOS/Android对应的免费软件联动即可使用。


其实Smapon的构造非常简单,甚至没有用到语音识别以及人工智能的技术,内部连电池和电子线路都没有。它仅仅是让智能手机屏幕的光透过来而已。专用的免费软件...

东京玩具展于2016年6月9日至12日正式在日本召开。TAKARATOMY公司最新推出的超萌机器人“Smapon”凭借可爱的外形和讨喜的设定赢得了来场者的一致好评。


Smapon是仅有手掌大小的迷你机器人,只要将其放置在智能手机上它便可说话、变换表情,甚至还能够对提问做出反应。这款玩具机器人将于7月2日正式发售,价格为1500日元(约合人民币95元),共有6种颜色可供选择,只需要与iOS/Android对应的免费软件联动即可使用。


其实Smapon的构造非常简单,甚至没有用到语音识别以及人工智能的技术,内部连电池和电子线路都没有。它仅仅是让智能手机屏幕的光透过来而已。专用的免费软件可以识别Smapon所放的位置,在对应位置显示亮点,随着亮点的变化Smapon的表情也仿佛在不断变换。

 


手机识别到使用者的声音后,会从软件中收录的2000组词汇中选取适当的话语进行应答。不过因为并不是使用语音识别技术精准分析使用者的声音,所以交流起来经常会“驴唇不对马嘴”。不过这种有些“脱线”的对话方式也正是其魅力所在,让不少来场者乐此不疲。


Smapon拥有六种性格可供选择,包括普通性格、小恶魔、宅男、大叔、撒娇王、人妖。在使用初始时玩家可以选择自己喜欢的性格,不同的“养育”方法会让Smapon的性格不断变化。


TAKARATOMY公司负责人表示,他们还将不断丰富Smapon的词汇收录量,添加更多的流行语和吐槽,让玩家可以长时间享受与Smapon交流的乐趣。



智能界(www.znjchina.com)中国智能科技聚合推荐平台,秉承“引领未来智能生活”的理念,专注报道智能家居、可穿戴设备、智能医疗、机器人、3D打印、智能汽车等诸多科技前沿领域。聚合品牌宣传、代理招商、产品评测、原创视频、FM电台与试用众测,深入智能硬件行业,全平台多维度为用户及厂商提供服务,致力成为中国最具影响力的智能硬件聚合推荐平台。

智能界www.znjchina.com

车载娱乐好宝贝

“全民汽车时代都快到来了,现在出入没车都不好意思跟人打招呼”没有恶意的一句话却反映出中国正在快速发展,人民生活水平逐步上升,汽车作为代步工具已经快速的融入社会,使得街上行驶了更多汽车。作为一家专业的电子研发科技公司要玩转汽车娱乐用品的睿米也投其所好的生产了时下用具创意的汽车音乐蓝牙车充。让开车成为了一种乐趣,让旅途更加的美好。

睿米蓝牙车充2S拥有5大功能

语音识别免提通话,音乐播放,导航播报,车载充电五合一的常用功能。当然还具备很多小功能待我向大家展示。


▲包装上很小巧有着更为形象的产品图一眼就能识别产品,背面则标注了5大功能亮点以及所支持的车型,从图上可以看出车型还不少...

“全民汽车时代都快到来了,现在出入没车都不好意思跟人打招呼”没有恶意的一句话却反映出中国正在快速发展,人民生活水平逐步上升,汽车作为代步工具已经快速的融入社会,使得街上行驶了更多汽车。作为一家专业的电子研发科技公司要玩转汽车娱乐用品的睿米也投其所好的生产了时下用具创意的汽车音乐蓝牙车充。让开车成为了一种乐趣,让旅途更加的美好。

睿米蓝牙车充2S拥有5大功能

语音识别免提通话,音乐播放,导航播报,车载充电五合一的常用功能。当然还具备很多小功能待我向大家展示。


▲包装上很小巧有着更为形象的产品图一眼就能识别产品,背面则标注了5大功能亮点以及所支持的车型,从图上可以看出车型还不少,适配更多。但是有一点需要指出,其支持的车型中点烟器的形状决定了适配。如下如所示。

 

▼去掉包装后主体的摆放竟然和包装外盒图上一样,从照片上一眼难分谁是外包装,可见外包装的印刷精良。

▼取出拿在手中第一感觉就是“沉”,其次是手感极佳,磨砂外表,精致的底座,据说是全不锈钢的卡座,光从样子来看就很高档,很具有质感,最后看到充电口的做工整齐,一圈拉丝光环更突显品质。

▼为了体现其“质”我们拿出了电子称,称重对比了前2日购买的普通车充,不对比不知道啊,睿米的单颗质量达到了37.9g竟然是普通的车充2倍的重量,光从这一点就会很放心睿米的质量,车载无小事,安全需第一。

 

▼看了整体看看车上的体验吧

本次采用雪铁龙c4世嘉作为试用车型,其自带一个点烟器且为卡簧式。当睿米插上后我们才发现它会有指示灯,这是不可或缺的提示啊。

 

指示灯有多个颜色可在APP客户端进行选择。

 

▲插上车充后对比常见普通车充,睿米的形状更容易融进车厢,高度也不突兀,发出的淡蓝色光芒也很好看。

▲打开手机客户端,蓝牙连接,然后车载大屏收音机需要调整到96.4Mhz即可与睿米相连。

 

▲在app中则可以看到更多信息,包括车载电压,频道,上车播放下车关闭等功能,如果手机中有多个音乐播放器,则都会出现在客户端首页中,可以说想要播放的方式很多种。上图中手机安装qq音乐后重启APP首页就可以自由选择所需播放器。此外首页下方还可以查询违章记录以及限行提醒。

总结

使用3天后,发现其功能比较完善很便捷,外观是一大卖点,另外对于无蓝牙的汽车,这是一个音乐爱好者的福音。不过缺点还是有的,就是调频下频道会有干扰,估计对于一些处女座的来说可能接受不了“滋滋啦啦”的声音啊。

LOFTER

让兴趣,更有趣

简单随性的记录
丰富多彩的内容
让生活更加充实

下载移动端
关注最新消息