您的位置: 主页 > 动态 > 行业资讯 >

依图科技入局语音赛道AI独角兽为何高调换轨?

本文摘要:目前,行业巨头正在建立自己的智能语音生态系统,国外有IBM、微软公司、谷歌等,国内有百度、蚂蚁、科技大学飞行、搜狗和云知声。但是,这次,四大AI独角兽之一的依图技术也每月获得入场券。据12月11日的新闻报道,图科学技术今天发表了中文语音识别技术的最近突破,在世界上仅次于中文开源数据库AISHELL-2中,图短语音问答的字错误率(CER)只有3.71%,比原业界领导人上升了约20%,大幅度创下了现有记录。 此外,依图科技现场宣布与微软公司Azure和华为的两项新合作。

亚愽娱乐app

目前,行业巨头正在建立自己的智能语音生态系统,国外有IBM、微软公司、谷歌等,国内有百度、蚂蚁、科技大学飞行、搜狗和云知声。但是,这次,四大AI独角兽之一的依图技术也每月获得入场券。据12月11日的新闻报道,图科学技术今天发表了中文语音识别技术的最近突破,在世界上仅次于中文开源数据库AISHELL-2中,图短语音问答的字错误率(CER)只有3.71%,比原业界领导人上升了约20%,大幅度创下了现有记录。

此外,依图科技现场宣布与微软公司Azure和华为的两项新合作。为什么这个时候进来了?根据图纸,从计算机视觉转移到语音识别是一个巨大的冲刺,因为目前行业巨头林立,入局者比根据图纸早获得市场份额。但是,根据最高创意官吕昊博士,现在语音识别技术的发展过于明显,与脸部识别的正确性相比,语音识别的发展现在很慢,无论是学术界还是工业界,对语音市场都很期待,这意味着未来充分发挥空间。

语音识别技术从几十年前开始发展,从50年代的贝尔研究所到890年代的美国和日本在技术上的突破,从软件到硬件都取得了进展,我国的语音识别研究从1958年开始,之后的863计划中语音识别成为最重要的课题,中国的语音识别技术进入了确实的研究阶段。但是,由于语音场景简单,技术突破仍处于缓慢状态,目前适用于较好的只有一些场景。

目前,业内部分机构宣传识别技术超过人类水平,但多来自安静、近场等有限环境的结果。简单的场景,如电话、语音节目、远场、混响、噪音、口音、语音节目等,必须开发不同的模型。但技术不能束缚我们的想象力。

吕昊离任依图最高创意官近一年,去年年底,他辞去了谷歌的工作,离开了生活十年的美国,回国重新参加了依图。他实际上在语音识别领域,依图科学技术是新生,但是发挥建设行业拐点的作用。根据图进入语音市场的初学者来自好奇心,想用算法技术推进实际问题的解决问题。我们在AI领域实现了多年,可以理解解和推进人工智能的应用。

作为AI解读世界上最重要的构成部分,作为每个人的交流、嵌入式最重要的入口,语音识别是根据图的AI布局。这次的官方意见是第一次转入语音行业,但实质上依赖于醉汉这一领域,语音和语义的相关技术以前展示过医疗相关产品,但没有发表。

吕昊承认科学技术实现了语音技术,确实是业界领先的,但科学技术的语音有多好,和其他语音的距离有多近,只是很难定义——因为半透明。在精度上,行业水平均为98%-99%,无论在什么情况下测量,大家都无法评价。实质上,进入语音市场,还有一个要素,吕昊也全部告诉他。

工业界目前实现语音识别的水平已经达到学术界,在一些公开发表数据集中提高了1~3倍的性能。工业界现在实现语音技术的只有几家,在学术界前进商业模式,也许没有追加的路径。因为数据成本非常低。自己做。

合力巨头:华为和微软公司,语音市场入场券更慢,自由选择新路线,不想成为孤独的英雄。因为华为、微软公司都自由选择和依图站在一起。在发表会现场,引领微软公司Azure发售图形语音开放平台,宣布不向第三者对外开放两家公司在智能语音领域双方都有新的动向。

另外,根据图,华为发表了智能语音领导解决方案,该方案基于图形语音开放平台和华为全栈全场景升级(Ascend)系列芯片和面向数据中心外侧的Atlas300加速卡,也向第三者开放。我们认为核心技术的突破仍然是当前中文语音识别发展的关键。

吕昊对此作出了反应。目前,AI产业链包括基础层、技术层和应用层。

在某种程度上,智能语音识别也由这三层构成。基于大量数据的积累、深度神经网络模型的发展和算法的递归优化,近年来语音识别精度大幅提高,外部也在各大测试结果中仔细观察了与人类匹敌与人类相似等词语。但是,声音识别领域仍然没有两条红线:3%和15%。

一般来说,错误率超过3%会影响文字的可读性,但达到15%不太可读性,体验的好感大幅度降低。在不同的场合,不同算法的表现可能相当不同。

亚愽娱乐APP手机版下载

特别是在中文语音识别技术领域,中文博大精深带来的同音不同意等问题,对语音识别的处理可玩性有很大挑战,明显影响最后的体验。会议上,根据发售的中文语音识别算法,与业内原先的领导者相比,精度大幅度提高。最近公开发表的AISHELL-2的3个测试子集,以及来自第三者的近场口音测试集、近场安静聊天测试集、语音节目测试集、电话测试集、远场测试集,根据图形错误率完全在15%以下(没有超过红线)。记录:AISHELL-2是AISHEL、Foundation和希尔贝壳宣布的开源数据库,数据规模约为1000小时,是目前世界上仅次于的中文开源数据库。

1991名来自中国不同口音区域的发言人参加录音,经专业语音编辑拉丁化标志,通过严格的质量检查,数据库文本正确率在96%以上。值得注意的是,AISHELL2-2018A-EVAL数据集中,根据图的识别精度达到96.29%,字符错误率(CER)只有3.71%。

进入超过100亿美元的市场,实际上自己的年长智能语音技术是人工智能应用于最成熟期的技术之一,享受互动的自然性,具有很大的市场空间。中国语音产业联盟《2015中国智能语音产业发展白皮书》数据显示,2017年全球智能语音产业规模首次达到100亿美元,超过105亿美元。

中国2017年智能语音产业规模也将首次突破100亿元,填充增速高达60%。迄今为止,科技大学通信公布了2018年Q3报告,第三季度收入52.83亿元,比上年快速增长56%,主要是因为AI相关领域的研究开发投入、生态体系建设投入、教育、政法、医疗、智能城市等重点课程的市场布局投入不断增加。

科大通信高级副社长、研究院院长胡国平在公开场合作出反应,科大通信在语音识别错误率方面每年上升30%以上。吕昊直言不讳地说,从数据量、入场时间等角度来看,基于BAT、科技大学通信飞行等差距,作为新秀,看到市场变动缓慢才有机会,以这样的发表会的形式让外部理解语音市场的现实。对于语音开放平台发布后的场景落地,吕昊作出反应,目前不是特别关注某个场景,而是重新发售普遍的语音开放平台,南北通用化,便于外部调动API,可以在不同场景构筑工作算法的变更和数据收集。值得一提的是,在现场发表了问答大会的微信小程序,用户可以在不到60秒的时间内直观地感受到语音识别技术的现实,在业界也是第一次公开发表半透明体验各种算法的水平差异。

语音识别技术近年来进展语音市场转向新玩家,发生了非常热烈的事情,作为重视AI领域的人,近年来辨别过语音识别技术发展的基本轨迹:2017年3月,IBM融合了LSTMT模型和拥有3个强大声学模型的WaveNet语言模型。其中,专注于扩大深度的自学应用于技术,取得了5.5%的错误语言亲率的突破。2017年8月,微软公司通过改进微软公司的语音识别系统基于神经网络的听力和语言模型,在2016年基础上减少了约12%的错误率,错误率为5.1%。2017年12月,谷歌发表了从新的末端到末端的语音识别系统。

2018年6月,阿里巴巴达摩院发售了下一代语音识别模型DFSMN,将世界语音识别精度记录提高到96.04%,错误的语言率减少到了3.96%。2018年10月,云从科学技术发表的新Pyramidal-FSMN语音识别模型中,将错误的词亲率减少到2.97%,比以前提高了25%。当然,今天,我们必须记住2018年12月11日的语音开放平台发布会。

站在AI的十字路口,依靠技术进一步发展。原始文章允许禁止发布。下一篇文章发表了注意事项。


本文关键词:依图,科技,入局,语音,赛道,独角,亚愽娱乐app,兽,为何,目前

本文来源:亚愽娱乐APP手机版下载-www.daughterswar.com