16问搜狗陈伟:搜狗逼真AI合成主播背后的“热”技术-ope体育

  • 时间:
  • 浏览:2634
本文摘要:属性。

属性。另一方面,新闻速度拒绝较高,使用“Sogou幻术”技术确保了新闻的时效性。另一方面,这项技术使播音员摆脱了日常困难单一、没有技术含量的播音员。更好的能量,留下时间在访谈班,深度类型的新闻报道节目中录音。

其次,“Sogou幻术”技术早就计划好了,在Sogou知音的大基础框架下,产卵有很多不同的技术,从感官能力到理解力都有所涵盖。Sogou期待着以Sogou为中心计算AI人工智能战略自然相互作用科学知识,进行更多的突破。

2012年对围绕感觉水平的交互进行了Sogou,进行了关于语音识别的研究。随着时间的推移和技术的变化,识别这种状态逐渐从语音识别到多模式识别。也就是说,除了语音识别,手写识别、嘴唇识别等不同的识别技术融合,变换的识别能力减少了。

另一方面,Sogou最先推出“幻术”技术,可以追溯到2018年7月。Sogouceo王小川在香港,每月发布这项技术。

现场王小川展示了嘴唇的调制、语音合成、音视频的牵引建模和深度自学技术,驱动机器分解对应的嘴唇图像和语音,输入统一的音视频素材。最近,就“Sogou幻术”技术和Sogou语音技术的相互作用中心陈伟展开了面对面的交流。陈伟说明,在语音解读理解水平上,Sogou语音技术交互中心主要进行机器翻译和自然交互的研究。

在传递水平上,目前多集中于多模式传递的研究。从认识重新进行到解读理解,从重新进行到传达整个闭环。当然,除了语音以外,还有音视频的表现。

陈伟的团队有两条线在交流语音。第一,为什么需要使嵌入式更自然? 第二,语音翻译,语音广播的能力。陈伟指出,未来的发展方向语音是唯一的传递,如何与多模态信息融合。

在互动框架下,引入语音、广播等更多信息和语音、图像等能力的融合。陈伟说:“技术依然是递归的,现在的Sogou在整个幻术技术方面没有缓慢落地的能力。在某种程度上不停留在实验室的模型阶段,而是在更好的行业中与不同领域的场景、产品深度相融合。

AI做播音员原形的工作性质再次发生了很多变化,AI幻术落地后发生了明显的变化,影响了每个人未来的工作方式和状态。”。

陈伟泄露了,基于Sogou幻术技术的AI制造播音员已经在新华社平台上播音数千条新闻,零犯规。Sogou幻术将在年内上市。以前Sogou幻术在教育、法律、医疗、娱乐等领域不争。

以下是与Sogou语音技术交流中心陈伟的交流国史。询问合作背景和技术细节。

现在在媒体变革的大潮下,传统媒体都在转型为金融媒体。当初Sogou是怎么想起和新华社的合作的? 合作背后的考虑因素是什么? 陈伟:现在和新华社合作,证明这是非常顺利的合作。自从2018年11月乌镇网络大会公布以来,我们自己的技术已经在国内、海外受到了很大的冲击。

一些合作,正好在某个合适的时刻,大家有共同的表现意见,制作了这件事。我们为了做到这一点,第一点是落地播音员,正好新华社有这方面的市场需求,所以产生了以前的合作。问题:你在Sogou使用云服务器吗? 你用了哪个服务器? 陈伟:用云服务器。

用自己的东西,Sogou本来就有机房。问题:新华社CNC是新华社的子部门,拒绝云数据低,数据处理量并不特别低。如果希望大规模普及,比如在CCTV中大规模应用的话,对云的数据处理量的拒绝并不低,Sogou在云端参与部署吗? 陈伟:现在还包括两个部分。有些是我们反对公共云的调动,没有公共云。

例如,有些公司必须使用,他们自己没有服务器,所以我们可以得到。其次,我们反对私有化的配置,可以在他自己的机房配置幻术的全面服务。这就是为什么Sogou说在幻术方面领先的原因。我们现在取得的服务,资源的空闲状态、实时性都几乎可以超过拒绝。

我们有很好的系统能力,接受了我们整个技术的缓慢输入。问题:整个幻术涉及大量的语言数据NLP处置,可以用什么方法获得? 陈伟:现在AI没有数据同意,从2012年到现在我们基本上做了七年多。早期进行语音识别的能力,后期有语音合成的能力,再加上我们进行嘴唇识别的研究。

几乎从2016年开始就认识嘴唇,另一个团队正在研究图像,基于表情分析的工作,揉成了今天的幻术。AI做播音员回到今天不是花了几个月的时间突击,而是数据本身的积累。从2012年到现在,Sogou一直在AI上投放,结果产生了。

问题:现在AI制造播音员在“工作”时,通风、倒气、同音词、中断等技术处理进展如何? 陈伟:这属于语音合成领域,但语音合成在我们现在的口语化传达中已经做得很好了。2018年,Sogou参与国际语音评价暴风雪预测,在语音评价方面获得国际第一名。

从能力整体来看,依然回到了行业最先进的路径。AI用来做播音员的能力,已经是国内第一个基于从末端到末端的神经音响编码器的先进设备技术,可以大幅度提高发音的真实性。

从我们的展示样品可以看出,谈话中的韵律、中断、中间的语气语都很俗气。这取决于数据的积累,大公司之间的数据差异不太明显,主要看技术上谁会更慢。无论是评价还是实际产品下跌,Sogou在整个制造领域都处于国内领先地位。我们期待Sogou的“幻术”的真实感与真人不同。

其中各不相同,大家看到的表情、嘴唇、动作,另一个是能听到声音。问题:建模分为图像建模和语音建模吗? 陈伟:有时我担心并建模。

我们确保的是表情、声音几乎实时。AI要做播音员,声音的制作和图像表情的制作之间需要实时性,这与牵引建模有关。问题:定制周期不会从第一代座式延长到双脚式吗? 现在,升级版本有什么提高? 要构成更细致的映像需要多少数据量呢? 陈伟:早期的技术不是成熟期,所以必须使用大量的数据。

现在一个人录音,放在一天的时间内,声音和视频都可以录完。另外,袭击港口的数据也很少。现在可以用几个小时的视频数据制作精细的图像。

数据越多,建模就越容易。我们能拒绝接受的上限是几个小时,几乎是少量。

关于语音合成,Sogou在此期间发表了一个名为Sogou知音坊的小程序。用户上传5到8分钟的声音,就可以分解自己定制的音色。成本已经很低了。我们必须承认在数据方面获得很多好处,以便实现业务级的可靠业务系统。

现在,国内通常定制了语音助理或定制版的通常语音合成,各大企业的语音合成数据量都在二三十小时以上。现在我们可以平稳数据量,商业化,降低到一两个小时左右。忠实度和模型制作问题:如何评价忠实度? 评价维和标准是什么样的? 陈伟:初期是人工评价的,是否细腻也是内部产品、算法同事一目了然,主观。

现在,Sogou达成了一些指标,通过大量的假设录音视频令牌的一部分制作了一套测试集,与人类相关视频进行比较。传输在完全相同的时间维度下看,放弃帧对比度,表情、口型、姿势整体的差异度是多少? 这表明整个研发过程都在展开,指标、目标依然在变化,但方法逐渐明确,即期待着与人的对比。

问题:真实性从什么方面提高和完善? 陈伟:这个问题是业界大家都会遇到的问题,非常简单地说,会遇到看播音员的嘴,镜头方向不同看不到播音员的侧面等动作幅度过大的角度问题。在几乎没有这样的信息的情况下,形态如何被更好地分解,表情应该怎么做成为问题。

模型被分解,如何更好地融合一些姿势,融合更自然的表情,这是以前应该做的。随着大家对我们的希望进一步降低,将不再关注播音员的表情。比如,开心的时候眉毛上扬,有点摇晃,在声音合成方面,在感情和感情方面如何进攻? 现在,从整个形象来看,我们的播音员只是位于一半以上,以前在全身和手势方面能做更多的工作吗? 当然,不能迂回的事情总有一天要和人类对比,有时能不能做得比人类好也是徒劳的,大家都想攻击这些问题。问题:模型本身有什么递归? 陈伟:我们不希望将其视为个人定制工作。

指出机器可以告诉你可靠的表情、嘴唇的形状。早期识别嘴唇时,每个人的嘴唇类型都有差异,总结数千小时的数据时,教学效果还很明显。反过来看,眼前的视频和语音数据可以一起分开。

我们要使“幻术”Sogou,就必须逐渐抽象化并具有特征。不仅说了从头到尾要做模型和训练,而且大量的制造数据在此基础上告诉机器标准化的特征,寻找自己的特征,转移到模型,Sogou“幻术”也需要转移,基于自学做这件事。

问题:除了微表情、微动作之外,下一个战略配置除了语音、图像识别,还必须在3D人体姿势模拟中如何投入呢? 陈伟:自己的幻术不是发出声音的团队,幻术有声音、图像特NLP的原始能力。由此以后明显得到了强化,在图像方面考虑了2D 3D的混合技术,在语音基础上有更多的NLP能力,强化了他的理解能力。

问题:现在机器没有实现理想嵌入式的能力吗? 陈伟:到目前为止我们还在Sogou知音。当时是语音交流。Sogou早期也有标准化的语音助理产品。

2014,2015年以后,一群语音助理倒下了。根本原因是其能力边界没有明确定义。2015年,Sogou知音实现了车载场景、可佩戴的设备,逐渐将对话推向了以任务为导向的助手。

等于理解、解读的范围和空间扩大了,可以操作的余地反而变大了。指出语音助手实际上没有应用于场景的是横向区域。现在人工智能一定处于初期阶段。

恢复标准化的人工智能、强大的人工智能还需要很多年。在这个过程中,不能使用这个技术,不妨碍成为不能使用的状态。

关于AI幻术的未来发展问题: AI幻术在整个Sogou的产品矩阵中是什么方向? 陈伟: AI幻术线条是在Sogou公司计算自然的相互作用和科学知识,在整个市场上实现原始的能力。如何使嵌入式更自然,机器必须有形象,如何使机器没有新的形象。后期如何塑造真实感与人无异的形象。基于这样的想法,我们在整个交互链中将语音合成改为多模式制造,主要是在Sogou的主线上完成的。

问题: AI幻术产品在海外有类似的竞争对手产品吗? 陈伟:现在没有。比如,在海外很受欢迎的深层假动作,只不过是回脸的方法。显示和驱动文本的技术、驱动文本分解视频的方式在国际上只有Sogou一家在做。

问题:现在科大信飞都、微软公司也实现了多模式,与新华社合作,Sogou哪方面的特制成为了他们? 陈伟:我真的包括两个方面。第一,技术领导和实际效果。当时我们有这个效果,和新华社说话时,他看到的已经接近落地的状态。

其次,我们没有把这项技术复制得很慢,也就是说已经制作了现在的幻术流水线。现在其他公司在这件事上的效果和Sogou有差异,明显的差异是他们还留在实验室研究的状态。

如果确实想将其推广到市场上,很难在确认的时间内生产出针对不同行业的幻术模型。这两年,Sogou在这件事上占了首位。问题:未来想在电影领域和游戏方面做一些推广和试水吗? 陈伟: Sogou在电影后期做过充分的调查。

电影后期对3D的依赖很强。特别是好莱坞有两种方法。

一种方式是通过在图稿中绘制3D图像,达成很多要点,演出驱动模型并使其动作。另一个最先进的技术是通过面部扫描建模修复模型。美工画的图像定制成本高,但精度适度高。3D成本会降低,但精度会降低。

以前的幻术能力,一个是图像,另一个是如何需要图像数据或语音数据,驱动幻术模型。这是我们的核心领域。我们也在考虑能否与后期的公司和电影建模公司合作降低他们的演出成本,一起驱动这个模型,这是我们现在正在考虑的。

原创文章,发布许可禁令刊登。以下,听取刊登的心得。


本文关键词:ope体育,ope体育官网

本文来源:ope体育-www.tamaghrabite.com