巴中炒股开户

发布信息请严格遵守法律法规  |    |  客服中心  |  网站地图
当前位置: 股票配资 » 资讯 » 网络杂谈 » 正文

只看手势行动,就能完善复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

放大字体  缩小字体 发布日期:2020-07-24  浏览次数:0
核心提示:原标题:只看手势行动,就能完善复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!会玩
 

巴中炒股开户原标题:只看手势行动,就能完善复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

巴中炒股开户会玩乐器的人在生活中简直自带光环!

不外,学会一门乐器也真的很难,几多人陷入过从入门到放弃的死循环。

但是,不会玩乐器,就真的不能演奏出好听的音乐了吗?

最近,麻省理工(MIT)联合沃森人工智能实验室(MIT-IBM Watson AI Lab)配合开发出了一款AI模子Foley Music,它可以根据演奏手势完善还原乐曲原声!

巴中炒股开户而且照旧不分乐器的那种,小提琴、钢琴、尤克里里、吉他,统统都可以。

只要拿起乐器,就是一场专业演奏会!如果喜爱差别音调,还可以对音乐气势气魄举行编辑,A调、F调、G调均可。

这项名为《Foley Music:Learning to GenerateMusic from Videos》的技能论文已被ECCV?2020收录。

巴中炒股开户接下来,我们看看AI模子是如何还原音乐的?

巴中炒股开户会玩多种乐器的Foley Music

巴中炒股开户犹如为一段舞蹈配乐需要相识肢体行动、舞蹈气势气魄一样,为乐器演奏者配乐,同样需要知道其手势、行动以及所用乐器。

如果给定一段演奏视频,AI会自动锁定目标对象的身体要害点(Body Keypoints),以及演奏的乐器和声音。

身体要害点:由AI体系中的视觉感知模块(Visual Perception Model)来完成。它会通过身体姿势和手势的两项指标来反馈。一般身领会提取25个关2D点,手指提起21个2D点。

乐器声音提取:接纳音频表征模块(Audio Representation Model),该模块研究职员提出了一种乐器数字化接口(Musical Instrument Digital Interface,简称MIDI)的音频表征情势。它是Foley Music区别于其他模子的要害。

研究职员先容,对于一个6秒中的演奏视频,通常会天生约莫500个MIDI事件,这些MIDI事件可以轻松导入到尺度音乐合成器以天生音乐波形。

在完成信息提取和处置惩罚后,接下来,视-听模块(Visual-Audio Model)将整合全部信息并转化,天生终极相匹配的音乐。

巴中炒股开户我们先来看一下它完备架构图:主要由视觉编码,MIDI解码和MIDI波形图输出三个部门组成。

视觉编码:将视觉信息举行编码化处置惩罚,并通报给转换器MIDI解码器。从视频帧中提取要害坐标点,使用GCN(Graph-CNN)捕捉人体动态随时间变化产生的潜在表示。

MIDI解码器:通过Graph-Transfomers完成人体姿态特性和MIDI事件之间的相干性举行建模。Transfomers是基于编解码器的自回归天生模子,主要用于呆板翻译。在这里,它可以根据人体特性准确的预测MIDI事件的序列。

MIDI输出:使用尺度音频合成器将MIDI事件转换为终极的波形。

实验结果

研究职员证实Foley Music远优于现有其他模子。在对比试验中,他们接纳了三种数据集对Foley Music举行了训练,并选择了9中乐器,与其它GAN-based、SampleRNN和WaveNet三种模子举行了对比评估。

巴中炒股开户其中,数据集分别为AtinPiano、MUSIC及URMP,涵盖了凌驾11个种别的约莫1000个高质量的音乐演奏视频。乐器则为风琴,贝斯,巴松管,大提琴,吉他,钢琴,大号,夏威夷四弦琴和小提琴,其视频长度均为6秒。以下为定量评估结果:

可见,Foley Music模子在贝斯(Bass)乐器演奏的预测性能最高到达了72%,而其他模子最高仅为8%。

另外,从以下四个指标来看,结果更为突出:

正确性:天生的歌曲与视频内容之间的相干性。

噪音:音乐噪音最小。

同步性:歌曲在时间上与视频内容最一致。

黄色为Foley Music模子,它在各项指标上的性能体现远远凌驾了其他模子,在正确性、噪音和同步性三项指标上最高均凌驾了0.6,其他最高不足0.4,且9种乐器均是云云。

另外,研究职员还发明,与其他基准体系相比,MIDI事件有助于改善声音质量,语义对齐和时间同步。

说明

GAN模子:它以人体特性为输入,通过鉴别其判定其姿态特性所产生的频谱图是真或是假,颠末重复训练后,通过傅立叶逆变换将频谱图转换为音频波形。

SampleRNN:是无条件的端到端的神经音频天生模子,它相较于WaveNet结构更简朴,在样本级层面天生语音要更快。

WaveNet:是谷歌Deepmind推出一款语音天生模子,在text-to-speech和语音天生方面体现很好。

巴中炒股开户另外,该模子的上风还在于它的可扩展性。MIDI表示是完全可解释和透明的,因此可以对预测的MIDI序枚举行编辑,以天生A\G\F调差别气势气魄音乐。?如果使用波形或者频谱图作为音频表示情势的模子,这个功效是不可实现的。

巴中炒股开户末了研究职员在论文中表明,此项研究通过人体要害点和MIDI表示很好地建立视觉和音乐信号之间的相干性,实现了音乐气势气魄的可拓展性。为当前研究视频和音乐接洽拓展出了一种更好的研究路径。

以下为Youtobe视频,一起来感觉下AI音乐!

http://www.youtube.com/watch?v=bo5UzyDB80E

巴中炒股开户引用链接:(雷锋网雷锋网(公众号:雷锋网)雷锋网)

http://foley-music.csail.mit.edu/

http://arxiv.org/pdf/2007.10984.pdf

http://venturebeat.com/2020/07/23/researchers-ai-system-infers-music-from-silent-videos-of-musicians/

雷锋网原创文章,未经授权克制转载。详情见转载须知。

 
 
[ 资讯搜索 ]  [ ]  [ 告诉好友 ]  [ 打印本文 ]  [ 关闭窗口 ]

 
0条 [查看全部]  相关评论

 
推荐图文
推荐资讯
点击排行
发现配资网 五金股票新闻网 环保投资网 99挖财宝 知识之窗网 葫芦岛新闻网 诊股健康网