Github狂揽8700星！前Facebook技术工程师开发设计Mocking Bird，五秒模仿你的声音，适用中文

商标 https://www.45qun.com/ganhuo/tm

新智元报导

来源于：GitHub

编写：LRS

【新智元前言】伴随着AI技术的发展趋势，在模仿脸以后，模仿声音也不是难题。近期GitHub上一个挺火的新项目，能够迅速模仿声音，最重要的是适用中文，现阶段已获得8700星！

GitHub上有一个新项目近期走上了每日发展趋势榜，只需5秒，就能用AI技术来仿真模拟声音来转化成随意视频语音內容，而且还适用中文。

现阶段该工程在GitHub已狂揽8700星。

依据提交的演试视频看来，声音模仿的也很真实。

https://www.bilibili.com/video/BV17Q4y1B7mY/

MockingBird的首要特点包含：

1、适用普通话水平并采用多种多样中文数据开展检测：aidatatang_200zh，magicdata，aishell3，biaobei，MozillaCommonVoice等；

2、适用pytorch，已在1.9.0版本号（全新于2021年8月）中检测，GPUTeslaT4和GTX2060；

3、可在Windows电脑操作系统和linux电脑操作系统中运作（ios系统M1版也是有小区取得成功运作实例）；

4、仅需免费下载或新训练合成器（synthesizer）就会有显著成绩，重复使用预训练的伺服电机/声码器，或即时的HiFi-GAN做为vocoder；

5、给予一个Webserver可查询训练結果，供远程控制启用。

新项目的作者是前Facebook的技术工程师，现阶段自主创业情况，写作的MockingBird仅用10天就窜上GitHubTrending榜。

而且在知乎上也有栏目MockingBird训练小窍门，能够说成家庭保姆级实例教程了。

比如创作者共享的工作经验，在同一个数据信息集中化大约训练了100kstep以后，假如loss一直不断紧紧围绕一个值起伏，与此同时发觉转化成实际效果不增反还低，很可能你深陷了训练的多重共线性（overfitting），这时必须立即终断训练，采用新的训练姿态：

1、换或增加更高数据；

2、改动hparam.py文件中的主要参数，比如batchsize，learnrate等，用同一或是新的数据开展简短的学习培训，保证loss和实际效果不断变好，不然Save/Load大法返回实体模型。

终断训练时，能够载入最好是实际效果的更初版本开展上述实际操作，比如你一直在150k发觉多重共线性，可是110k的建模实际效果好于150k的，就将110k的模式文档立即更名后作为主文档应用。

MockingBird的运用也比较简单。

最先安裝好PyTorch、ffmpeg、webrtcvad-wheels和requirements.txt中规定的剩下包。

第二步是提前准备预训练实体模型，能够应用创作者带来的或是是别人训练好的实体模型。

关键的数据处理方法实际操作是开展声频和梅尔频谱图预备处理：pythonpre.py能够传到主要参数--dataset{dataset}适用aidatatang_200zh,magicdata,aishell3

第三步在电脑浏览器立即运行一个Web程序流程来实现调节。

或是运行一个更健全的辅助工具手机软件。

创作者还细心的附在了全部能够學習的文章及初始代码仓库。

这一货仓的名称MockingBird是仿声鸟、反舌鸟，以擅于模仿别的飞禽及虫类、两用动物叫声而出名，也是一种经常会出现在西方文学或影视剧当中的飞禽，在生理学上是嘲鸫的别名。知名的书的名字《杀死一只知更鸟》的英语便是ToKillaMockingBird，事实上归属于汉语翻译的不正确，知更鸟的英语是Robin。

自然这类AI模仿他人的技术一定普遍存在着很大的风险性。

早在2013年，就会有新闻报导，骗子公司拟音手机软件假冒家人声音，认为是孩子上当受骗。

在电話里，骗子公司的声音与儿子的一模一样，假称校园内被车撞开车撞人，要张女士赶快汇款给人做手术，但事实上孩子压根都不容易驾车。

在2013年，沒有规模性神经元网络扶持下，变声软件还没有非常比较发达，那时候南京一家软件开发公司从业程序开发的技术工程师老家伙说，要想根据某一款手机软件来模仿他人的声音是很艰难的，除开手机软件的适用，还需要通过专业性的技术解决。老家伙详细介绍，要做到模仿一个声音，不但要从声音的音质、頻率剖析，还需要充分考虑语调和步调等要素。

一般来说，要根据手机软件拟音，最先是取样，內容尽可能丰富多彩，和必须仿真模拟的讲话內容贴近。取样后还要开展以后的技术专业解决，随后再通过人力调节，做到模仿声音的目地。以当初的拟音技术，或是比较容易被揭穿的，因此假如骗子公司要用它来坑人，一般都需要构建一个噪杂的自然环境，不然非常容易被揭穿。

而现如今不用专业技能就可以依照MockingBird给的提醒非常容易就可以模仿别人的声音。

乃至骗子公司还有很有可能看准并不是一般群体开展行骗，根据仿冒别的真实身份开展行骗。

2020年12月也是有一起骗案，12月，某企业财务小赵收到上级领导电話，规定马上给经销商转帐2万元，并将转帐信息内容以电子邮件方式推送，转帐原因是防止交纳税款滞纳金。因为老总的话音十分真实，小赵深信不疑，在1小时内转帐进行，后发觉上当受骗。

2019年9月，犯罪嫌疑人应用视频语音克隆软件对美国一家电力能源公司高管的声音开展模仿。该企业的监事会主席在接通骗子电话后，将24万美金汇到了一个奥地利帐户。现阶段，该犯罪分子并未被抓捕。

2020年2月20日，网络安全权威专家企业Symantec汇报了三起声频诈骗案例，犯罪嫌疑人根据会议电话、YouTube、社交媒体及其TED演讲得到了公司高管的声频，随后用深度学习技术拷贝管理层的声音，拨通财务部的高档组员规定应急汇钱。

上年7月，英国时尚媒体TheVerge报导称，互联网嫌犯已经运用Deepfake仿造公司高管的视频语音，生成视频语音发送邮件至公司职员，对大型的企业开展经济诈骗。

除开换声音，脸也让你换了！

近些年，以「深层仿冒」技术（Deepfake）为象征的AI变脸技术日益完善。根据「深层仿冒」技术，能够将照片或视频中A的脸转到B的头顶。其名称由深层深度学习（deepmachinelearning）和假相片（fakephoto）组成。

骗子公司最先剖析群众公布在网络上的各种信息内容，依据所要执行的骗局，根据AI技术挑选总体目标群体。在视频通话中运用AI变脸，骗取信任。

安全性剖析企业Sensity的调查报告称，自2018年12月至今，“深层仿冒”技术线上作假视频的总量大概每6个月翻一番，而截止到2020年6月，作假视频早已高达4908一个，比2019年7月提高了330%。

伴随着AI技术的持续升級，过去的鉴别方法许多都现已无效，比如生成角色不容易眨眼睛等。

道高一尺魔高一丈，技术没罪，重要需看由谁来应用他。自然高新科技做为专用工具毫无疑问越繁荣越好，不可以由于社会道德要素而阻拦科学研究技术的发展。

参考文献：

https://github.com/babysor/MockingBird