![趣丸科技聚拢港中大(深圳)开源语音大模子MaskGCT,刷新环球多项SOTA](/uploads/allimg/241113/130GHZ101948.jpg)
10月24日,趣丸科技文书与香港汉文大学(深圳)聚拢研发的语音大模子“MaskGCT”负责开源,面向环球用户灵通使用。永诀于传统TTS模子,该模子接收掩码生成模子与语音表征解耦编码的鼎新范式,在声息克隆、跨语种合成、语音为止等任务中展现出不凡性能。
![](http://p9.img.360kuai.com/t11508c75c82c307a60c716fc44.jpg)
据先容,MaskGCT在三个TTS基准数据集上都达到了SOTA效果,性能越过现时伊始进的同类模子,某些倡导以致越过东谈主类水平。显耀特色如下:1、秒级超传神的声息克隆:提供3秒音频样本即可复刻东谈主类、动漫、“耳边细语”等率性音色,且能竣工复刻语调、作风和方法。2、更爽快可控的语音生成:可纯真调度生谚语音的长度、语速和方法,赈济通过剪辑文本剪辑语音,并保执韵律、音色等方面的相配一致。3、高质地多语种语音数据集:考研于香港汉文大学(深圳)和趣丸科技等机构聚拢推出的10万小时数据集Emilia,是环球最大且最为各种的高质地多语种语音数据集之一,能干中英日韩法德6种话语的跨语种合成。
![](http://p9.img.360kuai.com/t11508c75c814830b6586d47a87.jpg)
据先容,MaskGCT(Masked Generative Codec Transformer)是一个大规模的零样本TTS模子,接收非自转头掩码生成Transformer,无需文本与语音的对皆监督和音素级执续时辰预料。其工夫冲突性在于接收掩码生成模子与语音表征解耦编码的鼎新范式。践诺标明,MaskGCT在语音质地、相同度和可领略性方面优于现时伊始进的TTS模子,况兼在模子规模和考研数据量增多时发扬更佳,同期大约为止生谚语音的总时长。MaskGCT已在香港汉文大学(深圳)与上海东谈主工智能践诺室聚拢开发的开源系统Amphion发布。该模子研发团队在语音领域领有深厚的探究蕴蓄和原创性遵循。这主要依托趣丸科技十年深耕音频工夫领域和亿级高质地语音用户的做事教授,以及香港汉文大学(深圳)外洋一活水平的师资队伍/span>
![](http://p9.img.360kuai.com/t11508c75c844fcd2723843a8f0.jpg)
当今,MaskGCT在短剧出海、数字东谈主、智能助手、有声读物、提拔阐发等领域领有丰富的利用场景。为了加速落地利用,在安全合规下,趣丸科技打造了多语种速译智能视听平台“趣丸千音”。一键上传视频即可快速翻译成多语种版块,并杀青字幕开辟与翻译、语音翻译、唇音同步等功能。该家具进一步更正视频翻译制作进程,大幅裁汰过往腾贵的东谈主工翻译老本和冗长的制作周期,成为影视、游戏、短剧等实质出海的理思选拔平台。举报/响应