趣丸科技携手港中大（深圳）共同推出首个开源语音大模型，引领智能语音技术新纪元

趣丸科技首个开源大模型来啦！

10月24日，趣丸科技宣布与香港中文大学（深圳）联合研发的语音大模型“MaskGCT”正式在Amphion系统中开源，面向全球用户开放使用。区别于传统TTS模型，该模型采用掩码生成模型与语音表征解耦编码的创新范式，在声音克隆、跨语种合成、语音控制等任务中展现出卓越效果。

MaskGCT在三个TTS基准数据集上都达到了SOTA效果，超过当前最先进的同类模型，某些指标甚至超过人类水平。

微信图片_20241025184938.png

论文链接：https://arxiv.org/abs/2409.00750

交互Demo：https://huggingface.co/spaces/amphion/maskgct

样例展示：https://maskgct.github.io/

Amphion地址：https://github.com/open-mmlab/Amphion

模型下载：https://huggingface.co/amphion/maskgct

项目地址：

https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct

公测版地址（趣丸千音）：voice.funnycp.com

目前，MaskGCT在短剧出海、数字人、智能助手、有声读物、辅助教育等领域拥有丰富的应用场景。为了加快落地应用，在安全合规下，趣丸科技打造了多语种速译智能视听平台“趣丸千音”。一键上传视频即可快速翻译成多语种版本，并实现字幕修复与翻译、语音翻译、唇音同步等功能。该产品进一步革新视频翻译制作流程，大幅降低过往昂贵的人工翻译成本和冗长的制作周期，成为影视、游戏、短剧等内容出海的理想选择平台。

本来小编想去试用一下，结果在注册的时候提示：短信发送频繁，设备受限。

换个手机号一样的提示，好吧.......

微信截图_20241025185602.png