关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro2026-04-22 12:00:0184人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

记者:加拉塔萨雷向京多安开500万欧年薪,若谈妥曼城会放人

懂球帝 浏览 400 09-02

今年冬天最火搭配:毛衣+毛衣,放松穿更好看!

LinkFashion 浏览 151 11-27

谢孟伟拘留期满被释放,连发两条视频召集粉丝

娱慧 浏览 308 09-29

AI周报|ChatGPT广告来了;台积电最新季度净利润创新高

第一财经资讯 浏览 213 01-18

雷军,这次不对劲

创业家 浏览 293 10-17

伊媒披露以试图暗杀伊朗总统细节:发射6枚导弹或炸弹

环球网资讯 浏览 1513 07-14

对话零跑汽车朱江明:从“半价Model 3”到如何给年轻人情绪价值

车东西 浏览 7081 07-30

“网络达人科创观察营”在沪举行,探讨如何搭建科创传播的“鹊桥”

澎湃新闻 浏览 402 09-01

终于!短剧向经典IP出手了

艳姐的搞笑视频 浏览 313 10-13

《营救汪星人》成毅正在透支自己的观众缘

娱乐圈笔娱君 浏览 207 01-27

谢林汉姆:加纳乔非常有天赋,但不确定他能否在蓝军取得成功

懂球帝 浏览 314 10-13

效力球队三个赛季,狼队推出今年若塔的场刊

直播吧 浏览 2962 08-06

颜骏凌:和范德萨交换了联系方式,在儿时偶像面前踢球是圆梦

懂球帝 浏览 312 11-01

阿森纳官方:13名青训小将签订奖学金合同,为其举办签约仪式

懂球帝 浏览 5016 07-17

韩国法院驳回尹锡悦逮捕令

央视新闻客户端 浏览 2717 06-26

太二不做酸菜鱼了?告别酸菜鱼的太二想干啥?

江瀚视野 浏览 255 01-18

标配升级 全新2025款星纪元ES售18.98万元起

网易汽车 浏览 394 05-20

外媒披露普京在"普特会"上提出的停火条件 共有四项

上游新闻 浏览 512 08-22

智驾下一个关键挑战,是不被别人摘“桃子”?

虎嗅APP 浏览 162 11-27

罗马诺:米兰与德温特就个人条款达成一致,正在与热那亚谈判

懂球帝 浏览 9330 08-11

今年双11,搞出了点新意思

虎嗅APP 浏览 221 11-12
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11