关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro2026-04-22 12:00:0182人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

马斯克最担心的事情来了,阿里投资了核电站!

花朵财经 浏览 216 01-28

【中超】恩里克2球迪力穆拉提世界波 梅州1比4玉昆

体坛周报 浏览 303 10-25

全系搭载3颗图灵AI芯片,全新小鹏P7正式亮相

光子星球 浏览 9594 08-07

美国"放行",中国反劝企业避用英伟达H20

网易科技报道 浏览 726 08-13

美媒:中国技术突破极限 42条输电线路全都碾压美国

澎湃新闻 浏览 311 10-13

克罗宁没有明确表示利拉德会缺席整个下赛季 球员本人也没说

直播吧 浏览 7548 07-22

突发!科兴制药拟赴港IPO

财通社 浏览 447 08-23

从补短板到抢先机 机器人操作系统M-Robots OS启动开源丨新经济观察

封面新闻 浏览 2757 07-31

剪发总翻车?30秒测额头类型!对应刘海公式 + 化妆技巧全拿捏

Yuki女人故事 浏览 4823 08-13

王腾承认离开小米:犯了错,感谢雷总培养

网易科技频道 浏览 414 09-09

90后美国男子在中国当15年道士:已拿到中国"五星卡"

FM93浙江交通之声 浏览 9879 07-12

辛辛那提“美网风向标”口号遭网友恶搞,新口号被称写实一夜爆火

网球之家 浏览 7236 08-13

姚晨高调晒幸福!曹郁成奥斯卡评委,张艺谋后又一华人获国际认可

娱乐白名单 浏览 1814 07-13

应县千年木塔旁每晚DJ音乐不断 居民多方投诉未获回应

红星新闻 浏览 6377 07-31

周云杰,小心雷军

字母榜 浏览 483 08-20

安帅批评国际足联:比赛过多,导致质量下降与球员受伤增多

懂球帝 浏览 401 08-23

签署共同防御协议 沙特回应巴基斯坦是否提供核保护伞

澎湃新闻 浏览 34768 09-19

欧盟官员:酝酿对美关税政策反制措施 包含所有选项

央视新闻客户端 浏览 7462 05-07

上海有个神秘夜市凌晨开市天亮消失 需要打着手电筒逛

随申Hi 浏览 5241 08-14

E句话|工作室宣布向涵之单身?

仙女事件簿 浏览 131 01-06

致敬经典,夏威夷一画家在涂鸦墙画出科比08奥运噤声庆祝造型

懂球帝 浏览 408 08-26
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11