参考指南

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

10月新势力...

物业公司抛售...

《南京照相馆...

杨紫扛剧女王...

洪秀柱观礼后...

吴启华：后悔...

外媒：马克龙在最后一刻加入反对阵营＂背叛＂了默茨

新民眼｜期待更多上海AI人，愿啃底层技术，把产品做到“为人服务”

时代不同了，莲花怎么办？

马斯克最担心的事情来了，阿里投资了核电站！

【中超】恩里克2球迪力穆拉提世界波梅州1比4玉昆

全系搭载3颗图灵AI芯片，全新小鹏P7正式亮相

美国＂放行＂，中国反劝企业避用英伟达H20

美媒：中国技术突破极限 42条输电线路全都碾压美国

克罗宁没有明确表示利拉德会缺席整个下赛季球员本人也没说

突发！科兴制药拟赴港IPO

从补短板到抢先机机器人操作系统M-Robots OS启动开源丨新经济观察

剪发总翻车？30秒测额头类型！对应刘海公式 + 化妆技巧全拿捏

王腾承认离开小米：犯了错，感谢雷总培养

90后美国男子在中国当15年道士：已拿到中国＂五星卡＂

辛辛那提“美网风向标”口号遭网友恶搞，新口号被称写实一夜爆火

姚晨高调晒幸福！曹郁成奥斯卡评委，张艺谋后又一华人获国际认可

应县千年木塔旁每晚DJ音乐不断居民多方投诉未获回应

周云杰，小心雷军

安帅批评国际足联：比赛过多，导致质量下降与球员受伤增多

签署共同防御协议沙特回应巴基斯坦是否提供核保护伞

欧盟官员：酝酿对美关税政策反制措施包含所有选项

上海有个神秘夜市凌晨开市天亮消失需要打着手电筒逛

E句话|工作室宣布向涵之单身？

致敬经典，夏威夷一画家在涂鸦墙画出科比08奥运噤声庆祝造型