参考指南

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

柬埔寨内政部...

加沙卫生部门...

外媒看苹果发...

“换下英伟达...

1-0击败阿...

全智贤代言受...

谁让汽车芯片成了不能说、不敢说的秘密？

国防部谈航母福建舰入列进展

鲁本-迪亚斯：经验告诉我们，如果不在最佳状态就无法夺冠

记者：加拉塔萨雷向京多安开500万欧年薪，若谈妥曼城会放人

今年冬天最火搭配：毛衣+毛衣，放松穿更好看！

谢孟伟拘留期满被释放，连发两条视频召集粉丝

AI周报|ChatGPT广告来了；台积电最新季度净利润创新高

雷军，这次不对劲

伊媒披露以试图暗杀伊朗总统细节：发射6枚导弹或炸弹

对话零跑汽车朱江明：从“半价Model 3”到如何给年轻人情绪价值

“网络达人科创观察营”在沪举行，探讨如何搭建科创传播的“鹊桥”

终于！短剧向经典IP出手了

《营救汪星人》成毅正在透支自己的观众缘

谢林汉姆：加纳乔非常有天赋，但不确定他能否在蓝军取得成功

效力球队三个赛季，狼队推出今年若塔的场刊

颜骏凌：和范德萨交换了联系方式，在儿时偶像面前踢球是圆梦

阿森纳官方：13名青训小将签订奖学金合同，为其举办签约仪式

韩国法院驳回尹锡悦逮捕令

太二不做酸菜鱼了？告别酸菜鱼的太二想干啥？

标配升级全新2025款星纪元ES售18.98万元起

外媒披露普京在＂普特会＂上提出的停火条件共有四项

智驾下一个关键挑战，是不被别人摘“桃子”？

罗马诺：米兰与德温特就个人条款达成一致，正在与热那亚谈判

今年双11，搞出了点新意思