打开字节、阿里们的多模态能力地图,每块宝藏都标着"语音”。
近期,就在阿里通义千问团队发布翻译模型Qwen-MT的同一天,字节跳动旗下的火山引擎正式对外发布了豆包·同声传译模型 Seed LiveInterpret 2.0,后者的模型在多个Benchmark测试中都获得了大幅度领先,但其实该模型的首版发布已经是去年的事了。
时隔一年,字节再次将这个模型端出来,并花大力气更新换代了一次,字节想做什么?
我们可以把时间线串联起来看:字节豆包团队于 2024 年推出了旗舰语音生成基础模型 Seed-TTS,今年1月发布了豆包 Realtime Voice Model(首个端到端语音理解与生成模型),4月开源了中英双语TTS模型MegaTTS3,1个月前则发布了豆包播客语音模型。
作为豆包多模态能力中的重要一环,字节将同声传译补足到了语音能力之中。反观阿里,去年也曾高调推出了新一代端到端语音翻译大模型 Gummy,这回在翻译能力上又进一步。如果将视野再打开,环