关闭广告

媒体播放器通用框架 FFmpeg 推出 AI 语音识别功能

IT之家2025-08-14 00:00:013525人阅读

IT之家 8 月 13 日消息,FFmpeg 是一个流行的开源媒体播放器通用框架,现在包含了一个新的 af_whisper 音频工具,可以直接在 FFmpeg 生态系统中实现自动语音识别(ASR)。


该工具使用了 whisper.cpp 库,为媒体处理工作流程添加了一个 AI 模型,允许进行灵活的音频转译文本,包括选择 AI 模型、指定语言以及设置输出格式,如文本、SRT 或 JSON

该工具可以处理预录制的文件和实时音频流,用户还可以使用语音激活检测(VAD)来提高转写的准确性和效率。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中方公布重要证据后 日本防卫大臣只得改口但依然狡辩

环球时报国际 浏览 243 12-11

广西三江突发洪水 无人机从天而降硬核救援

极目新闻 浏览 1176 06-26

苹果拟考虑使用谷歌Gemini模型来支持新版Siri

界面新闻 浏览 355 08-23

全球最大、国内首制万吨级纯电动智能海船“宁远电鲲”号开启海试

IT之家 浏览 192 02-04

新华保险首个中资产康养旅居社区落地开启旅居养老新范式

经理人杂志 浏览 274 10-31

首搭纯电quattro 奥迪E5 Sportback售23.59万起

网易汽车 浏览 331 09-18

两部门紧急预拨1.5亿元中央自然灾害救灾资金

浏览 8577 07-14

李昊:扑救就是一个小部分,最重要的是大家整体的防守

懂球帝 浏览 340 09-10

市场变化越快,华润啤酒越稳

斑马消费 浏览 455 08-20

小米YU7都用上刀片电池了,为什么不支持比亚迪的兆瓦闪充?

车有梗 浏览 1357 06-30

纯电续航215km 极狐阿尔法T5增程版官图发布

车质网 浏览 311 10-12

乌官员:袭击乌方设施的俄"榛树"导弹未携带弹头

环球网资讯 浏览 226 01-11

瞭望 | 哈工大仪器学科:挑战尖端 仪器报国

新华社 浏览 469 08-19

低价“银行直供房”激增,有房产价格低于市价25%

第一财经 浏览 259 11-10

迪丽热巴工作室再出“奇招”,粉丝是真没招了

年两 浏览 8321 07-31

小米SU7成都事故惨烈 "打不开的门"问题在哪儿

网易汽车 浏览 295 10-17

美国女市长被指婚内与保镖偷情 面临18项罪名起诉

红星新闻 浏览 463 08-19

Beats苹果iPhone 17e专用保护壳发售,399元

IT之家 浏览 169 03-03

搭VLA大模型 全新蓝山智能进阶版将上市

网易汽车 浏览 219 12-22

8个观众,票房仅233元,2025年9月最惨新片诞生了

靠谱电影君 浏览 425 09-02

吴千语施伯雄逛街被偶遇,勾肩同行 有说有笑

扒虾侃娱 浏览 290 10-26
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11