首页
友情链接
全景相册
随机剧照
本站声明
壁纸
Search
1
diffusers-image-outpaint,智能扩图工具,懒人包,有更新
8,656 阅读
2
AIGC数字影像馆,键盘摄影大师(一键懒人包)
4,085 阅读
3
Diffusers-Image-Community,AI扩图,新版懒人包
3,152 阅读
4
三款离线OCR对比(供下载)
3,128 阅读
5
台湾-景(阿里山,101,故宫,日月潭)
3,094 阅读
摄影类
茶余饭后
软件类
Search
标签搜索
AI
园博园
五一
锦绣园
甘坑
重庆
大模型
荔枝公园
开源
懒人包
台湾
相机
大梅沙
沙井
大沙河
南头古城
锦绣中华
博物馆
华强北
一个公园
傻木摄影
累计撰写
633
篇文章
累计收到
145
条评论
首页
栏目
摄影类
茶余饭后
软件类
页面
友情链接
全景相册
随机剧照
本站声明
壁纸
搜索到
1
篇与
字幕
的结果
2026-06-13
音频转字幕自动翻译一条龙
音频转字幕自动翻译一条龙 关于效率 194分钟音频 whisper-large-v3-turbo 114秒 输出字幕 whisper-large-v3 408秒 自带英文字幕输出  API常见的都有,包括两个本地的,以下截图不全  一、软件简介 本工具将文件夹内的音频/视频批量转成 SRT 字幕,可选 API 翻译或 Whisper 内置译英 二、运行前准备 1. 硬件 - 建议使用 NVIDIA 显卡(CUDA),转写速度明显快于 CPU。 - 显存建议 ≥ 6GB(large 级模型量化版约 3GB/路)。 2. 授权 - 首次启动会验证正式授权 license.key 或在线试用(全功能72小时试用)。 - 试用/授权失败时,控制台会显示机器码,需联系我获取授权文件 - 正式版费用说明:200元,在线限时长.350元,离线授权,断网可用 3. 启动方式 - 双击傻木摄影.exe运行 - 控制台出现 http://127.0.0.1:8765/ 后,浏览器会自动打开; 三、界面操作(逐步说明) 【第 1 步】选择音频文件夹 - 在「音频文件夹」输入路径,或点「浏览…」选择。 - 程序只处理该文件夹根目录下的文件,不递归子文件夹。 - 支持格式:.mp3 .wav .m4a .flac .aac .ogg .wma .mkv .mp4 【第 2 步】选择布局(右上角) - 自动:屏幕物理宽度 ≥ 2200px 居中显示,否则全屏 - 标准:固定居中宽度 - 满屏:界面横向铺满 【第 3 步】选择模型 - 在「模型选择」下拉框中选择(见第四节两个模型的区别)。 【第 4 步】调整字幕参数(默认参数已最佳化,不建议调整) - 单条最长:每条字幕最长持续时间(默认 8 秒) - 单条最多:每条字幕最多字数(默认 35 字) - 数值越大,单条字幕越长、行数越少;越小则切分更碎。 【第 5 步】翻译相关选项(可选,见第五节) - 右侧勾选区可配置 API 翻译、双语对照、Whisper 自翻等。 【第 6 步】配置 API(需要翻译时) 1. 展开底部「API 设置」。 2. 填写对应平台的接口地址、API Key、默认模型。 3. 点「测试」,通过后自动打开「翻译可选」开关。 4. 启用后,该提供方会出现在右侧「翻译 API」下拉中。 - 支持:硅基流动、火山、LM Studio、Ollama、DeepSeek、智谱、Moonshot、OpenAI 等。 【第 7 步】开始转写 1. 点「开始转字幕」。 2. 可查看总进度 / 当前文件进度和运行日志。 3. 任务进行中,设置项会锁定,需等全部完成后才能更改。 【第 8 步】查看结果 - 字幕默认保存在音频同目录,文件名与音频一致。 - 若有失败,文件夹内会生成「失败记录.txt」。 - 若勾选了自动翻译,则会生成_en字幕或者_all字幕文件 四、两个模型的区别与选用建议 程序内置两个 opeai/Whisper 模型,路径均在 py/openai/ 下: 对比项 Whisper large v3 turbo(默认) Whisper large v3 ----------------------------------------------------------------------- 模型 ID openai/whisper-large-v3-turbo openai/whisper-large-v3 速度 更快,适合大批量 相对较慢 转写质量 优秀,日常听书/播客推荐 长音频时间轴更稳 Whisper 原生译英 不支持(无翻译训练) 支持 「自翻」选项 不可用 可用 「仅英文」选项 不可用 可用 推荐场景 只要原语言字幕、追求速度 要中英双轨或 Whisper 译英 【各自怎么用?】 场景 A:只要原语言字幕(最常见) 1. 选 Whisper large v3 turbo 2. 不勾选任何翻译选项 3. 开始转写 → 得到 文件名.srt 场景 B:要原语言 + 英文(Whisper 自己译) 1. 选 Whisper large v3 2. 勾选「自翻」 3. (可选)勾选「中英」或「英中」生成对照字幕 4. 得到: - 文件名.srt(原语言) - 文件名.en.srt(英文) - 文件名_all.srt(双语对照,若勾选了中英/英中) 场景 C:只要英文字幕(Whisper 译英) 1. 选 Whisper large v3 2. 勾选「仅英文」 3. 得到 文件名.srt(内容为英文) 场景 D:turbo 转写 + API 翻译任意语言 1. 选 Whisper large v3 turbo(或 large v3 均可) 2. 勾选「API翻译」 3. 选好翻译 API、源语种、目标语种 4. 得到: - 文件名.srt(原语言) - 文件名.en.srt(或 文件名.目标语种代码.srt) - 文件名_all.srt(若勾选中英/英中) 五、翻译选项说明 以下选项互斥,同时只能开一种主模式: 选项 作用 适用模型 ----------------------------------------------------------------------- API翻译 转写完成后,用 LLM API 翻译整份字幕 任意 中英 双语合并,源语种在上、译文在下 → *_all.srt 配合 API翻译 或 自翻 英中 双语合并,译文在上、源语种在下 → *_all.srt 同上 自翻 Whisper 先转写再译英,输出 .srt + .en.srt 仅 large v3 仅英文 Whisper 直接译英,只输出 .srt(英文) 仅 large v3 源语种:选「自动」时由 Whisper 检测;也可手动指定(如中文音频选 zh)。 六、输出文件一览 以音频「播客第1集.mp3」为例: 文件名.srt 主字幕(原语言,或「仅英文」时的英文字幕) 文件名.en.srt 英文字幕(自翻 / API 译英时) 文件名.zh.srt 等 API 翻译到其它语种时(扩展名为语种代码) 文件名_all.srt 双语对照(勾选中英/英中时) 失败记录.txt 批量任务中有失败项时生成 主角光环.txt 输入文件(可选,见下) 七、进阶功能 1. 主角光环(同音字纠错) 在音频文件夹内新建「主角光环.txt」,每行一个正确人名,例如: 张璐 李明 转写时会自动把同音错字替换为正确名字。 例如,某小说音频主角名称为张露 模型转写时可能会随机出现张禄,张璐,章录,脏路等等同音字 对于模型来说,这些都是对的,因此做了「主角光环.txt」 本程序会自动纠偏,最终输出结果时会输出报告 2. 设置自动保存 界面设置会写入 Sam.json(模型、文件夹、字幕参数、API 配置等), 下次启动自动恢复。 八、注意事项(重要) 1. 文件夹必须真实存在,且内含支持的音频文件。 2. 任务进行中不能切换模型、改路径或 API,需等待完成。 3. 仅扫描当前文件夹一层,子目录内音频不会被处理。 4. turbo 不支持 Whisper 自翻/仅英文;需要这些功能必须切换到 large v3。 5. API 翻译需先测试通过并开启「翻译可选」,否则下拉框无可用 API。 6. 授权与硬件绑定;更换主板/CPU/网卡可能导致授权失效,需重新申请。 7. 显存不足时可能报错或极慢;可关闭其它占 GPU 的程序后重试。 8. 如果事先知道音频时中文还是英文,应该在源语种选择好语种 9. 不限制音频时长,单音频16小时,5090 输出字幕时长约7分钟 链接:[https://pan.baidu.com/s/1KTyjuHUwk6K8x8pAYwvRPQ?pwd=gpcb](https://pan.baidu.com/s/1KTyjuHUwk6K8x8pAYwvRPQ?pwd=gpcb)
2026年06月13日
3 阅读
0 评论
0 点赞
网站版权本人所有,你要有本事,盗版不究。 sam@gpcb.net