音频转字幕自动翻译一条龙
关于效率
194分钟音频
whisper-large-v3-turbo 114秒 输出字幕
whisper-large-v3 408秒 自带英文字幕输出

API常见的都有,包括两个本地的,以下截图不全

一、软件简介
本工具将文件夹内的音频/视频批量转成 SRT 字幕,可选 API 翻译或 Whisper 内置译英
二、运行前准备
硬件
- 建议使用 NVIDIA 显卡(CUDA),转写速度明显快于 CPU。
- 显存建议 ≥ 6GB(large 级模型量化版约 3GB/路)。
授权
- 首次启动会验证正式授权 license.key 或在线试用(全功能72小时试用)。
- 试用/授权失败时,控制台会显示机器码,需联系我获取授权文件
- 正式版费用说明:200元,在线限时长.350元,离线授权,断网可用
启动方式
- 双击傻木摄影.exe运行
- 控制台出现 http://127.0.0.1:8765/ 后,浏览器会自动打开;
三、界面操作(逐步说明)
【第 1 步】选择音频文件夹
- 在「音频文件夹」输入路径,或点「浏览…」选择。
- 程序只处理该文件夹根目录下的文件,不递归子文件夹。
- 支持格式:.mp3 .wav .m4a .flac .aac .ogg .wma .mkv .mp4
【第 2 步】选择布局(右上角)
- 自动:屏幕物理宽度 ≥ 2200px 居中显示,否则全屏
- 标准:固定居中宽度
- 满屏:界面横向铺满
【第 3 步】选择模型
- 在「模型选择」下拉框中选择(见第四节两个模型的区别)。
【第 4 步】调整字幕参数(默认参数已最佳化,不建议调整)
- 单条最长:每条字幕最长持续时间(默认 8 秒)
- 单条最多:每条字幕最多字数(默认 35 字)
- 数值越大,单条字幕越长、行数越少;越小则切分更碎。
【第 5 步】翻译相关选项(可选,见第五节)
- 右侧勾选区可配置 API 翻译、双语对照、Whisper 自翻等。
【第 6 步】配置 API(需要翻译时)
- 展开底部「API 设置」。
- 填写对应平台的接口地址、API Key、默认模型。
- 点「测试」,通过后自动打开「翻译可选」开关。
- 启用后,该提供方会出现在右侧「翻译 API」下拉中。
- 支持:硅基流动、火山、LM Studio、Ollama、DeepSeek、智谱、Moonshot、OpenAI 等。
【第 7 步】开始转写
- 点「开始转字幕」。
- 可查看总进度 / 当前文件进度和运行日志。
- 任务进行中,设置项会锁定,需等全部完成后才能更改。
【第 8 步】查看结果
- 字幕默认保存在音频同目录,文件名与音频一致。
- 若有失败,文件夹内会生成「失败记录.txt」。
- 若勾选了自动翻译,则会生成_en字幕或者_all字幕文件
四、两个模型的区别与选用建议
程序内置两个 opeai/Whisper 模型,路径均在 py/openai/ 下:
对比项 Whisper large v3 turbo(默认) Whisper large v3
模型 ID openai/whisper-large-v3-turbo openai/whisper-large-v3
速度 更快,适合大批量 相对较慢
转写质量 优秀,日常听书/播客推荐 长音频时间轴更稳
Whisper 原生译英 不支持(无翻译训练) 支持
「自翻」选项 不可用 可用
「仅英文」选项 不可用 可用
推荐场景 只要原语言字幕、追求速度 要中英双轨或 Whisper 译英
【各自怎么用?】
场景 A:只要原语言字幕(最常见)
1. 选 Whisper large v3 turbo
2. 不勾选任何翻译选项
3. 开始转写 → 得到 文件名.srt
场景 B:要原语言 + 英文(Whisper 自己译)
1. 选 Whisper large v3
2. 勾选「自翻」
3. (可选)勾选「中英」或「英中」生成对照字幕
4. 得到:
- 文件名.srt(原语言)
- 文件名.en.srt(英文)
- 文件名_all.srt(双语对照,若勾选了中英/英中)
场景 C:只要英文字幕(Whisper 译英)
1. 选 Whisper large v3
2. 勾选「仅英文」
3. 得到 文件名.srt(内容为英文)
场景 D:turbo 转写 + API 翻译任意语言
1. 选 Whisper large v3 turbo(或 large v3 均可)
2. 勾选「API翻译」
3. 选好翻译 API、源语种、目标语种
4. 得到:
- 文件名.srt(原语言)
- 文件名.en.srt(或 文件名.目标语种代码.srt)
- 文件名_all.srt(若勾选中英/英中)
五、翻译选项说明
以下选项互斥,同时只能开一种主模式:
选项 作用 适用模型
API翻译 转写完成后,用 LLM API 翻译整份字幕 任意
中英 双语合并,源语种在上、译文在下 → *_all.srt 配合 API翻译 或 自翻
英中 双语合并,译文在上、源语种在下 → *_all.srt 同上
自翻 Whisper 先转写再译英,输出 .srt + .en.srt 仅 large v3
仅英文 Whisper 直接译英,只输出 .srt(英文) 仅 large v3
源语种:选「自动」时由 Whisper 检测;也可手动指定(如中文音频选 zh)。
六、输出文件一览
以音频「播客第1集.mp3」为例:
文件名.srt 主字幕(原语言,或「仅英文」时的英文字幕)
文件名.en.srt 英文字幕(自翻 / API 译英时)
文件名.zh.srt 等 API 翻译到其它语种时(扩展名为语种代码)
文件名_all.srt 双语对照(勾选中英/英中时)
失败记录.txt 批量任务中有失败项时生成
主角光环.txt 输入文件(可选,见下)
七、进阶功能
主角光环(同音字纠错)
在音频文件夹内新建「主角光环.txt」,每行一个正确人名,例如:张璐 李明转写时会自动把同音错字替换为正确名字。
例如,某小说音频主角名称为张露
模型转写时可能会随机出现张禄,张璐,章录,脏路等等同音字
对于模型来说,这些都是对的,因此做了「主角光环.txt」
本程序会自动纠偏,最终输出结果时会输出报告- 设置自动保存
界面设置会写入 Sam.json(模型、文件夹、字幕参数、API 配置等),
下次启动自动恢复。
八、注意事项(重要)
- 文件夹必须真实存在,且内含支持的音频文件。
- 任务进行中不能切换模型、改路径或 API,需等待完成。
- 仅扫描当前文件夹一层,子目录内音频不会被处理。
- turbo 不支持 Whisper 自翻/仅英文;需要这些功能必须切换到 large v3。
- API 翻译需先测试通过并开启「翻译可选」,否则下拉框无可用 API。
- 授权与硬件绑定;更换主板/CPU/网卡可能导致授权失效,需重新申请。
- 显存不足时可能报错或极慢;可关闭其它占 GPU 的程序后重试。
- 如果事先知道音频时中文还是英文,应该在源语种选择好语种
- 不限制音频时长,单音频16小时,5090 输出字幕时长约7分钟
评论 (0)