音频转字幕自动翻译一条龙

更新
集成了sensevoice-small模型
删除了whisper-large-v3-turbo模型

关于效率
194分钟音频
whisper-large-v3-turbo 114秒输出字幕
whisper-large-v3 408秒自带英文字幕输出

主界面.jpg

API常见的都有,包括两个本地的,以下截图不全

API设置.jpg

一、软件简介

本工具将文件夹内的音频/视频批量转成 SRT 字幕，可选 API 翻译或 Whisper 内置译英
设置好API服务后,勾选API翻译时,转出字幕会自动翻译成你设置的目标语言,无需其他设置
Whisper 内置译英,无需API设置即可直接将任意语言输出为英语字幕

二、运行前准备

硬件
- 建议使用 NVIDIA 显卡（CUDA），转写速度明显快于 CPU。
- 显存建议 ≥ 6GB（large 级模型量化版约 3GB/路）。
授权
- 首次启动会验证正式授权 license.key 或在线试用(全功能72小时试用)。
- 试用/授权失败时，控制台会显示机器码，需联系我获取授权文件
- 正式版费用说明:200元,在线限时长.350元,离线授权,断网可用
启动方式
- 双击傻木摄影.exe运行
- 控制台出现 http://127.0.0.1:8765/ 后，浏览器会自动打开；

三、界面操作（逐步说明）

【第 1 步】选择音频文件夹

在「音频文件夹」输入路径，或点「浏览…」选择。
程序只处理该文件夹根目录下的文件，不递归子文件夹。
支持格式：.mp3 .wav .m4a .flac .aac .ogg .wma .mkv .mp4

【第 2 步】选择布局（右上角）

自动：屏幕物理宽度 ≥ 2200px 居中显示，否则全屏
标准：固定居中宽度
满屏：界面横向铺满

【第 3 步】选择模型

在「模型选择」下拉框中选择（见第四节两个模型的区别）。

【第 4 步】调整字幕参数（默认参数已最佳化,不建议调整）

单条最长：每条字幕最长持续时间（默认 8 秒）
单条最多：每条字幕最多字数（默认 35 字）
数值越大，单条字幕越长、行数越少；越小则切分更碎。

【第 5 步】翻译相关选项（可选，见第五节）

右侧勾选区可配置 API 翻译、双语对照、Whisper 自翻等。

【第 6 步】配置 API（需要翻译时）

展开底部「API 设置」。
填写对应平台的接口地址、API Key、默认模型。
点「测试」，通过后自动打开「翻译可选」开关。
启用后，该提供方会出现在右侧「翻译 API」下拉中。
支持：硅基流动、火山、LM Studio、Ollama、DeepSeek、智谱、Moonshot、OpenAI 等。

【第 7 步】开始转写

点「开始转字幕」。
可查看总进度 / 当前文件进度和运行日志。
任务进行中，设置项会锁定，需等全部完成后才能更改。

【第 8 步】查看结果

字幕默认保存在音频同目录，文件名与音频一致。
若有失败，文件夹内会生成「失败记录.txt」。
若勾选了自动翻译,则会生成_en字幕或者_all字幕文件

四、两个模型的区别与选用建议
程序内置两个 opeai/Whisper 模型，路径均在 py/openai/ 下：

对比项 Whisper large v3 turbo（默认） Whisper large v3

模型 ID openai/whisper-large-v3-turbo openai/whisper-large-v3
速度更快，适合大批量相对较慢
转写质量优秀，日常听书/播客推荐长音频时间轴更稳
Whisper 原生译英不支持（无翻译训练）支持
「自翻」选项不可用可用
「仅英文」选项不可用可用
推荐场景只要原语言字幕、追求速度要中英双轨或 Whisper 译英

【各自怎么用？】

场景 A：只要原语言字幕（最常见）

1. 选 Whisper large v3 turbo
2. 不勾选任何翻译选项
3. 开始转写 → 得到 文件名.srt

场景 B：要原语言 + 英文（Whisper 自己译）

1. 选 Whisper large v3
2. 勾选「自翻」
3. （可选）勾选「中英」或「英中」生成对照字幕
4. 得到：
   - 文件名.srt（原语言）
   - 文件名.en.srt（英文）
   - 文件名_all.srt（双语对照，若勾选了中英/英中）

场景 C：只要英文字幕（Whisper 译英）

1. 选 Whisper large v3
2. 勾选「仅英文」
3. 得到 文件名.srt（内容为英文）

场景 D：turbo 转写 + API 翻译任意语言

1. 选 Whisper large v3 turbo（或 large v3 均可）
2. 勾选「API翻译」
3. 选好翻译 API、源语种、目标语种
4. 得到：
   - 文件名.srt（原语言）
   - 文件名.en.srt（或 文件名.目标语种代码.srt）
   - 文件名_all.srt（若勾选中英/英中）

五、翻译选项说明
以下选项互斥，同时只能开一种主模式：

选项作用适用模型

API翻译转写完成后，用 LLM API 翻译整份字幕任意
中英双语合并，源语种在上、译文在下 → *_all.srt 配合 API翻译或自翻
英中双语合并，译文在上、源语种在下 → *_all.srt 同上
自翻 Whisper 先转写再译英，输出 .srt + .en.srt 仅 large v3
仅英文 Whisper 直接译英，只输出 .srt（英文）仅 large v3

源语种：选「自动」时由 Whisper 检测；也可手动指定（如中文音频选 zh）。

六、输出文件一览
以音频「播客第1集.mp3」为例：

文件名.srt 主字幕（原语言，或「仅英文」时的英文字幕）
文件名.en.srt 英文字幕（自翻 / API 译英时）
文件名.zh.srt 等 API 翻译到其它语种时（扩展名为语种代码）
文件名_all.srt 双语对照（勾选中英/英中时）
失败记录.txt 批量任务中有失败项时生成
主角光环.txt 输入文件（可选，见下）

七、进阶功能

主角光环（同音字纠错）
在音频文件夹内新建「主角光环.txt」，每行一个正确人名，例如：
```
 张璐
 李明
```
转写时会自动把同音错字替换为正确名字。
例如,某小说音频主角名称为张露
模型转写时可能会随机出现张禄,张璐,章录,脏路等等同音字
对于模型来说,这些都是对的,因此做了「主角光环.txt」
本程序会自动纠偏,最终输出结果时会输出报告

主角光环.png