音频转字幕自动翻译一条龙

音频转字幕自动翻译一条龙

傻木
2026-06-13 / 0 评论 / 3 阅读 / 正在检测是否收录...

音频转字幕自动翻译一条龙

关于效率
194分钟音频
whisper-large-v3-turbo 114秒 输出字幕
whisper-large-v3 408秒 自带英文字幕输出

主界面.jpg

API常见的都有,包括两个本地的,以下截图不全

API设置.jpg

一、软件简介

本工具将文件夹内的音频/视频批量转成 SRT 字幕,可选 API 翻译或 Whisper 内置译英

二、运行前准备

  1. 硬件

    • 建议使用 NVIDIA 显卡(CUDA),转写速度明显快于 CPU。
    • 显存建议 ≥ 6GB(large 级模型量化版约 3GB/路)。
  2. 授权

    • 首次启动会验证正式授权 license.key 或在线试用(全功能72小时试用)。
    • 试用/授权失败时,控制台会显示机器码,需联系我获取授权文件
    • 正式版费用说明:200元,在线限时长.350元,离线授权,断网可用
  3. 启动方式

三、界面操作(逐步说明)

【第 1 步】选择音频文件夹

  • 在「音频文件夹」输入路径,或点「浏览…」选择。
  • 程序只处理该文件夹根目录下的文件,不递归子文件夹。
  • 支持格式:.mp3 .wav .m4a .flac .aac .ogg .wma .mkv .mp4

【第 2 步】选择布局(右上角)

  • 自动:屏幕物理宽度 ≥ 2200px 居中显示,否则全屏
  • 标准:固定居中宽度
  • 满屏:界面横向铺满

【第 3 步】选择模型

  • 在「模型选择」下拉框中选择(见第四节两个模型的区别)。

【第 4 步】调整字幕参数(默认参数已最佳化,不建议调整)

  • 单条最长:每条字幕最长持续时间(默认 8 秒)
  • 单条最多:每条字幕最多字数(默认 35 字)
  • 数值越大,单条字幕越长、行数越少;越小则切分更碎。

【第 5 步】翻译相关选项(可选,见第五节)

  • 右侧勾选区可配置 API 翻译、双语对照、Whisper 自翻等。

【第 6 步】配置 API(需要翻译时)

  1. 展开底部「API 设置」。
  2. 填写对应平台的接口地址、API Key、默认模型。
  3. 点「测试」,通过后自动打开「翻译可选」开关。
  4. 启用后,该提供方会出现在右侧「翻译 API」下拉中。
  5. 支持:硅基流动、火山、LM Studio、Ollama、DeepSeek、智谱、Moonshot、OpenAI 等。

【第 7 步】开始转写

  1. 点「开始转字幕」。
  2. 可查看总进度 / 当前文件进度和运行日志。
  3. 任务进行中,设置项会锁定,需等全部完成后才能更改。

【第 8 步】查看结果

  • 字幕默认保存在音频同目录,文件名与音频一致。
  • 若有失败,文件夹内会生成「失败记录.txt」。
  • 若勾选了自动翻译,则会生成_en字幕或者_all字幕文件

四、两个模型的区别与选用建议
程序内置两个 opeai/Whisper 模型,路径均在 py/openai/ 下:

对比项 Whisper large v3 turbo(默认) Whisper large v3

模型 ID openai/whisper-large-v3-turbo openai/whisper-large-v3
速度 更快,适合大批量 相对较慢
转写质量 优秀,日常听书/播客推荐 长音频时间轴更稳
Whisper 原生译英 不支持(无翻译训练) 支持
「自翻」选项 不可用 可用
「仅英文」选项 不可用 可用
推荐场景 只要原语言字幕、追求速度 要中英双轨或 Whisper 译英

【各自怎么用?】

场景 A:只要原语言字幕(最常见)

1. 选 Whisper large v3 turbo
2. 不勾选任何翻译选项
3. 开始转写 → 得到 文件名.srt

场景 B:要原语言 + 英文(Whisper 自己译)

1. 选 Whisper large v3
2. 勾选「自翻」
3. (可选)勾选「中英」或「英中」生成对照字幕
4. 得到:
   - 文件名.srt(原语言)
   - 文件名.en.srt(英文)
   - 文件名_all.srt(双语对照,若勾选了中英/英中)

场景 C:只要英文字幕(Whisper 译英)

1. 选 Whisper large v3
2. 勾选「仅英文」
3. 得到 文件名.srt(内容为英文)

场景 D:turbo 转写 + API 翻译任意语言

1. 选 Whisper large v3 turbo(或 large v3 均可)
2. 勾选「API翻译」
3. 选好翻译 API、源语种、目标语种
4. 得到:
   - 文件名.srt(原语言)
   - 文件名.en.srt(或 文件名.目标语种代码.srt)
   - 文件名_all.srt(若勾选中英/英中)

五、翻译选项说明
以下选项互斥,同时只能开一种主模式:

选项 作用 适用模型

API翻译 转写完成后,用 LLM API 翻译整份字幕 任意
中英 双语合并,源语种在上、译文在下 → *_all.srt 配合 API翻译 或 自翻
英中 双语合并,译文在上、源语种在下 → *_all.srt 同上
自翻 Whisper 先转写再译英,输出 .srt + .en.srt 仅 large v3
仅英文 Whisper 直接译英,只输出 .srt(英文) 仅 large v3

源语种:选「自动」时由 Whisper 检测;也可手动指定(如中文音频选 zh)。

六、输出文件一览
以音频「播客第1集.mp3」为例:

文件名.srt 主字幕(原语言,或「仅英文」时的英文字幕)
文件名.en.srt 英文字幕(自翻 / API 译英时)
文件名.zh.srt 等 API 翻译到其它语种时(扩展名为语种代码)
文件名_all.srt 双语对照(勾选中英/英中时)
失败记录.txt 批量任务中有失败项时生成
主角光环.txt 输入文件(可选,见下)

七、进阶功能

  1. 主角光环(同音字纠错)
    在音频文件夹内新建「主角光环.txt」,每行一个正确人名,例如:

     张璐
     李明

    转写时会自动把同音错字替换为正确名字。
    例如,某小说音频主角名称为张露
    模型转写时可能会随机出现张禄,张璐,章录,脏路等等同音字
    对于模型来说,这些都是对的,因此做了「主角光环.txt」
    本程序会自动纠偏,最终输出结果时会输出报告

  2. 设置自动保存
    界面设置会写入 Sam.json(模型、文件夹、字幕参数、API 配置等),
    下次启动自动恢复。

八、注意事项(重要)

  1. 文件夹必须真实存在,且内含支持的音频文件。
  2. 任务进行中不能切换模型、改路径或 API,需等待完成。
  3. 仅扫描当前文件夹一层,子目录内音频不会被处理。
  4. turbo 不支持 Whisper 自翻/仅英文;需要这些功能必须切换到 large v3。
  5. API 翻译需先测试通过并开启「翻译可选」,否则下拉框无可用 API。
  6. 授权与硬件绑定;更换主板/CPU/网卡可能导致授权失效,需重新申请。
  7. 显存不足时可能报错或极慢;可关闭其它占 GPU 的程序后重试。
  8. 如果事先知道音频时中文还是英文,应该在源语种选择好语种
  9. 不限制音频时长,单音频16小时,5090 输出字幕时长约7分钟

链接:https://pan.baidu.com/s/1KTyjuHUwk6K8x8pAYwvRPQ?pwd=gpcb

0

评论 (0)

取消
网站版权本人所有,你要有本事,盗版不究。 sam@gpcb.net