标签字幕下的文章 - 傻木不傻，只是有点木,傻木摄影

标签搜索

傻木摄影

累计撰写 652 篇文章
累计收到 150 条评论

搜索到 1 篇与字幕的结果

2026-06-27
音频转字幕自动翻译一条龙音频转字幕自动翻译一条龙更新集成了sensevoice-small模型删除了whisper-large-v3-turbo模型关于效率 194分钟音频 whisper-large-v3-turbo 114秒输出字幕 whisper-large-v3 408秒自带英文字幕输出 ![主界面.jpg](/usr/uploads/2026/06/519702250.jpg) API常见的都有,包括两个本地的,以下截图不全 ![API设置.jpg](/usr/uploads/2026/06/3857360689.jpg) 一、软件简介本工具将文件夹内的音频/视频批量转成 SRT 字幕，可选 API 翻译或 Whisper 内置译英设置好API服务后,勾选API翻译时,转出字幕会自动翻译成你设置的目标语言,无需其他设置 Whisper 内置译英,无需API设置即可直接将任意语言输出为英语字幕二、运行前准备 1. 硬件 - 建议使用 NVIDIA 显卡（CUDA），转写速度明显快于 CPU。 - 显存建议 ≥ 6GB（large 级模型量化版约 3GB/路）。 2. 授权 - 首次启动会验证正式授权 license.key 或在线试用(全功能72小时试用)。 - 试用/授权失败时，控制台会显示机器码，需联系我获取授权文件 - 正式版费用说明:200元,在线限时长.350元,离线授权,断网可用 3. 启动方式 - 双击傻木摄影.exe运行 - 控制台出现 http://127.0.0.1:8765/ 后，浏览器会自动打开；三、界面操作（逐步说明）【第 1 步】选择音频文件夹 - 在「音频文件夹」输入路径，或点「浏览…」选择。 - 程序只处理该文件夹根目录下的文件，不递归子文件夹。 - 支持格式：.mp3 .wav .m4a .flac .aac .ogg .wma .mkv .mp4 【第 2 步】选择布局（右上角） - 自动：屏幕物理宽度 ≥ 2200px 居中显示，否则全屏 - 标准：固定居中宽度 - 满屏：界面横向铺满【第 3 步】选择模型 - 在「模型选择」下拉框中选择（见第四节两个模型的区别）。【第 4 步】调整字幕参数（默认参数已最佳化,不建议调整） - 单条最长：每条字幕最长持续时间（默认 8 秒） - 单条最多：每条字幕最多字数（默认 35 字） - 数值越大，单条字幕越长、行数越少；越小则切分更碎。【第 5 步】翻译相关选项（可选，见第五节） - 右侧勾选区可配置 API 翻译、双语对照、Whisper 自翻等。【第 6 步】配置 API（需要翻译时） 1. 展开底部「API 设置」。 2. 填写对应平台的接口地址、API Key、默认模型。 3. 点「测试」，通过后自动打开「翻译可选」开关。 4. 启用后，该提供方会出现在右侧「翻译 API」下拉中。 - 支持：硅基流动、火山、LM Studio、Ollama、DeepSeek、智谱、Moonshot、OpenAI 等。【第 7 步】开始转写 1. 点「开始转字幕」。 2. 可查看总进度 / 当前文件进度和运行日志。 3. 任务进行中，设置项会锁定，需等全部完成后才能更改。【第 8 步】查看结果 - 字幕默认保存在音频同目录，文件名与音频一致。 - 若有失败，文件夹内会生成「失败记录.txt」。 - 若勾选了自动翻译,则会生成_en字幕或者_all字幕文件四、两个模型的区别与选用建议程序内置两个 opeai/Whisper 模型，路径均在 py/openai/ 下：对比项 Whisper large v3 turbo（默认） Whisper large v3 ----------------------------------------------------------------------- 模型 ID openai/whisper-large-v3-turbo openai/whisper-large-v3 速度更快，适合大批量相对较慢转写质量优秀，日常听书/播客推荐长音频时间轴更稳 Whisper 原生译英不支持（无翻译训练）支持「自翻」选项不可用可用「仅英文」选项不可用可用推荐场景只要原语言字幕、追求速度要中英双轨或 Whisper 译英【各自怎么用？】场景 A：只要原语言字幕（最常见） 1. 选 Whisper large v3 turbo 2. 不勾选任何翻译选项 3. 开始转写 → 得到文件名.srt 场景 B：要原语言 + 英文（Whisper 自己译） 1. 选 Whisper large v3 2. 勾选「自翻」 3. （可选）勾选「中英」或「英中」生成对照字幕 4. 得到： - 文件名.srt（原语言） - 文件名.en.srt（英文） - 文件名_all.srt（双语对照，若勾选了中英/英中）场景 C：只要英文字幕（Whisper 译英） 1. 选 Whisper large v3 2. 勾选「仅英文」 3. 得到文件名.srt（内容为英文）场景 D：turbo 转写 + API 翻译任意语言 1. 选 Whisper large v3 turbo（或 large v3 均可） 2. 勾选「API翻译」 3. 选好翻译 API、源语种、目标语种 4. 得到： - 文件名.srt（原语言） - 文件名.en.srt（或文件名.目标语种代码.srt） - 文件名_all.srt（若勾选中英/英中）五、翻译选项说明以下选项互斥，同时只能开一种主模式：选项作用适用模型 ----------------------------------------------------------------------- API翻译转写完成后，用 LLM API 翻译整份字幕任意中英双语合并，源语种在上、译文在下 → *_all.srt 配合 API翻译或自翻英中双语合并，译文在上、源语种在下 → *_all.srt 同上自翻 Whisper 先转写再译英，输出 .srt + .en.srt 仅 large v3 仅英文 Whisper 直接译英，只输出 .srt（英文）仅 large v3 源语种：选「自动」时由 Whisper 检测；也可手动指定（如中文音频选 zh）。六、输出文件一览以音频「播客第1集.mp3」为例：文件名.srt 主字幕（原语言，或「仅英文」时的英文字幕）文件名.en.srt 英文字幕（自翻 / API 译英时）文件名.zh.srt 等 API 翻译到其它语种时（扩展名为语种代码）文件名_all.srt 双语对照（勾选中英/英中时）失败记录.txt 批量任务中有失败项时生成主角光环.txt 输入文件（可选，见下）七、进阶功能 1. 主角光环（同音字纠错）在音频文件夹内新建「主角光环.txt」，每行一个正确人名，例如：张璐李明转写时会自动把同音错字替换为正确名字。例如,某小说音频主角名称为张露模型转写时可能会随机出现张禄,张璐,章录,脏路等等同音字对于模型来说,这些都是对的,因此做了「主角光环.txt」本程序会自动纠偏,最终输出结果时会输出报告 ![主角光环.png](/usr/uploads/2026/06/2812849013.png) 2. 设置自动保存界面设置会写入 Sam.json（模型、文件夹、字幕参数、API 配置等），下次启动自动恢复。八、注意事项（重要） 1. 文件夹必须真实存在，且内含支持的音频文件。 2. 任务进行中不能切换模型、改路径或 API，需等待完成。 3. 仅扫描当前文件夹一层，子目录内音频不会被处理。 4. turbo 不支持 Whisper 自翻/仅英文；需要这些功能必须切换到 large v3。 5. API 翻译需先测试通过并开启「翻译可选」，否则下拉框无可用 API。 6. 授权与硬件绑定；更换主板/CPU/网卡可能导致授权失效，需重新申请。 7. 显存不足时可能报错或极慢；可关闭其它占 GPU 的程序后重试。 8. 如果事先知道音频时中文还是英文,应该在源语种选择好语种 9. 不限制音频时长,单音频16小时,5090 输出字幕时长约7分钟链接： [https://pan.baidu.com/s/1eBMEm1nCUenbw6FYsst0nA?pwd=gpcb](https://pan.baidu.com/s/1eBMEm1nCUenbw6FYsst0nA?pwd=gpcb)
- 2026年06月27日
- 66 阅读
- 1 评论
- 0 点赞

网站版权本人所有，你要有本事，盗版不究。 sam@gpcb.net