YouzimuCC使用手册

Fan, Quan

Jul 6, 2019

本页面是youzimu.cc域名的跳转目的地。本页面属于FQ的博客，欢迎来逛逛~

YouzimuCC | 柚子木语音识别客户端

什么是YouzimuCC

YouzimuCC是柚子木字幕组成员FQ开发的一个语音识别软件，用于柚子木日常听译任务。顾名思义，这个软件帮助我们生成CC字幕。具体来说，这个软件是一个客户端，会调用各种云平台（比如：阿里云，IBM Cloud，Amazon AWS等）中的语音识别服务，将视频中的声音转换为英文文本，并允许生成srt文件，为听译提供方便。

开发本软件的原因有二：
其一，有一部分YouTube视频是没有CC字幕的，即使是auto-generated也没有。在这种情况下只能纯靠人工听写，这是很耗精力的。
其二，现在人工智能技术已经相当发达，语音识别已经变得可行。现在数家知名云服务提供商均已提供语音识别服务，但他们往往仅提供API（Application Programming Interface），这是计算机程序传递信息的方式，我们普通用户并不能直接利用。这是因为云服务提供商所面向的用户是应用程序开发者（程序猿）而不是我们这些真正具有听写和翻译需求的听译者。
当然，柚子木成员来自各行各业，只有小部分是计算机从业者，所以本软件提供一个简单易用的图形界面，代替用户与晦涩难懂的云提供的API沟通，一定程度上减轻听译的负担。

关于FQ：2015年9月加入柚子木YE时轴组；现任YG+YF时轴组长，YG听译组长，B站“柚Game”账号运营。更多三次元信息请点击页面下方LinkedIn链接。

下载YouzimuCC

下载页面： https://github.com/DavyVan/YouzimuCC-electron/releases

寻找最新的Release（V2.1.0），并下载对应操作系统的安装包即可。如下图： How to download

因为GitHub在国内访问经常不稳定，如果无法下载可以去群文件下载：听译综合群，搜索“YouzimuCC”文件夹
或者使用下面的百度网盘：https://pan.baidu.com/s/1lYSgZrZ8RDSePCzYaYXvhQ 提取码：ef78
身处海外的同学可以使用Google Drive更快地下载：https://drive.google.com/open?id=1-CzWY0fBX4SPG0i1RmfACOfuXvzdd69l

使用方法

视频教程：

0. 准备工作
使用本软件需要提前获取视频的MP3格式的音频文件，有很多YouTube视频下载网站都会提供MP3下载功能。
这里提供一个参考：https://www.clipconverter.cc/

1. 启动软件
a) 如果您下载的是zip格式的压缩包（仅适用Windows），解压之后直接找到其中的exe可执行文件并双击启动即可。如下图： Launch in zip

b) 如果您下载的是dmg格式的磁盘镜像文件（适用于macOS），打开之后将app文件拖拽到右侧Applications文件夹中，就像安装其他macOS应用一样，如下图： Install on macOS

2. 确认设置
点击主界面右上角“设置”按钮可以打开设置界面（如下图），这里可以选择网络服务提供商、服务器地址、要识别的语言等。请在提交文件之前确认这些设置，尤其是经常进行多种语言识别的用户。因为每次处理时间较长，设置错误会带来额外的等待时间。 Settings

2. 选择文件
在软件主界面中，点击“选择文件…”按钮，并在弹出的文件选择框中选择预先准备好的MP3文件。
亦或者可以直接将文件拖拽至灰色区域并释放。这两种方式效果一致。如下图： Choose file

3. 提交
点击“提交”按钮，会弹出一个进度提示框，代表着语音识别程序已经开始运行。注意：在选择文件之后才允许点击提交按钮。点击“提交”之后，主界面会变成灰色并禁止任何互动，直至关闭其他窗口（进度提示框、结果窗口），以此保证同时只能处理一个文件。

4. 等待结果
这个过程会比较漫长。时间主要花费在上传音频文件以及语音识别的过程：
因为本软件使用的IBM Cloud和Amazon AWS均位于中国境外，传输文件比较慢，所以比较长的视频其音频文件也比较大，需要更多时间上传；
语音识别基于人工智能技术，需要大量的运算，这涉及到复杂的实现原理，经验上来说，识别所需时间和视频时长是1:1的。
所以这一步请耐心等待，如果进度提示框显示“云端处理中……xx”或者“正在接收结果……xx”中的那个数字在缓慢增长，则证明确实在运行。如下图： It's in progress

5. 获取结果
在完成语音识别之后，将会显示一个新的窗口，以列表的形式列出英文文本，如下图。
窗口最上方有一个“导出srt”按钮，顾名思义，可以将所看到的文本转换成srt，方便后面以此为基础进行听译。点击之后会弹出一个文件选择窗口，选择文件导出位置并填写文件名即可。通常导出过程只需要一瞬间。

注意：IBM Cloud识别出来的文本没有标点，现有技术无法准确断句，所以句子长度可能会比较蛋疼，使用AWS可以获得更好的结果（默认设置）。 Results

问题反馈

如果您在使用过程中遇到任何问题，可以通过QQ小窗直接反馈给我（听译大群搜索FQ）

会编程？想改进？

非常欢迎，如有需要请直接联系FQ讨论技术细节。代码托管在GitHub

本软件遵循MIT开源协议

如果您想表达任何想法，请通过页面底端的联系方式联系我