【CC字幕组】双语字幕拆轴那些事
字幕组log
2014-10-12 我们终于把20个CrashCourseChemistry的视频字幕打包发给CrashCourse视频团队啦
上次说到【Crash Course】演示如何把双语字幕拆开,是用SrtEdit.exe手动拆轴(嗯,其实这个软件挺好用的)。最后遇到的问题是拆成ass格式(一切完好),但是转成srt格式就会出现两轴字幕“打架”的问题。
1.字幕打架的难题:
是因为srt格式是无字幕样式的,也就是所有字幕默认default样式,之前飘在界面顶端的【译者信息】,或者【译者注】,现在都和下面普通的字幕挤在一起了。
2.解决方法的选择:
因此要转换成srt,就必须把相同的时间范围,有2轴或以上的字幕处理掉。我们决定忍痛割爱,把【译者注】和【译者信息】删掉!
因为懒得手动重复20遍拆字幕转格式的工作,就决定通过写代码来解决问题!
3.产品经理般的体验:
身边有程序员好朋友的好处,就是当你有问题时,就可以求助他们。把你的需求描述清楚,然后就可以坐等他们把代码写出来,解决完问题,把结果发给你!
解决问题的思路是这样,这就像是一道OI题。把字幕当成文本,用文本处理的方法来处理字幕,观察字幕的格式,找规律处理(因为他们不理解为什么有一些奇怪的字符,其实有些是全局字体样式、英文字体样式、位置信息、注释等等)。而不是像我一开始想的,利用已有SrtEdit解决…相当于,SrtEdit也是有强大的处理字符串的代码,只是包装的很好。而这样看待应用程序的观点我之前是没有的。
终端下读取ass文件,用的是Cygwin64 Terminal,cat命令
这是最后的代码:GitHub
总之,程序员们花了一个下午帮我解决问题,一开始以为很简单,但处理结果总是各种bug,比如译者信息全部被去掉了,好多地方奇奇怪怪丢失了一两轴字幕。中英文没有区分干净等到。如此质量堪忧,如何敢直接发到YouTube上?总之,在我不断抱怨,不断测试最后终于勉强通过了。
真是产品经理和程序员的心酸故事
4.还是得手动校验:
最后,还是把20个中文字幕、20个英文字幕全部检查了一遍,一般一个字幕还是会有20处错误的(比如丢失最后的译者信息,或者多出来好多双语字幕轴)
完成后一个ass字幕,被拆成两个srt字幕(en.srt和zh.srt)
最后一个视频,把ass双语字幕,en.srt英语字幕,zh.srt中文字幕3个文件都邮件发给CC视频团队了
5.字幕组组长流程化工作:
字幕组组长的工作往往很琐碎,就拿这次双语字幕拆轴来说,很多是机械话的操作,要的是熟练度,而不需要思考。(当然如果我自己化生程序员通过写代码解决问题就不一样了)。所以,如何减少组长机械化的工作呢?如何去中心化,让字幕组成员高效协作而不需要一个人在中间协调呢?是否可以用按键精灵之类的软件,或者写程序来代替人工操作呢?
从这次解决问题的过程来看,目前智能还是有限的,软件都是人写的…总是会有各种限制,各种考虑不到的地方。比如最终还是有很多bug需要我手动改。
像Amara上面翻译TED的形式,或者wikipedia多人合作编辑的形式,就是去中心化的,如何让字幕组在这样的情况下运行呢?这是一个值得思考的问题(呵呵)
最后,提供下载地址:百度盘 Google docs
现在我们每个视频都有5个文件了
本文由果壳MOOC学院网站(mooc.guokr.com)导出,发帖用户为JING-TIME。