映画、CG、プログラム等

2012年7月15日日曜日

Youtubeの機械による音声文字変換って・・


最近、YouTubeで気になる機能がある。
それは、キャプションを表示するCCボタンである。

僕は、テレビを見ないのだけど(というか家にありません。)
朝ながらで、ニュースだけちょっとみときたいので
こういったまとめサイトを利用してます。
http://www.crystal-creation.com/web-appli/news/nettv-news/

その中で、テレビ朝日を選択してもらうとわかりやすいのだけど、
字幕がでるのです。
(でてなければ、CCボタンをおす。)
しかし、その字幕よくよくみてみると変なのね。

「枝野経済産業大臣」を「ティーダの経済産業大臣」
とか
「負担すべきと考えています」いうころを
「負担すべきと考えていません」
って書いてあって

基本は音声を流しぎきながらも、ちょこちょこ目にはいる字幕に
最初は単なる間違いかと思って
「誰?」とか「意味変わっとるがな!」とかつっこんでしまってました。
けど、よくよく読むとおかしいの多い。

しかも、ものによっては、
アナウンサーがニュースを真剣に語る字幕が
「・・・について、ブヒャヒャヒャヒャヒャ!」
とか、もう意味不明な字幕がついており

例えばこんな感じです。
狭山悟る主催・武道政権第二回大会

この動画全般的にへんなのでフルでもおもろいですが
忙しい人は、抜粋をどうぞ。

【意味変わってる系1】
1:25あたりから
選手が大切にされたりします。

【言語崩壊系】
2:00 ちょっとすぎあたりから
突然アナウンサーがおかしくなります。

【意味変わってる系2】
4:10 あたりから
最後のしめに舛添氏や、動物王国がでてきます。


これは、自動認識なのねーって思って
みてみると、もうだいぶ前から実装されてたのですね。

http://internet.watch.impress.co.jp/docs/news/20110715_460975.html
http://youtubejpblog.blogspot.jp/2011/07/youtube.html

知らんかった。
で、β版と思いきや
結構ニュースとか以外の普通のサイトでも自動変換っぽいの見かけるし
ヘルプにも記述がるので
http://support.google.com/youtube/bin/answer.py?hl=ja&answer=100077
これは、やってみたいなと思い

ヘルプの下記記述に従い
-----------------------------------------------------------------------------------------------------
動画の自動字幕をダウンロードする方法
動画の自動字幕をダウンロードするには、動画の所有者である必要があります。動画の所有者の場合は、次の手順を行います:
アカウントにログインします。
[字幕] ページで、「機械による音声文字変換」というトラックを探し、そのトラックの横にある [ダウンロード] ボタンをクリックします。
「captions.sbv」という名前のファイルがデスクトップに保存されます。
.sbv ファイルは、タイムコード情報を含むテキスト ファイルです。このファイルは字幕を編集するツールで使用することも、通常のテキスト エディタで開くこともできます。
-----------------------------------------------------------------------------------------------------

「機械による音声文字変換」を探すもないよ!
そんなもんどこにあんの?
ググってみてもどーもひっかからない。
なんか別のやり方あんのかなー。
だれか、知ってる人いれば教えてください!!

今回のyoutubeやら、アンドロイドフォンで
どんどん精度あがって行くと思うけど
変な字幕って、なんか結構味があるので
100%の精度はあえてしないでほしいな。


こういう字幕集めてみるのもおもろいかもね。
コメントを投稿