« 花火にもエコの時代がやってきた | メイン | プロジェクトオイラーを遊び倒すガイド(導入編) »

コンピュータはテレビで手話を学ぶ


 New Scientist より。

■ コンピュータはテレビを見て手話を学習する
 Computer learns sign language by watching TV

 テレビ番組に表示される手話と字幕を解析し、コンピュータに手話の自動学習をさせよう、という研究が行われました。

 この研究を行ったのは、オックスフォード大学の Patrick Buehler と Andrew Zisserman、リード大学の Mark Everingham です。

 彼らはこんなアルゴリズムを開発しました。映像にうつった手話通訳者を解析して、手の形がどういうパターンなのかを特定するアルゴリズムです。腕の角度から手のおおよその位置を当てて、さらに肌色のエリアを探して手の形を特定するというものです。

 さらに彼らは、このアルゴリズムを使って、コンピュータに約10時間分のテレビ番組を学習させました。いずれも手話のある番組です。ここで彼らはもう一つのトリックを使いました。たいていの場合、手話のある番組には、字幕で手話の内容が表示されます。そこで、字幕の内容を解析して、特定した手話のパターンと対応づけたのです。

 もちろん、字幕には長い文章が表示されることもありますので、これらのひとつひとつを手話のパターンに対応づける必要があります。彼らは、同じ言葉が複数回あらわれたときをうまく利用して両者を対応づけました。

 と、このようにして、210個の名詞と形容詞に対する手話のパターンを学習させました。

 この結果、コンピュータは、手話のボキャブラリーが一切なかったにも関わらず、136個(65%)の単語に対する手話を正しく学習できていることが分かりました。

 実際には、手話の内容と字幕の内容が微妙に異なっている場合がいくらかあったため、この結果はかなり良い精度である、と研究者は評価しています。

 今回の結果は、やがてテレビ番組の自動手話へと利用されるかもしれません。アバターを画面に表示して手話をさせる、という方向での応用が期待されます。

 なるほど。。。テレビ番組の自動手話、というのは便利そうでよいですね。これまで手話のなかった番組でも、自動で手話がつくようになると。今回の研究の結果を使うと、すでに放送された手話と字幕の関係から次々とあたらしい手話を学習していくことになるのかな。外部からの文字入力などを必要とせず、ソフトウェアが自分で字幕を読み取って利用する、という点が個人的にすばらしいと思いました。毎日のように新しい言葉が生まれてくる今の時代によくマッチした技術かもしれません。

 とはいえ、素朴な疑問なんですが、こういう手話のボキャブラリーって、どこかにデータベースとして集約されていたりしないんですかね? 新しい手話が生まれるたびに意味と動きが登録され、利用者は定期的にダウンロードする、なんて仕組みなら学習せずとも効果が得られるような。。。原理的には不可能ではないような気もしますが、困難な事情があるのかな。

【参考リンク】
・元論文:不明。IEEE Computer Society Conference on Computer Vision and Pattern Recognition という学会で発表されるそうです。

トラックバック

このエントリーのトラックバックURL:
http://www.riverplus.net/cgi/mt/mt-tb.cgi/3019