« やっぱり違う!男と女の脳 | メイン | 統計でウソをつく法 »

コンピュータで科学論文の探索?

 日経サイエンス8月号より。

 http://www.nikkei-bookdirect.com/science/page/magazine/0508/find.html

 

-----------------------------------------------

 

 すべての学術論文に目を通すのは,いくら時間があっても不可能だ。未読論文の中に重要な事実が埋もれてはいないだろうか?人間に代わってそれを探り当ててくれる人工知能が登場した。


 


 「ジーンウェイズ」と名付けられたこのシステムを開発したのは,コロンビア大学のルゼツキー(Andrey Rzhetsky)を中心とするグループ。1997年,生命科学分野の論文を自動検索するツールの開発に着手した。すでに自然言語処理に基づいて生物学の文献を検索してデータを抽出するツールがいくつか開発されていたが,主に論文の概要部分を対象とし,論文全体を処理するものではなかった。これに対しルゼツキーは,全文検索はもちろん,遺伝子やタンパク質の間に存在する関係,つまりこれまで見落とされてきたネットワークを“発見”するシステムを目指した。古い情報の山を調べて,新たな知識や仮説を掘り起こそうというのだ。


 

 システムは論文をダウンロードしてプレーンテキストに変換した後に,単語を識別し,科学用語を“理解”する。さらに「GENIES」という構文解析モジュールを使って情報を構造化し,論文の個々の文をコンピューターが“読める”ように翻訳する。その解析結果を「インタラクション・ナレッジ・ベース」というデータベースに蓄積し,検索や分子間関係の発見,新たな分子間相互作用ネットワークの構築に利用する。さまざまな分子経路をグラフィックス表示できる。


(略)

 

-----------------------------------------------

 

 科学論文をダウンロードしてきて、自動的に関連のデータベースを作ってくれるというものだそうです。論文の文章中から、遺伝子やタンパク質の名前を抜き出してリストを作る。しかも、ただ単に一覧を作るというだけでなくて、テキストの構文を解析して、各分子の相互作用を自動的に理解して記録してくれます。たとえば、「○○というタンパク質は、△△というタンパク質の分解を促進する」だとか、そういった相互作用を自動的にデータベースに登録していきます。そして、データベースに対して僕たちが、「○○というタンパク質と相互作用する分子には何がある?」のような問い合わせをすると、結びついてるタンパク質や遺伝子のリストを出力してくれる、というのだそうです。

 

 そういえば「生体分子ネットワーク」という言葉を聞いて僕が思い出すのは、最近よく「スケールフリー・ネットワーク」というキーワードを聞くなあ、ということ。スケールフリーっていうのは、ある少数のノードが膨大なリンクを持つ一方で、ほとんどのノードはごくわずかなリンクしか持っていないようなネットワーク構造のこと。(いわゆる「あなたとの6次の隔たり」なんてキーワードを聞いたことがあるかもしれません。)実際、生体内の分子をノードに見立てて、分子間の相互作用をリンクに見立てると、スケールフリー・ネットワークの特徴を満たすということが発見されたそうです。さて、僕が思うに、今回のようなデータベースの作成方法がうまくいくっていうのは、タンパク質ネットワークのスケールフリーな性格が、この方法とすごく相性がいいからなんでしょうね。

 

 僕としては、いま会社でやってる仕事のなかで、「ああ・・これ面倒臭いよなあ・・」と思ってることへの適用ができればこの上なく素晴らしいです(笑)。具体的には、特許公知例調査のことを指していますが。(公知例調査=思いついた特許アイデアを、他社が既に特許化してないかどうかのチェック。長時間の集中力を強制される^^;)

 

 いろんな分野への応用を、切に願います。

トラックバック

このエントリーのトラックバックURL:
http://www.riverplus.net/cgi/mt/mt-tb.cgi/334