Topics

最近流行のバイオインフォマティクスとは何だ

深海-小林 薫
(国立遺伝学研究所 生命情報・DDBJ研究センター)

JRD2001年12月号(Vol. 47, No. 6)掲載



図1 生命情報・DDBJ研究センター棟
DDBJならびにバイオインフォマティクスのさまざまな活動がこの建物の中で行われている。

 バイオインフォマティクスという言葉を最近よく聞くけど、一体どういうものなの? という問いが、回り回って筆者の所にやってきた。DDBJ (DNA Data Bank of Japan =日本DNAデータバンク)なるものがあって、DNAのデータベースを作っているから、そこの人間なら答えられるだろう、ということらしい。確かにDDBJは、後で詳しくご紹介するように、主に日本のバイオインフォマティクス研究を支える役割を果たしているし、筆者自身もはたから見れば、バイオインフォマティクスをやっていることになるのかもしれない。だがこれは考えれば考えるほど答えるのが難しくなる質問である。

 バイオインフォマティクスはその名の通り、バイオ(生物学)とインフォマティクス(情報学)という2つの学問分野の接点にある、学際的学問分野である(図2)。大まかに言えば、対象が何らかの生命現象で手段が情報処理であるような分野である。と思う、とつい付け足したくなるのは、出来て間もないので生え抜きの専門家というものが存在せず、ほとんどの研究者が生物学または情報学どちらかの出身という、いわば合併したての会社のようなものだからである。したがって独自の社風ともいうべき、バイオインフォマティクスについての概念が確立しきっていないのだ。バイオインフォマティクスが何であるかに答えるのが難しいのは、そのためである。本当に、人によって言うことが違う。生物の実験データをコンピュータで整理・解析すれば、バイオインフォマティクスである。そのためのコンピュータツールやアルゴリズムを開発しても、バイオインフォマティクスである。あるいはある情報理論やモデルをある生命現象に適用して何らかの結論なり問題解決が得られれば、それもバイオインフォマティクスである。人によって違った捉えられ方がされているのは主として出身学問分野の違いにより、何が問題か、何に興味があるか、何が分かると気が済むか、等々が異なるためと考えられる。(ちなみに筆者は生物学出身である。)実際、生物学と情報学では使用するボキャブラリーが余りにもかけ離れていて、バイオインフォマティクスという場で2つの分野の人間が会しても、ごく最近まではコミュニケーションさえままならなかったほどである。しかしこうした概念や定義の混沌は若い研究分野にありがちなことであるし、それがまた良い所でもあったりすると思っている。


図2 バイオインフォマティクスの学問的位置付け


 そんなにかけ離れていた分野が、それでもなお接点を持ったのは何故だろうか。生物学の側には少なくとも必然性がある。それは、生物学がその発展に伴いコンピュータを必要としてきたからである。厳密に言えば、医学農学なども含まれた、いわゆる生命科学というものが必要としているのである。生命科学の社会的重要性は、ここで繰り返すまでもないことである。この社会的重要性が生命科学を発展させ、その分野で用いられる実験技術の飛躍的な進歩を引き起こした。実験データの生産量は飛躍的に増大し、我々は新たな律速段階に直面した。大量の実験データを処理し、そこから意味のある結論を引き出す段階である。

 DNAの塩基配列データを例にあげよう。1975年にSanger法、1977年にMaxam-Gilbert法が発表されて以来、様々な遺伝子での塩基配列決定が始まった。が、最初の頃にはこれは大仕事だった。そのため非常に重要な遺伝子でのみ配列決定がなされたこともあるが、1つの遺伝子の配列が決まれば、いわゆる「Nature・Scienceもの」だった。どんな遺伝子の塩基配列が分かっているかも、雑誌をきちんとサーベイしていれば把握出来た。その後配列決定法が改良され、より簡単かつ安価なものになっていった。そのためますます多くの遺伝子で塩基配列の決定がなされていった。いまや塩基配列決定は、生命科学研究にとって「お約束」の実験の1つである。世界中の無数の研究室で、塩基配列データが日夜生産されている。もはや誰がどんな配列をどんな雑誌に発表したかを完全に把握することは、1研究者の能力を優に超えてしまっている。塩基配列情報が国際塩基配列データベースという形でまとめられるようになったのは、こうした歴史の流れの必然であろう。現在ではその上に、世界中のゲノムプロジェクトチームからゲノムの配列データが次々と出されるようにもなっている。今日の生命科学研究は、塩基配列のデータベースなしには考えられない。

 しかし生命科学におけるコンピュータの必要性は、塩基配列版の電子図書館を作ることだけにはとどまらない。ある遺伝子の配列をマウスで決定したとする。その遺伝子が既にヒトでもウシでも配列決定されていたとすれば、その塩基配列が持つ情報の価値はその分目減りしてしまう。しかしそこで落胆してしまうのは早すぎる。それらの配列を比較することで初めて得られる情報があるかもしれないからである。比較により共通に見られる配列領域が見いだせれば、それらの遺伝子が共通に持つ機能に重要な部分であると推定出来る。あるいは他の生物種では保存されている領域でその保存パターンから外れた配列が見いだされれば、何か別の機能を持つ可能性が考えられる。(配列決定をやり直す必要があるのかもしれないが。)このような配列比較をはじめとする配列解析も、少数のデータなら人の目と手で行えるが、扱うデータ量が多くなるとやはりコンピュータが必要となる。

 他の分野同様、コンピュータは人間に出来ないことをするのではない。人間にも出来ることをより短時間に間違いなくこなすだけである。しかしその量的な差が、データの処理量が大きすぎて実際上は出来なかったことを可能にし、質的な差に結びつく。それを利用してこれまで得られなかった生物学的知見を得ようとする。それが今日のバイオインフォマティクスの主要な流れの1つである。これまでは配列データを取り扱った研究が主であったが、これからは遺伝子発現データ、遺伝子産物の相互作用データでも大量生産時代が始まる。コンピュータの、そしてバイオインフォマティクスの重要性は今後ますます高まっていくであろう。

 DDBJは、国際塩基配列データバンクの一員として、こうしたバイオインフォマティクス研究を支える役割を果たして来た。図3に挙げたDDBJの沿革と国際協力の歴史からも分かるように、塩基配列データベースの構築は今から20年前、塩基配列決定法が発表されて間もない頃から既に始められていた。DDBJで国立遺伝学研究所の事業として、本格的に塩基配列データベースの構築が始まったのは今から15年前、1987年には最初のDDBJリリースの配布・利用が開始された。はじめは雑誌のサーベイをし、論文に発表された塩基配列を手入力することでデータの収集を行っていた。しかし発表される配列データ量の増大に伴い、著者に配列データを送付してもらうdirect submission方式へと収集法を移行させていった。それでも必要な作業量は増加の一途をたどり、1研究室で行なうには手に余る事業規模となり、1995年に生命情報研究センターの事業へと位置づけを変えた。そして今年の春、DDBJは生命情報・DDBJ研究センターの中の1つの組織として文部科学省から存在を認められるに至った。


――――――――――――――――――――――――――――――――――――――――――

1980. 8   EMBLデータライブラリー(欧州)設立、日本へ国際協力の要請
1982. 9   EMBL、GenBank(米国)が国際協力事業への日本参加を要請
1983. 8   DNAデータバンク運営委員会設置
1984. 4   国立遺伝学研究所に遺伝情報研究センター設置
1985. 4   遺伝情報研究センターに遺伝情報分析研究室設置
1986. 1   DNAデータ研究利用委員会設置
1987. 7   DDBJリリースの配布開始
9   DDBJオンライン利用開始
1992. 1   DDBJリリースに EMBL/GenBank データを加える
1993. 1   DDBJリリースを年4回配布へ
1994. 10   遺伝情報研究センターに遺伝子機能研究室新設
1995. 4   遺伝情報研究センターに大量遺伝情報研究室・分子分類研究室新設
  新設の2研究室と遺伝情報分析研究室・遺伝子機能研究室からなる
生命情報研究センター設置
2001. 4   生命情報研究センターの名称が生命情報・DDBJ研究センターに変更

――――――――――――――――――――――――――――――――――――――――――


図3 DDBJの沿革と国際協力の歴史


 その間、1992年にはDDBJリリースにEMBL/GenBankデータを加えるなど、緊密な国際協調のもとにデータベース構築を行ってきた。国際協調の端的な例として、1)Daily Update、2)Feature Table Definition、3)国際実務者会議・国際諮問委員会が挙げられる。

図4 国際DNAデータバンク三極の国際協力

 図4に示されるように、国際塩基配列データバンクは欧州のEBI、米国のNCBI、日本のDDBJの三極からなる。各データバンクは塩基配列データを収集・編集し、日々公開すると同時に、公開したデータを他のデータバンクにも送付する。送付されたデータはそこで構築されているデータベースにも組み込まれ、公開される。したがって3つのデータバンクからは、質・量ともにほぼ同じデータベースが、全世界の研究者に向けて提供されていることになる。

 こうしたシステムの実現を可能にしているのは、1つは日々大量のデータを交換するためのIT的インフラであるが、もう1つは、3つのデータバンクで収集されるデータの質を揃えるため共通に用いられている、データ構築規範である。塩基配列データはその配列の登録者、関連文献、由来生物種、その塩基配列のもつ生物学的特徴や遺伝子の機能・特性等に関する情報などを加えて「エントリー」という単位に編集される。こうした配列に付随するデータとして何をエントリーに記述するかは、三極間で協議して決められている。特に塩基配列のもつ生物学的特徴や遺伝子の機能・特性等に関する情報は様々なものがあるので、Feature Table Definitionという、100ページを超す大部なドキュメントにまとめられている。そして日進月歩の生命科学に追随していくため、毎年更新が行われている。

 国際実務者会議は、こうした三極共通のデータ構築規範をどのように更新するか、あるいはどのような規範を新規作成・廃止するか協議し、決定する場である。三極で日々データベース構築に携わっている実務者の代表が年に1回ひとつの場所に集まり、データ構築に関する実務的な取り決めを行う。場所は3つのデータバンクの持ち回りで、一昨年はNCBI、今年はEBI、来年はDDBJで行われる。また三極それぞれから選出された諮問委員からなる国際諮問委員会により、全体の運営に関する指導助言がなされている。

 さて、DDBJのホームページ(http://www.ddbj.nig.ac.jp/Welcome-j.html、図5)の「DDBJ/CIBとは?」をクリックすると、DDBJの活動として以下のものが紹介されている。

  1. 「国際塩基配列データベース」の共同構築と運営
  2. 関連生命情報データベースの運営
  3. DNAデータベースのオンライン利用の管理・運営
  4. ソフトウエアの開発
  5. 広報活動
  6. 国立遺伝学研究所コンピュータシステムならびにネットワークの管理・運用


図5 DDBJのホームページ

URLは、http://www.ddbj.nig.ac.jp/Welcome-j.html(日本語)
または http://www.ddbj.nig.ac.jp/Welcome.html(英語)




図6 DDBJにおけるデータ登録の仕組み



図7 SAKURAのトップページ

URLは、http://sakura.ddbj.nig.ac.jp/Welcome-j.html(日本語)
または http://sakura.ddbj.nig.ac.jp/Welcome.html(英語)

 このうち利用者との接点が大きいものは、塩基配列の登録に関わる活動であろう。EBIやNCBIとの共同構築の部分は既に述べたとおりであるが、それに沿ってDDBJでデータベース構築がどのように行われているかを簡略化して示したのが、図6である。

 新たなデータの構築は、まず登録者(研究者)による新規配列の登録から始められる。研究者はどのデータバンクに配列データを登録しても構わないが、たいていは地理的に最も近いデータバンクに登録する。DDBJへの登録者のほとんどは日本の研究者で、それにアジア・オセアニアやその他の地域からの登録が一部見受けられる。登録作業は主として "SAKURA" (図7)という登録ツールでWWWを通して行われる。国際塩基配列データベースで共有するため、登録内容は英語で記述する必要があるが、日本語の解説を見ながら登録作業が行えるページも用意されている。(これはEBIやNCBIにはないサービスである。)登録件数が多かったり多数のFeatureがあったりする場合(概ね30以上)、あるいはゲノム配列のように長大な配列のためには、大量データ登録システム (MSS) が用意されている。

 こうしてDDBJに送られて来た登録データは、形式や内容がデータ構築規範に沿ったものかがチェックされた後、データベースへ格納され、同時にアクセッション番号が発行され登録者へ通知される。このアクセッション番号は、国際塩基配列データベースで共通のものである。発行までに要する時間はデータの受け取り後5日以内(土・日・祭日を除く)と決められている。それ以上かかる場合は、どこかの段階で問題が生じているので、早急にDDBJ(ddbj@ddbj.nig.ac.jp)に連絡を取られることをお勧めする。と同時に、配列を送れば瞬時にアクセッション番号が発行される訳ではないことも心に留めておいて頂きたい。

 データベースへ格納されたデータは、登録者が指定した公開予定日を迎えるか、アクセッション番号が学術雑誌等で公表されるか、あるいは登録者からの公開依頼があった時点で公開され、同時にEBI、NCBIへ送付される。データ公開後も変更の依頼があれば、修正を加える事が出来る。こうして常に最新のデータが提供出来るような仕組みになっている。配列データにはバージョン番号が付けられており、どの時点での配列も識別・検索が可能である。

 次に利用者との接点が大きいのは、こうして構築した塩基配列データベースの検索や解析に関わる部分であろう。DDBJではアクセッション番号などによるエントリー検索を高速に行なうgetentry(図8)、より自在なキーワード検索が駆使出来るSRS(図9)、類似配列を検索するための相同性検索プログラム(図10)などがWWWや電子メールサービスを通して利用出来るようになっている。解析ツールとしては配列の多重整列や系統樹作成を行なうClustalW、malignなどが利用出来る。相同性検索ツールとClustalWの連携はDDBJ独自のサービスで、検索で得られた結果をいったんファイルに保存したりせずそのままClustalWに持っていき、系統樹作成までを行える。

 この他にも多数の関連生命情報データベースの構築・運営や解析ツールの開発が、DDBJをはじめとする生命情報・DDBJ研究センターの各グループにより行われている(図11)。 どれもDDBJのホームページの「遺伝研の生命情報webリンク」からリンクがたどれるので、興味のある方は一度訪れて、あちこち探索されてみるのがよいと思われる。

 こうしたDDBJの活動は、年1回発行されるDDBJ/CIB report(図12)をはじめとする出版物で報告される他、ホームページでも逐次お知らせしている。またデータ登録の方法や検索ツールの使い方の講習会(DDBJing)を年に2回程度の頻度で開催している。DDBJのある国立遺伝学研究所(静岡県三島)で開催するとともに、研究所から遠くわざわざ来て頂くのが大変な地域の方々のために、これまで北大、九大などでも開催した。これをお読みの方の中にもし、自分がいる地域でも開催してもらいたいとお考えの方がいたら、是非ご一報頂きたい。

 このようにDDBJの活動は、塩基配列データベース構築に始まり、そのデータベースを利用するためのツールの開発、関連データベースの構築など多岐にわたっている。どの活動もバイオインフォマティクス研究を支え、あるいは重要な役割を果たすべく進められて来たものである。バイオインフォマティクスの重要性がますます高まって行く中、これからも研究の進展に遅れることなく、むしろ積極的に貢献できるよう、活動を続けていきたいと思っている。


謝辞 この記事に載せた図や写真の多くは、DDBJの日々の活動を支えているサポートスタッフが、業務の中で作成したホームページや出版物からお借りしたものである。ここに記して感謝する。




図8 getentryのトップページ

URLは、 http://ftp2.ddbj.nig.ac.jp:8000/getstart-j.html(日本語)
または http://ftp2.ddbj.nig.ac.jp:8000/getstart-e.html (英語)



図9 SRSのトップページ

URLは、 http://srs.ddbj.nig.ac.jp/index-j.html (日本語)
または http://srs.ddbj.nig.ac.jp/index-e.html(英語)



図10 相同性検索のトップページ

URLは、 http://www.ddbj.nig.ac.jp/E-mail/homology-j.html(日本語)
または http://www.ddbj.nig.ac.jp/E-mail/homology.html(英語)



図11 生命情報・DDBJ研究センターで運営されている
データベースや解析ツール(その1)



図11 生命情報・DDBJ研究センターで運営されている
データベースや解析ツール(その2)



図12 DDBJ/CIB report

年1回発行される



This site has been maintained by the JSAR Public Affairs Committee.
Copyright 1999-2002 by the Japanese Society of Animal Reproduction