プロジェクトについて


Genome Comparison プロジェクト: 科学者以外による説明

遺伝子、ゲノム、およびゲノム・データ

生物のゲノムは、遺伝情報の完全なセットです。 ゲノムは、すべての生物における遺伝の単位である、遺伝子から構成されます。 遺伝子は、身体の成長、代謝、および (ある程度) これらの生物の動作に関与します。 遺伝子の多くは、細胞で行われる生化学反応に大きく影響する、たんぱく質をコード化します。 他の遺伝子は、非常に重要な RNA 分子を作るものと、分子のコード化を全く行わないものがありますが、どちらも構造または制御の点から重要です。

コンピューター解析は、ゲノムのどの領域がたんぱく質 (細菌の数百または数千ものたんぱく質から人間のおよそ 30,000 のたんぱく質とその変異体まで) をコード化するのかを予測します。 ただし、これらの生成されたたんぱく質の細胞機能 (構造、酵素、トランスポーター、シグナル伝達などの機能) の予測は、多くは仮説に基づいて行われます。 推測機能の大部分は、データベース内のたんぱく質との配列比較を使用したシリコン内 (コンピューター) 解析によって行われていました。 しかし、今までに研究所での実験によりその機能が確認されたのは、予測されたたんぱく質のごく一部のみです。

1990 年代からの国際的な取り組みにより、細菌、酵母、寄生原虫類、無せきつい動物とせきつい動物など、ヒトや植物も含め、400 を超える生物の完全な遺伝子コードが判定されました (www.genomesonline.org)。 現在は、医学、商業、環境、および工業の利益や重要な研究モデルを代表する、1,500 を超えるゲノムの調査が進行中です。 このような調査の結果、ゲノム配列の一部が特定されました。 ますます速いペースで新しいゲノム配列が得られるようになってきており、数千もの生物から入手可能な断片的データに追加されています。

たんぱく質コーディング遺伝子とその注解

RefSeq のリリース 19 (2006 年 9 月) の Reference Sequence Collection (www.ncbi.nlm.nih.gov/RefSeq) には、ウィルスを含む 3,774 種類の生物からの 280 万を超える予測済みのたんぱく質コーディング遺伝子が登録されています。 推測上のたんぱく質コーディング遺伝子とその関連するたんぱく質配列の識別の多くは、その機能注解 (予測される生物学上の機能と構造上の特徴を生の配列データに割り当てること) とともに、生物情報学ツールとデータベース比較を使用して行われました。 このような構造と機能の注解は、増加し続けるデータベース間の相互参照を基にして、長い年月をかけて作り上げられました。 入念に検証されたたんぱく質の参照セットを構成するために、いくつかの作業が進行中です。この作業では、遺伝子、たんぱく質、および細胞機能の命名法の参照セット (遺伝子オントロジー - Gene Ontology と呼ばれます。[www.geneontology.org] を参照) および標準化された注解規則を使用して、起因する機能を実験的に検証してきましたが、そのようなデータベースはまだ存在しません。

さらに、長年にわたって、かなり多くの二次情報 (構造、機能、他の項目との類似点、さまざまな相互参照) が、たんぱく質データベースの項目に追加されてきました。 このような情報は、入力後はほとんど更新または訂正されていません。 そのため、予測されたたんぱく質の機能注解は、多くの場合不完全であるか、標準化されていない命名法を使用しているか、または誤って注釈を付けた以前の配列から推測された場合は正しくないことがあります。 また、多くのたんぱく質はいくつかの構造ドメインや機能ドメイン (異なる進化、機能、構造の単位からなるモジュール) で構成されており、これは自動化された注解手順では見落とされることが考えられます。

Genome Comparison プロジェクト: データベースでのたんぱく質の機能注解の改善

Genome Comparison プロジェクトの主な目的は、初の試みとして予測済みのすべてのたんぱく質配列の間で完全なペアワイズ比較を行い、標準化された遺伝子オントロジー (www.geneontology.org/) とともにアノテーター・コミュニティーの参照リポジトリーとして使用できる類似度指数を得ることで、生物学者にとって非常に貴重なデータ・ソースを提供することです。 Genome Comparison プロジェクトで使用される配列類似性比較プログラムは、SSEARCH (W.R. Pearson [1991] Genomics 11:635-650) と呼ばれます。これは、Smith-Waterman の厳密なアルゴリズム (T. F. Smith および M. S. Waterman [1981] J. Mol. Biol. 147:195-197) の自由に利用できる実装であり、一組の配列間で最も高い類似性を持つ部分を数学的に検出します。

その結果、正確な注釈付けを行い、矛盾を修正し、未知の機能を持つ仮説上のたんぱく質に考えられる機能を割り当てることができるようになります。 さらに、複数のドメインおよび機能要素を持つたんぱく質を正しく発見できます。 遠い関係も検出可能になります。

細胞内の生態システムは非常に複雑で、細胞のたんぱく質の全内容、たんぱく質相互作用、生化学的経路、およびその規則については、ほんの一部しか把握されていません。 ゲノム・レベルで分かっているすべての生物の対応するたんぱく質間の主要な配列関係をすべて反映したデータベースは、この複雑性の理解を深める上で計り知れないほど貴重です。

また、データベースは、地球上の生物学的多様性を分析するための数多くの実験方法に利益をもたらします。 環境試料や新しい生物の断片的な分析を調査している科学者は、ゲノム比較分析の結果を利用して、これらの生物の遺伝学および生化学のさまざまな様相を調査することができます。 さらに、そのようなゲノム分析に基づいてたんぱく質 (および微生物) 間の進化関係の記述および分析を行うことは、ゲノム構造の進化と生物の生化学的組織および構造的組織を理解する上で大きな進歩になります。 生命樹の記述や生物学的多様性の目録作成などの大規模なイニシアチブは、Genome Comparison データベースによる大きな恩恵を受けます。

新薬、ワクチン、および診断法

ゲノム学を基にした科学的研究および (バイオ) テクノロジー関連開発は、新薬とワクチンの開発に加え、新しい診断法の開発に向かってますます大きく進歩しています。 この分野では、比較ゲノム学と、生化学的経路および細胞プロセスの知識が最も重要です。 他方で、機能分析およびたんぱく質相互作用の研究は主として、微生物、多細胞生物の細胞、および病原体がその環境 (または宿主) とどのように相互作用するかを理解するために重要です。これにより、感染症や寄生虫症、さらに代謝性疾患、慢性疾患、または変性疾患に対する新しい対処法を設計することが可能になります。

World Community Grid とゲノム機能注解

厳しいペアワイズ配列比較は計算量が膨大な操作であり、World Community Grid の大規模なグリッド構造からのサポートがなければ、完全に配列されたすべてのゲノムから予測されるたんぱく質の総当り 比較を行うことは、現在ではほぼ不可能です。 結果として得られる情報マトリックスは、新しいゲノム配列が得られるたびに増え続ける非常に貴重なデータベースを形成し、科学コミュニティー全体の中で多くの機能的研究のための基本資料になります。