保存配列
From Wikipedia, the free encyclopedia

進化生物学において、保存配列 (conserved sequence) とは、種間にまたがって、もしくはゲノム中に存在する、類似した、もしくは同一の核酸(DNAとRNA)・タンパク質配列のことである。種間で保存されている配列をオルソログ(オーソログ)配列、ゲノム中で保存されている複数の配列をパラログ配列と呼ぶ。保存性は、その配列が自然選択の過程で維持されてきたことを意味する。
高度に保存された配列は、系統樹をはるかにさかのぼっても比較的変わらないままであり、それゆえ地質時代的なタイムスケールにおいても同様である。高度に保存された配列の例は、生命のすべてのドメインに存在するリボソームのRNA要素、真核生物に広く存在するホメオボックス、そして細菌のtmRNAなどである。配列保存性の研究は、ゲノミクス、プロテオミクス、進化生物学、系統学、バイオインフォマティクス、そして数学の研究分野と重なる。
DNAの遺伝における役割の発見と、1949年のフレデリック・サンガーによる動物種間のインスリンの差異についての報告[2]は、初期の分子生物学者たちを分子レベルの観点からの系統学の研究へと促した[3][4] 。 1960年代、DNAハイブリダイゼーションやタンパク質の交差反応性 (cross-reactivity)に基づいた研究によって、ヘモグロビン[5]やシトクロムc[6] のような既知のオルソログタンパク質間の類似性が測定された。1965年、Émile Zuckerkandl とライナス・ポーリングは分子時計の概念を導入し[7] 、定常的な突然変異率を2つの生物が分枝してからの時間の推定のために用いることができると提唱した。初期の系統発生は化石記録とよく一致している一方で、いくつかの遺伝子については異なる速度で進化しているように思われ、そこから分子進化の理論のさらなる発展がもたらされた[3][4] 。1966年のMargaret Dayhoff によるフェレドキシンの配列比較は、自然選択は生命に必須のタンパク質の配列を保存し最適化するように作用する、と示した[8]。
配列保存のメカニズム
いくつもの世代にわたって、ある進化系統のゲノム中の核酸配列はランダムな変異や欠失によって、時間経過と共に徐々に変化していく[9][10]。また、配列は染色体の再編成 (chromosomal rearrangement) によって組み替えられたり欠失したりすることもある。保存配列は、このような変化への圧力にもかかわらずゲノム中に存在し続ける配列であり、突然変異率がバックグラウンドレベルよりも低い配列である[11]。
核酸配列の保存は、コーディング領域であってもノンコーディング領域であっても起こり得る。高度に保存されたDNA配列は何らかの機能的な価値を持つと考えられているが、多くの高度に保存されたノンコーディングなDNA配列の役割はほとんどわかっていない。配列が保存される程度は、選択圧や、突然変異に対する頑強性 (robustness)、集団サイズや遺伝的浮動の影響を受ける。
コーディング配列
DNA上にコードされているアミノ酸は3塩基が1組で決定されており、塩基はATGCの4種類であるのに対して、DNA上にコードされているアミノ酸は20種類である。したがって、理論上DNA上にコード可能なアミノ酸の種類よりも少なく、別な塩基配列であっても同じアミノ酸をコードしている場合もある。コーディグ領域に変異が発生しても、タンパク質のアミノ酸配列に影響しない、同義的な変異をサイレント変異と言う。サイレント変異が起こっても、作られるタンパク質は同じなので、このような変異が起きたとしても影響が少ないため、保存性は低くなりがちである。
アミノ酸配列は、タンパク質またはタンパク質ドメインの構造や機能を維持するよう保存される。保存されたタンパク質はアミノ酸の置換が少ないか、もしくは類似した生化学的性質を持つアミノ酸への置換が起きやすい傾向を持つ。配列の中でも、フォールディング、構造安定性、もしくは結合部位を形成するアミノ酸は、タンパク質の機能に変化をもたらし得るため、より高度に保存される。
タンパク質をコードする遺伝子の核酸配列は他の選択圧によっても保存される。生物種によるコドンの使用頻度の偏り (codon usage bias) は、配列中の同義置換のタイプを制限する。mRNAで二次構造を形成する核酸配列は、翻訳に悪影響を与えるものもあるため、不利な選択を受ける。一方でそのmRNAが機能的なノンコーディングRNAとしても機能する場合には保存される[12][13]。
ノンコーディング配列
ノンコーディング配列は、リボソームや転写因子の結合部位や認識部位となるなど、遺伝子発現の調節に重要であり、ゲノム中で保存されうる。例えば、保存された遺伝子やオペロンでは、そのプロモーター領域もまた保存される。タンパク質と同様に、ノンコーディングRNA (ncRNA) においても構造と機能に重要な核酸は保存される。しかしながら、タンパク質をコードする配列と比較して、ncRNAにおける配列保存性は一般的に乏しく、その代わり、構造や機能に寄与する塩基対の位置がしばしば保存されている[14][15]。例えば、インターロイキン22の遺伝子の付近にも、そのような場所が見られる[16]。
保存配列の同定
保存配列は、一般的にシーケンスアラインメントに基づいたバイオインフォマティクスによるアプローチによって同定される。ハイスループットなDNAシークエンシングやタンパク質質量分析の手法の進歩によって、2000年代初期以降、比較可能なタンパク質配列やゲノム情報の量は格段に増加した。
相同性検索(ホモロジー・サーチ)
保存配列は、BLASTやHMMER、Infernal[17]などのツールを用いた相同性検索によって同定することができる。相同性検索ツールは、個々の核酸またはタンパク質の配列をインプットとして用いてもよいし、既知の関連する配列の多重アラインメントから生成された統計モデルを用いてもよい。プロファイルHMMや構造情報を組み込んだRNA共分散モデル[18]のような統計モデルは、より関連性の低い配列を検索する場合に有用である。入力された配列は、関連個体または他の種の配列のデータベースに対してアラインメントされる。その結果は、一致するアミノ酸の数や、アラインメントによって生じたギャップや欠失の数に基づいてスコアリングがなされる。許容される保存的な置換は、PAMやBLOSUMのような置換行列に基づいて同定される。高スコアのアラインメントは、相同配列からなるものと推定される。
多重配列アラインメント

多重配列アラインメントは保存配列を可視化するためにも用いられる。Clustalフォーマットにはアラインメント中の保存残基の位置に注釈をつけるプレーンテキストのキーがあり、保存された残基の位置がアスタリスク(*) で、保存的な変異の位置がコロン(:) で、準保存的な変異の位置がピリオド(.)で、非保存的な変異の位置が空欄( )でそれぞれ示される[20](ページ上部の図参照)。 シーケンスロゴも、アラインメント中の各位置における残基の割合を高さによって表すことで、保存配列を表現する。
ゲノムアラインメント
ホールゲノムアラインメント (whole genome alignment, WGA) もまた、種間で高度に保存された領域を同定するために用いられる。現段階では、組み換えや反復配列、そして真核生物のゲノムの大きなサイズを扱う計算の複雑さのために、WGAのツールの正確さやスケーラビリティには限界がある[21]。しかしながら、30以上の近縁の細菌についてのWGAが実現可能なものとなっている[22][23]。
スコアリングシステム
他のアプローチでは、統計的な検定に基づいた保存性の測定が用いられ、予測されるバックグラウンドの(中立な)突然変異率とは異なる変異率を示す領域の同定が試みられている。
GERP (Genomic Evolutionary Rate Profiling) フレームワークは、種間の遺伝的配列の保存性を評価する。このアプローチでは、多重配列アラインメントからある生物種のセットにおける中立的な突然変異率を推定し、その予測値よりも変異が少ない配列領域を同定する。そして、これらの領域は予測されるバックグラウンドの突然変異率と観測された実際の突然変異率との差に基づいてスコアリングがなされる。高いGERPスコアは、高度に保存された配列であることを意味する[24][25]。
PhyloP や PhyloHHM のようなアプローチでは、置換率の確率分布を比較する統計系統学 (statistical phylogenetics) 的な手法が組み込まれており、変異の保存と加速の両方を検出することができる。はじめに、系統樹に基づいて、多重配列アラインメント中のあるカラムで起こると予測される置換の数のバックグラウンドの確率分布が生成される。目的の種間の進化的関係は、任意の置換の有意性を計算するために用いられる。すなわち、きわめて近縁の種間の変異は遠縁の種間の変異よりも起こりにくく、それゆえより有意である。保存性を検出するため、多重配列アラインメントの一部に対して確率分布が計算され、尤度比検定またはスコア検定のような手法を用いてバックグラウンド分布との比較が行われる。そして、2つの分布を比較して生成されたP値をもとに、保存領域が同定される[26][27][28]。
極端な保存性
超保存エレメント
超保存エレメント(ultra-conserved element, UCE) は、複数の分類群にわたって高度に類似した、もしくは同一の配列である。UCEは最初に脊椎動物の間に見つかり[29]、続いて次第に幅広く異なる分類群の間で同定された[30]。UCEの起源や機能はほとんどわかっていないが[31]、有羊膜類[32]、昆虫[33]、そして動物と植物[34]、といった地質学的ともいえるタイムスケールにおける差異を調べる際に利用されてきた。
普遍的に保存された遺伝子
最も高度に保存された遺伝子は、すべての生物に見つかる遺伝子である。それらは、主に転写や翻訳に必要とされるノンコーディングRNAやタンパク質であり、全生物の共通祖先 (LUCA) から保存されていると考えられている[35]。
普遍的に保存されていることが判明している遺伝子もしくは遺伝子ファミリーには、GTP結合型翻訳伸長因子、メチオニルアミノペプチダーゼ2、セリンヒドロキシメチルトランスフェラーゼ、ABC輸送体が含まれる[36]。RNAポリメラーゼやヘリカーゼといった転写装置の構成要素や、rRNA、tRNA、リボソームタンパク質といった翻訳装置の構成要素もまた、普遍的に保存されている[37]。