配列解析とは:DNA・タンパク質配列の定義・手法・応用ガイド

配列解析の基礎と最新手法をわかりやすく解説。DNA・タンパク質の定義から解析技術、応用例、結果解釈まで実務で使える完全ガイド。

著者: Leandro Alegsa

分子生物学における配列解析とは、核酸中のヌクレオチドやペプチド・タンパク質中のアミノ酸の配列を同定することである。試料を入手すれば、DNAの配列は機械で自動的に作成され、コンピュータに結果が表示されることもある。その結果を解釈するのは、やはり人間の仕事です。

配列解析から得られる情報は、生物学の多くの分野で利用されています。個々の生物間、あるいは生物のグループ間の関係に関する情報を得ることができます。どの程度近縁であるかがわかります。

配列解析の範囲と対象

  • 核酸配列(DNA/RNA):ゲノム解析、トランスクリプトーム(RNA-seq)、ウイルス・細菌の遺伝子解読など。
  • タンパク質配列:アミノ酸配列の決定、ドメインや機能部位の予測、プロテオミクスによる同定。
  • 短い配列から大規模ゲノムまで:単一遺伝子の塩基配列から全ゲノム配列まで、スケールは多様です。

一般的なワークフロー(実験 → 計算の流れ)

  • 試料調製:採取、抽出(DNA/RNA/protein)、品質評価。
  • ライブラリ作成・測定:シーケンスライブラリ作成、あるいはタンパク質は酵素消化→質量分析(LC-MS/MS)など。
  • シーケンシング/測定
    • DNA/RNA:Sangerシーケンシング、次世代シーケンシング(Illuminaなど)、第三世代(PacBio、Oxford Nanopore)
    • タンパク質:質量分析によるペプチド同定
  • 一次処理(ベースコール・ピーク検出):FASTQなどの生データ生成、品質(Qスコア)評価。
  • データクレンジング:トリミング、フィルタリング、アダプター除去(例:FastQC、Trimmomatic)。
  • 解析(マッピング/アセンブリ/同定):リファレンスへのアラインメント(BWA、Bowtie)、de novoアセンブリ(SPAdes、Canu)、タンパク質同定(Mascot、MaxQuant)。
  • 下流解析:変異解析(SNV、indel、SV)、発現解析、機能注釈、系統解析、多重配列アラインメント(MAFFT、Clustal)など。

主要な技術と特徴

  • Sanger法:高精度で短読長(〜800 bp)。単一遺伝子や小規模な検証に有用。
  • 次世代シーケンス(NGS):短いリードを大量に得る。コスト効率が高く、リード深度(カバレッジ)により低頻度変異も検出可能。
  • 第三世代シーケンス:長いリード(長読長)を取得でき、複雑な構造変異や反復配列の解決に強い(長所と高エラー率のトレードオフがある)。
  • 質量分析(プロテオミクス):タンパク質をペプチドに分解して同定・定量する。翻訳後修飾(PTM)の解析にも利用される。

データ形式と主要ツール

  • ファイル形式:FASTA(配列)、FASTQ(配列+品質)、SAM/BAM(アラインメント)、VCF(変異情報)、GFF/GTF(注釈)。
  • 代表的なツール/データベース
    • 検索・類似検索:BLAST
    • 整列・アライメント:BWA、Bowtie、MAFFT、Clustal
    • 変異検出・処理:SAMtools、GATK
    • アノテーション:Prokka、UniProt、RefSeq、GenBank
    • 系統解析:MEGA、RAxML、IQ-TREE

主な応用例

  • 進化・系統解析:種間の関係や系統樹の推定。
  • 診断・感染症検査:病原体の同定、薬剤耐性遺伝子の検出。
  • がんゲノミクス・個別化医療:腫瘍の変異プロファイルに基づく治療選択。
  • メタゲノミクス:環境試料中の微生物群集解析。
  • 機能遺伝学・遺伝子発見:新規遺伝子や機能ドメインの同定。
  • 法医学・親子鑑定:個体識別や関係推定。

注意点と課題

  • 誤差とアーティファクト:シーケンスエラー、PCRバイアス、ライブラリ汚染に留意する必要があります。
  • リード長とカバレッジのトレードオフ:短リードは精度が高く大量解析向き、長リードは構造の解明に有利。
  • データ解釈の難しさ:変異が機能に及ぼす影響の評価や、アノテーションの限界。
  • 倫理・法的配慮:ヒトゲノムデータの取り扱い、同意とプライバシー保護が重要です。

実務的なポイント(初心者向け)

  • 目的に応じて適切なプラットフォームを選ぶ(例:変異検出なら高深度の短リード、ゲノム組立てなら長リードを組み合わせる)。
  • 必ず品質チェックを行い、低品質データは除去または補正する。
  • 結果は複数の方法で検証する(例えば、NGSで見つけた変異をSangerで確認)。
  • 公開データベースや既存文献と照合することで解釈の精度が上がる。

配列解析は実験技術と計算解析を組み合わせる学際的な分野であり、得られる情報は基礎研究から臨床応用まで幅広く役立ちます。目的に合わせた適切な設計と厳密な品質管理、倫理的配慮が成功の鍵です。

DNA塩基対の配列

DNA配列とは、DNA分子中のヌクレオチドの配列のことである。DNA配列は、DNA分子または鎖の一次構造を表す連続した文字として記述される。機能的であれば、タンパク質分子に含まれるアミノ酸の配列の情報を持っています。A、C、G、Tは、DNA鎖の4つの塩基(アデニン、シトシン、グアニン、チミン)を表しています。配列はAAAGTCTGACのように隙間なく隣り合わせに印刷されている。

RNAやタンパク質の研究はもっと複雑です。DNAの全体的な構造は単純で、予測可能です(二重らせん)。RNAとタンパク質の研究には、その3次元構造の研究が必要で、それは多様であり、どのように機能するかを左右する。この研究は、ある程度はコンピューターによって支援することができますが、個々のケースで検証する必要があります。

配列の情報はデータベースで管理されている。1990年代に遺伝子やタンパク質の配列が高速に作成されるようになってから、データベースに新しい配列が追加される速度がどんどん速くなっています。

スコア

800以上の種や株について、完全なゲノム解析が行われている。この作業は、DNAシーケンサーという機械で、ヌクレオチドに付着した蛍光色素からの光信号を解析して行われる。この種の作業は徐々に安価になりつつある。

「現在(2009年)、全ゲノム配列が完成、進行中、または計画段階にある脊椎動物は90種以上あります。

大まかな集計

2012年12月現在、約800~900種の現存する生物種や系統について全ゲノム解析が完了しています。数字は概数であり、変化しています。

  • 動物:111種
  • 植物53種
  • 菌類。81種
  • 原生生物。50種
  • 古細菌:139種・株
  • 細菌類~4/500の種と株

ヒトのDNA配列

ヒトのゲノムは、細胞核にある23本の染色体と、小さなミトコンドリアDNAに保存されています。現在では、私たちの染色体上にあるDNAの配列について、多くのことが知られています。また、DNAが実際にどのような働きをしているのかについても、部分的には分かってきています。この知識を実際に応用することは、まだ始まったばかりです。

ヒトゲノム・プロジェクト(HGP)は、生物学や医学の分野で世界的に利用されている参照配列を作成しました。Nature誌は公的資金で行われたプロジェクトの報告書を掲載し、Science誌はセレラの論文を掲載しました。これらの論文は、配列のドラフトがどのように作成されたかを説明し、配列の分析を行ったものである。2003年と2005年には、配列の約92%を埋める改良ドラフトが発表された。

最新のプロジェクトENCODEでは、遺伝子の制御の仕方を研究しています。

フォレンジックワーク

犯罪現場に残されたDNAの痕跡から犯人を特定するような科学捜査や、父子鑑定などでは、全ゲノム配列は必要ない。現在、全ゲノム配列の解読はまだ非常に高価ですが、幸いなことに、よりシンプルで安価な方法が利用可能です。

基本的な考え方は、人により大きく異なるゲノムの特定の遺伝子座(場所)を調べることである。これらの遺伝子座のうち、10~15個程度が一致することが必要で、法的には国によって違いがあります。サンプルと疑わしい個人が一致すれば、その個人がサンプルの提供者である可能性が極めて高くなる。そして、この証拠が犯罪の起訴の根拠となるのです。同じような分析で、ある男性が子供の父親である可能性が非常に高いことがわかるのです。これは、DNAの詳細な分析が可能になる前に、血液型で行われていたことを現代風にアレンジしたものです。この方法は、主にAlec Jeffreysの研究によって開発されました。

各人のDNAには、特定の遺伝子または「マーカー」の対立遺伝子が2つ含まれています。マーカー」とは、集団の中で頻繁に発生する数種類の対立遺伝子を持つように選ばれた遺伝子のことです。次の表は、市販のDNA親子鑑定実験によるものである。この表は、5つのマーカーを用いて、親子間の血縁関係がどのように証明されるかを示しています。

DNAマーカー

子供

疑惑の父親

D21S11

28, 30

28, 31

29, 31

D7S820

9, 10

10, 11

11, 12

TH01

14, 15

14, 16

15, 16

D13S317

7, 8

7, 9

8, 9

D19S433

14, 16.2

14, 15

15, 17

その結果、子供と父親とされる男性のDNAは、この5つのマーカーで一致することがわかりました。完全な検査結果では、子供と検査された男性の間の16のマーカーでこの相関関係が示されました。裁判で検査された場合、法医学者は、偶然にその結果が得られる可能性について証拠を示すことになる。

米国でのDNA検査

米国では、50州すべてでDNAプロファイリングに関する州法が制定されています。各州のデータベース法に関する詳細な情報は、全米州議会議事堂のホームページで確認することができます。

米国税関・国境警備局の化学者が、商品の出所を調べるためにDNAプロファイルを読み取る。Zoom
米国税関・国境警備局の化学者が、商品の出所を調べるためにDNAプロファイルを読み取る。

古代のDNA

古代のDNAは、いくつかの資料から回収されている。配列分析に適したDNAの生存記録は70万年である。永久凍土に埋められた馬の骨から、DNAが一部残存している骨が発見された。その配列は70%しか完成していなかったが、研究者が「我々が知っているような馬には見えないだろう...しかし、一本足の馬であると予想される」と言うには十分なものであった。比較のために、研究者は現代の馬、ロバプシェバルスキー馬のDNA配列を入手することができた。

関連ページ



百科事典を検索する
AlegsaOnline.com - 2020 / 2025 - License CC3