分子生物学における配列解析とは、核酸中のヌクレオチドやペプチド・タンパク質中のアミノ酸の配列を同定することである。試料を入手すれば、DNAの配列は機械で自動的に作成され、コンピュータに結果が表示されることもある。その結果を解釈するのは、やはり人間の仕事です。
配列解析から得られる情報は、生物学の多くの分野で利用されています。個々の生物間、あるいは生物のグループ間の関係に関する情報を得ることができます。どの程度近縁であるかがわかります。
配列解析の範囲と対象
- 核酸配列(DNA/RNA):ゲノム解析、トランスクリプトーム(RNA-seq)、ウイルス・細菌の遺伝子解読など。
- タンパク質配列:アミノ酸配列の決定、ドメインや機能部位の予測、プロテオミクスによる同定。
- 短い配列から大規模ゲノムまで:単一遺伝子の塩基配列から全ゲノム配列まで、スケールは多様です。
一般的なワークフロー(実験 → 計算の流れ)
- 試料調製:採取、抽出(DNA/RNA/protein)、品質評価。
- ライブラリ作成・測定:シーケンスライブラリ作成、あるいはタンパク質は酵素消化→質量分析(LC-MS/MS)など。
- シーケンシング/測定:
- DNA/RNA:Sangerシーケンシング、次世代シーケンシング(Illuminaなど)、第三世代(PacBio、Oxford Nanopore)
- タンパク質:質量分析によるペプチド同定
- 一次処理(ベースコール・ピーク検出):FASTQなどの生データ生成、品質(Qスコア)評価。
- データクレンジング:トリミング、フィルタリング、アダプター除去(例:FastQC、Trimmomatic)。
- 解析(マッピング/アセンブリ/同定):リファレンスへのアラインメント(BWA、Bowtie)、de novoアセンブリ(SPAdes、Canu)、タンパク質同定(Mascot、MaxQuant)。
- 下流解析:変異解析(SNV、indel、SV)、発現解析、機能注釈、系統解析、多重配列アラインメント(MAFFT、Clustal)など。
主要な技術と特徴
- Sanger法:高精度で短読長(〜800 bp)。単一遺伝子や小規模な検証に有用。
- 次世代シーケンス(NGS):短いリードを大量に得る。コスト効率が高く、リード深度(カバレッジ)により低頻度変異も検出可能。
- 第三世代シーケンス:長いリード(長読長)を取得でき、複雑な構造変異や反復配列の解決に強い(長所と高エラー率のトレードオフがある)。
- 質量分析(プロテオミクス):タンパク質をペプチドに分解して同定・定量する。翻訳後修飾(PTM)の解析にも利用される。
データ形式と主要ツール
- ファイル形式:FASTA(配列)、FASTQ(配列+品質)、SAM/BAM(アラインメント)、VCF(変異情報)、GFF/GTF(注釈)。
- 代表的なツール/データベース:
- 検索・類似検索:BLAST
- 整列・アライメント:BWA、Bowtie、MAFFT、Clustal
- 変異検出・処理:SAMtools、GATK
- アノテーション:Prokka、UniProt、RefSeq、GenBank
- 系統解析:MEGA、RAxML、IQ-TREE
主な応用例
- 進化・系統解析:種間の関係や系統樹の推定。
- 診断・感染症検査:病原体の同定、薬剤耐性遺伝子の検出。
- がんゲノミクス・個別化医療:腫瘍の変異プロファイルに基づく治療選択。
- メタゲノミクス:環境試料中の微生物群集解析。
- 機能遺伝学・遺伝子発見:新規遺伝子や機能ドメインの同定。
- 法医学・親子鑑定:個体識別や関係推定。
注意点と課題
- 誤差とアーティファクト:シーケンスエラー、PCRバイアス、ライブラリ汚染に留意する必要があります。
- リード長とカバレッジのトレードオフ:短リードは精度が高く大量解析向き、長リードは構造の解明に有利。
- データ解釈の難しさ:変異が機能に及ぼす影響の評価や、アノテーションの限界。
- 倫理・法的配慮:ヒトゲノムデータの取り扱い、同意とプライバシー保護が重要です。
実務的なポイント(初心者向け)
- 目的に応じて適切なプラットフォームを選ぶ(例:変異検出なら高深度の短リード、ゲノム組立てなら長リードを組み合わせる)。
- 必ず品質チェックを行い、低品質データは除去または補正する。
- 結果は複数の方法で検証する(例えば、NGSで見つけた変異をSangerで確認)。
- 公開データベースや既存文献と照合することで解釈の精度が上がる。
配列解析は実験技術と計算解析を組み合わせる学際的な分野であり、得られる情報は基礎研究から臨床応用まで幅広く役立ちます。目的に合わせた適切な設計と厳密な品質管理、倫理的配慮が成功の鍵です。

