発現が有意に上昇している遺伝子(DEG)のデータを抜き出す
前の手順までで、発現量が異なる遺伝子(DEG)の探索が完了している。ここでは、DEGのアノテーションデータや配列データを取り出して、どの遺伝子の発現量が変動していたのかや、タンパク質の構造予測やBLAST検索など、この後の各自の研究目的にあった解析が行えるようにする。シェルのコマンドでDEGアノテーションを取り出す
DESeq2.数字.dir にいる場合
:> mkdir ./DEG
:> cd ./DEG
仮に
salmon.isoform.counts.matrix.FL_vs_HL.DESeq2.DE_results.P1e-2_C2.FL-UP.subset
が知りたい遺伝子のファイルである場合
:> grep 'TRINITY*' ../salmon.isoform.counts.matrix.FL_vs_HL.DESeq2.DE_results.P1e-2_C2.FL-UP.subset | awk '{print $1}' > DEG_list.txt
これで発現量が上がっている遺伝子のcontig名リストができる
:> for file in `cat ./DEG_list.txt`;do grep $file ../../../../../../Trandecoder/pfam_Final.out_domtblout;done > DEG.txt
「../」はひとつ上のディレクトー(フォルダー)の意味である。このマニュアルと同じ手順でディレクトリーを作成していれば、上記のコマンドで動作するはずである。ファイルが見つからないというエラーになる場合は、「../../」の部分を実際のファイルのパス(ファイルがある場所)に変更する。その際、Macの場合はファイルをターミナルのウインドーにドラッグ&ドロップするのが最も確実で簡便である。
これで、Transdecoder でアノテーションしておいたリストの中から、発現量が変わっていたcontigのアノテーションデータを抜き出せる
seqkitを使ってDEGのFastAデータを取り出す
:> for file in `cat ./DEG_list.txt`;do seqkit grep -p $file ../../../../../../Trandecoder/Trinity.fasta.transdecoder.pep > DEG.fasta
(アミノ酸配列の場合。塩基配列の場合はファイル名の.pepを.cdsに変える)
目次
- 環境構築
- リードのクオリティチェックとアセンブル
- Transdecoder による遺伝子予測とアノテーション
- リード数のカウント
- カウントマトリクスの作成
- リードカウントのQC解析
- DE解析
- DEG取り出し
- おまけ1: Transdecoderの自動化
- おまけ2: 発現量解析の自動化
- おまけ3: Anacondaコマンドの使い方一覧