スパコンとクモのゲノム

ラボ日記

研究セクターのスタッフが、日常で思ったことや実験の現場の様子を紹介します。
月二回、スタッフが交替で更新しています。

バックナンバー

秋山-小田康子

順位が話題になったとき、スーパーコンピューター（スパコン）は一応理系の研究者の私にとってもまだまだ遠い存在でした。あれから数年経ち、今、ちょこちょこっとスパコンを使い始めています。まだ、おおっぴらに使っています！と宣言するほどではありませんが。

この数年の間にDNAの塩基配列の解読技術が格段に進みました。このラボ日記にも時々話題に上るように、BRHでも昨冬から次世代シーケンサーが本格的に動き始めました。パーソナルタイプの小さな機械ですが、実験がうまくいくと一度のランで（40時間ほどで）10G（10,000,000,000=100億）塩基に近いデータを得ることができます。これは本当に驚くデータ量です。もうひとつBRHで活躍中の蛍光シーケンサーでは、20時間ほどで200K（200,000=20万）塩基程度です。さらにさかのぼって私が大学院生だった頃、私は放射性同位体を使ってシーケンスをした最後の世代だったのではと思うのですが、この方法では一日がかりで12サンプルがせいぜいで、きれいに読めて全部で4K（4000=4千）塩基に行くかどうかというレベルだったのではないかと記憶しています。出てきた情報もX線フィルムを見ながら自分の手で原稿用紙に写して、コンピューターに打ち込んでいました。

それから長いときを経て、次世代シーケンサーを用いて、今オオヒメグモのゲノム配列を解読しています。まさに技術の発展を体感しているといった感じです。もちろんデータ量が増えたのは喜ぶべきことなのですが、結果が出て呆然としています。実はこのシーケンサーで出てくるデータは250塩基つながった情報が4000万個（2000万個同士がある距離はなれたペアの情報になっている）といった感じなのです。クモはゲノムサイズが大きい（1.3G程度、ショウジョウバエの７倍以上）こともあって、この4000万個x数回のランの情報をもとのクモのゲノムの状態に並べるには、普通のコンピューターに手に負えるものではなく、試行錯誤の末、スパコンにたどり着いたのです。それでもメモリー不足に陥ることもあり、さらに呆然としてしまっています。

最後に順位のことですが、１位を目指すかどうかということではなく、既に存在しているもの（１位のもの）より良いものを作ることを目指さなくては、世界の発展の速さから取り残されてしまうということなのではないでしょうか。私たちの研究でも同じなのだと思っています。

[ ハエとクモ、そしてヒトの祖先を知ろうラボ秋山-小田康子 ]

ラボ日記最新号へ