ラボ日記
2023.03.15
データ解析と格闘
これまで実験大好きで研究に取り組んできましたが、ここのところコンピューターに向かってデータ解析をする日々です。学生の頃はピペットマンの使い過ぎで腱鞘炎になりましたが、最近はテニス肘。なんで?と思ってネットで調べるとコンピューターを使う人には多いようです。気をつけないと。
さて、今行っているのはSingle-cell RNA-seqのデータ解析です。昨年の論文で扱った胚より少し発生ステージの進んだ、より複雑な遺伝子発現パターンを示すオオヒメグモ胚が解析対象です。ゲノムレベルのデータを手にしていますが、どのようにデータを解析し、解釈し、理解したことを他の人に示すのかということが目下の課題で、大きく2つの難しさを感じています。1つは、やはり巨大なデータを扱うということです。数十ギガもあるデータは、人間の目で1つ1つ分析できるようなものではなく、コンピューターでいくつかのアルゴリズムを利用して加工するのですが、本当に適切な方法でデータを扱えているのか、重要な情報を見落としていないか、確認することすら難しく手間がかかります。
2つ目は、画像(写真)として扱ってきたデータが数値として表されるようになっているということです。これまで遺伝子発現は胚や細胞を染色し、顕微鏡写真として示してきました。‘綺麗’な、心動かすような写真を撮ることに力を注いできましたが、今行っている解析では発現の情報は平易な数字の羅列です。既に知っている遺伝子発現に対しては、なるほど、うまく数字で表されるものだな、などと感動したりもするのですが、反対に数値を先に見ることとなった、これまで解析したことのない2万もの遺伝子に対して、これらの数字が遺伝子発現の重要性を示しているのかどうかを、どう判定するのか、頭をひねっています。現在、解決に少しずつ手応えを感じつつも、最後の詰めが・・・という感じです。早くデータをまとめて、分かりやすい形で示せたらと思っています。
さて、今行っているのはSingle-cell RNA-seqのデータ解析です。昨年の論文で扱った胚より少し発生ステージの進んだ、より複雑な遺伝子発現パターンを示すオオヒメグモ胚が解析対象です。ゲノムレベルのデータを手にしていますが、どのようにデータを解析し、解釈し、理解したことを他の人に示すのかということが目下の課題で、大きく2つの難しさを感じています。1つは、やはり巨大なデータを扱うということです。数十ギガもあるデータは、人間の目で1つ1つ分析できるようなものではなく、コンピューターでいくつかのアルゴリズムを利用して加工するのですが、本当に適切な方法でデータを扱えているのか、重要な情報を見落としていないか、確認することすら難しく手間がかかります。
2つ目は、画像(写真)として扱ってきたデータが数値として表されるようになっているということです。これまで遺伝子発現は胚や細胞を染色し、顕微鏡写真として示してきました。‘綺麗’な、心動かすような写真を撮ることに力を注いできましたが、今行っている解析では発現の情報は平易な数字の羅列です。既に知っている遺伝子発現に対しては、なるほど、うまく数字で表されるものだな、などと感動したりもするのですが、反対に数値を先に見ることとなった、これまで解析したことのない2万もの遺伝子に対して、これらの数字が遺伝子発現の重要性を示しているのかどうかを、どう判定するのか、頭をひねっています。現在、解決に少しずつ手応えを感じつつも、最後の詰めが・・・という感じです。早くデータをまとめて、分かりやすい形で示せたらと思っています。
秋山-小田康子 (特別研究員)
所属: 細胞・発生・進化研究室
動物の初期発生に興味を持ち、オオヒメグモを用いて研究しています。