兄の背中をおいかけて
父は、医者で九州大学の医学部に勤めていました。九州大学では戦時中、生体解剖事件というのがあり、そのころ父は、それに関わる別の事件の証人として巣鴨プリズンに召喚されていました。上坂冬子さんの本に詳しいのですが、裁判では父の証言によって全員が無罪となったそうです。そこに裁判中、「金久夫人も二人目の子が臨月にさしかかっていた」と書かれているのが私です。母は、実家の長崎に行き、私が生まれたのです。母の父親は役人で、いろいろなところを転々としていましたが、1945年に長崎で原爆にあい、連れ合いである私の祖母と母の一番下の弟であった息子の二人を原爆で亡くしていました。
生まれは長崎ですが、その後福岡に戻って、幼稚園、小学校に行きました。ふつうの子供で、何かに特に熱中したということもありません。2歳上の兄と2人兄弟で、兄が活発で私は内気な性格で、何でも兄を追いかけていたイメージでした。教育熱心だった母の勧めで、英会話教室に通い語学は得意でしたが、だんだん算数や理科が好きになりました。小学校5年生の時に父親が九大から鹿児島大学の医学部に転勤になって、6年生の1年は鹿児島の小学校に通い、兄が進学した鹿児島の中高一貫校のラ・サール学園に入りました。
大学も兄がそうしたので東京大学の理科一類に。両親はもしかしたら医者になることを期待していたかもしれませんが、後継が必要な開業医ではなかったので、自由にさせてくれました。当時は湯川秀樹さんがノーベル賞を受賞し、物理学者は尊敬の対象でしたし、兄が一番の難関だった物理学科に進んだので、私も負けじと物理を選びました。兄は、固体物理を選んで、大学院終了後はフランスで研究を続けましたが、私は自然科学が好きだったので、生物や宇宙などの自然を物理で明らかにすることに興味がわきました。中学や高校で習ったマクロなレベルの生物学は関心がなかったのですが、大学で生物物理を学んで、物理や化学で生物を扱うことができると知ったのです。

6歳のとき、父と兄(左)と。子供時代、兄は社交的、自分は内気な性格だった。
コンピュータで生物を理解する
4年生の時に実習で、東大の大型コンピュータを使う機会があって、プログラミングやコンピュータにのめり込みました。まだ、パンチカードを使ったコンピュータの時代でしたがとても魅力を感じたのです。実験があまり好きではなかったこともあり、コンピュータが使える研究がしたいと考えました。当時、生物物理には和田昭允先生と池上明先生がいらっしゃいましたが、コンピュータの利用に理解をお持ちだった池上先生の下で研究を始めました。先生が実験をしたデータをコンピュータで解析するのです。研究室には行かず、ほとんど大型計算機センターに入り浸りでした。博士論文は、タンパク質の構造を理論的モデルによって検証する、という内容でした。現在のように配列から立体構造を予測する、というのではありません。実験で温度を上げたり、尿素を入れたりとタンパク質を変性させると形が変わるので、測定したデータに合わせてモデルをつくり、理論的に検証するという方法です。物理学を背景に生物を理解し、方法論として理論とコンピュータを使うという研究姿勢はここで培われたと思います。
大学院時代といえば、「荒軽人一座」というフォークグループで音楽活動をして、レコードを出したんですよ。当時は東大全共闘の時代で、授業どころではない雰囲気でした。私はシンパのほうでしたが、仲間で集まってスナックで歌っていたところをスカウトされたのです。友人の高橋君が作詞作曲した「おでんの唄」を、もう一人ギターの上手いメンバーと3人で歌い、ラジオに出演したりスキー場で演奏したりしました。NHKの「みんなのうた」に使われて、かわいらしいアニメーションになったのですが、残念ながら残っていないそうです。活動は1年くらいでしたが、楽しかった青春時代の思い出です。

大学院時代、フォークグループで歌い「おでんの唄」でレコードを出した。楽しい青春の一ページ。
アメリカで基盤を築く
大学院を出てアメリカへ留学しました。池上先生の紹介でジョンズホプキンス大学のティエソン先生の元に、同じ研究室の1年上の先輩と2人で行ったのです。大学院の研究の発展として、実験データをコンピュータで解析をするというスタイルで3年くらい研究をして、論文を何本も書きました。ところが先輩は帰国して助手になりましたが、私は日本に呼び戻してもらえませんでした。当時は、なかなか職がなく、帰国してもオーバードクターが普通でしたので、日本に帰るのは諦めて、自分で道を切り開いて、アメリカで身をたてる決心をしました。何十という研究機関に手紙を出して、いくつか面接までいきましたが、最後まで残ったのがロス・アラモス研究所でした。ロス・アラモス研究所といえば、オッペンハイマーが原子爆弾を開発する目的で設立し、実際に広島や長崎に投下された爆弾を製造した場所です。母の気持ちを慮り、許可をとるべきと思って相談しました。「やりたいことをやりなさい」と言ってもらえ、就職を決めました。東海岸のボルチモアから、ニューメキシコ州まで車を運転して一週間。軍事研究用の施設なので山奥にあり、人家もろくにない一本道で、途中吹雪にであって危うく遭難するかという目にあい、ようやく辿り着きました。
ロス・アラモスでは、理論生物学という全員がコンピュータで分子生物学の解析をしているグループに入りました。残り物のように言いましたが、結果的には、DNA配列のデータベースを始めるというタイミングに運良く居合わせることになったのです。DNA解析の実験手法が確立して、遺伝情報としてのDNA配列のデータが集まり始めたころでした。リーダーのゴード先生は、物理学から生物学に移られて、物理学をベースにコンピュータを活用した数理生物学を推進していました。メンバーはゴード先生を中心に、DNAやアミノ酸の配列を数学的に扱うためのアルゴリズムを開発していました。DNA配列からアミノ酸配列は、生物学的なルールで変換されますが、その先の機能がどのような配列のパターンとして抽出できるかは、蓄積したデータを比較して解き明かすことになります。私は、ゴード先生と類似するDNA配列を探索し、並置するゴード・カネヒサアルゴリズムを作りました。同じ頃、今も使われているSSEARCHというプログラムのアルゴリズムを同じチームのテンプル・スミスとマイク・ウォーターマンが開発しています。同じアイディアがベースになっていますが、彼らの方法は一番似ている箇所を1つ探すのに対し、私たちの方法は、すべての候補を挙げるというやり方です。遺伝子のように同じくらいの長さの配列同士の比較にはSSEARCHが優れていますが、ゲノム配列のように長さが異なり、途中で組み換えが起こっている配列を比較するには、私たちの方法が向いています。現在でも使うことができる、ソフトウェアの基礎を築いたと考えています。

ロス・アラモス研究所で母と。長崎の原爆で母親と弟を亡くした母に自分の道を認めてもらえた。
データベースとの出会い
配列解析のための資源を最大限に確保するには、DNA配列のデータベース化が必要です。そのころ国立衛生研究所(NIH)がDNAのナショナルバンクを設置する構想の提案を募集しました。それに、ゴード先生が応募したのです。アミノ酸のコード表記を考案し、アミノ酸置換のデイホフマトリクスで有名なマーガレット・デイホフなど、他にも有力な研究者が手を挙げました。彼女のタンパク質配列のデータベースは、当時最大のデータを持っていたのです。ちょうどヨーロッパのEMBLでもDNAデータベースの制作が進んでおり、NIHは判断を迫られていました。最終的にロス・アラモスが5年間の資金を獲得し、ゴード先生は核酸配列の収集、保存、分析、配布を目的としたパイロットプロジェクトを開始しました。最初のデータベースは、論文に掲載されているDNA配列データを手作業で入力していました。何重にもチェックしたり、アノテーションする(注釈をつける)作業に私も参加しました。Fortran言語で書かれたデータ管理システムを使い、リレーショナルデータベースを操作するSQL言語に初めて触れたのは、この時です。統計学やデータ管理システムの考えを本格的に生物学として取り入れる経験を積みました。2年間制作に関わった後、出来上がったDNAデータベースGenBankを広める立場でNIHに出向し、そのままNIHの研究員になりました。
NIHには4年ほどいました。後半の2年は、後にヒトゲノムプロジェクトの米国エネルギー省(DOE)での提案者となるチャールズ・デリシさんがNIHの理論免疫学におられて、一緒に解析ツールやデータベースシステムの開発をしました。FRAMISというデータベース管理システムを用いてタンパク質とDNA情報の統合データベースを試作しました。その時つくった検索コマンドが帰国後にデータベースを提供するときに活きてきます。データベースの配列データを用いて、配列比較の検証や実際にウイルスのゲノムの比較やタンパク質の分類も試み、研究のスタイルを確立しました。配列解析からコンピュータで遺伝子やタンパク質の機能予測をすることが現実味を帯びてきたのです。
ロス・アラモス研究所からの核酸データバンク発表のプレスリリース(1982年9月9日)。貢献者として名前があがっている。
日本のゲノムプロジェクトを始める
兼ねてから日本への帰国を希望していたのですが、ちょうど日本でもDNAのデータベースを立ち上げる動きがあり相談を受けました。京都大学の化学研究所では大井龍夫先生が中心になりDNA DATABANKを始められ、国立遺伝学研究所ではDDBJが、塩基配列データベースの欧米日三極の日本ノードとして動き出しました。タンパク質配列のデータベースは、対象となるデータや目的によって海外でも日本でも複数の試みがあり、集約が議論されていました。結果的に私は京大に移って、スーパーコンピュータの導入を手掛けました。アメリカでデリシさんがヒトゲノムプロジェクトに移り、日本でも大学の恩師である和田昭允先生がDNAの自動解析を提唱したり、松原謙一先生が、国際ヒトゲノム機構(HUGO)の副会長に就任したりと、ヒトゲノム解析へ機運が高まっていた時期でした。
ゲノム解析には情報科学が必要ということで、日本のヒトゲノムを推進する懇談会にお声がけいただいたので、審議会などでヒトゲノムプロジェクトやデータ解析の重要性を説くことから始めました。その結果、1989年に「ヒト・ゲノムプログラムの推進に関する研究」という科研費のプロジェクトが始まり、91年にそれを継ぐ情報科学を軸とした重点領域研究「ゲノム解析に伴う大量 知識情報処理の研究」(ゲノム情報)の代表研究者となりました。米国が主導でヒトゲノムプロジェクトが始まりましたが、日本では大腸菌などの実験生物が対象で、ヒトゲノムの解析はまだ準備段階でした。それでもこれから大量の情報が発生する時代が到来すると、データの処理や解析、どのように表現し集約するかなど情報科学に大きな期待が寄せられました。東京大学医科学研究所にヒトゲノム解析センターが研究拠点として設置され、私も兼務になりました。

日本のゲノム研究プロジェクト開始にむけた公開シンポジウム。この後、重点領域研究「ゲノム情報」を立ち上げた。
ゲノム情報の基礎をつくる
当時の日本には生物学の一分野として情報科学を研究する人材もインフラストラクチャーもありませんでした。人材については、時を同じくして、旧通産省が主導した第五世代コンピュータ計画が「遺伝子処理ワーキンググループ」を設置したことで、その実施機関のICOTのメンバーと人的なつながりができたのです。並列処理や知識処理といった情報科学のスペシャリストである若手研究者が、ゲノム分野に参入してくれました。おかげで、単にデータ処理やツール提供などの実験サポートではなく、大量データを用いた高度な解析が期待されていたゲノム情報解析のニーズと知識情報処理のシーズが融合する形でスタートを切れました。夏にはゴードンカンファレンスをイメージした泊まりがけのチュートリアルを行い、年末には英語を公用語として学会形式のワークショップを開きました。情報科学としての「ゲノム情報」を確立することができたのは大きな収穫でした。
インフラについては、技術的な進歩に後押しされ整備を進めました。ハードウェアが高度化してクライアントサーバシステムが普及し始め、京大、東大でのスーパーコンピュータの運用が始まります。インターネットの活用が始まった時期で、学生時代お世話になった釜江常好先生が東大理学部で始められたTISN(国際理学ネットワーク)に1991年に京大化学研究所が、翌年に九大にも接続し、GenomeNet(ゲノムネット)を発足しました。インターネットはまだ黎明期で運用の経験がある技術者がいなかったので、ここでも人脈に助けられました。1993年には東大のヒトゲノム解析センターにゲノム解析のための超並列コンピュータが導入され、研究コミュニティに公開されました。
私自身は、このプロジェクトを通じてまずはゲノムネットのデータベースサービスを開始しました。NIHで試みたDNAやタンパク質の統合データベースを拡張して、世界の主要な分子生物学研究関連データベースを集め、研究コミュニティに提供しました。今もゲノムネットでサービスしているDBGETです。ちょうどWorld Wide Webの技術が普及して、画像などの多様なデータを扱えるようになり、データベースを渡り歩くように検索できる統合データベースが実現しました。
欧米では、NCBIやEBIのようなデータの収集拠点が公開までを含む体制をつくり、データベースを集約して提供していましたので、日本にも相当する環境をまず実現するのが大切だと考えたのです。しかし、ゲノム情報となるとデータベースの寄せ集めではなく、ゲノムの生物学的な意味の理解が求められます。すでに機能がわかっているタンパク質との配列の類似性を検索することで遺伝子の機能予測は日常的に行われるようになっていましたが、それは1つ1つの機能でそれ以上進みません。単なる計算技術だけでなく、広範な知識をコンピュータ化し大量データとの統合処理・解釈を可能にするデータベースを作り出さなくてはいけないと考えていました。
京都大学化学研究所バイオインフォマティクスセンターのゲノムネットのホームページ(2025年現在)。1991年9月の開発開始以来、世界有数のバイオ情報サービスとして利用されている。DBGETは米国時代に構想した検索システムであり、KEGGを含む全てのデータベース検索の基幹システムである。
生命システムのデータベース
重点領域研究「ゲノム情報」は5年で終了し、生物系と情報系を合わせて特定領域研究「ゲノムサイエンス」として新たにスタートしました。ゲノムを「生命の設計図」としてその理解を目指したデータ生産が着々と進んでいました。当時、ゲノムの配列を調べる目的はそこに存在する遺伝子を全てカタログ化することでした。ゲノム配列を設計図とするならタンパク質や機能性RNAといった生命を構成する部品のつくり方が書かれた「部品の設計図」です。しかし、部品が集まれば生命がつくれるか、と言えばそんなことはありません。そこでシンポジウムでの講演でやや過激な発言でしたが「ゲノムを中心にまわっている考えは天動説に等しい」と主張しました。
ゲノムは細胞にあり、細胞には連続性があり歴史がある。そういう流れの中でゲノムを捉えるべきだと考えていました。細胞から細胞に伝えられるのはゲノムだけではありません。細胞ではさまざまな細胞小器官がはたらき、タンパク質や核酸などの高分子だけではなく、多様な低分子の化合物もあります。これらがどのようにつながり合っているのかの配線を示さなければ「生命の設計図」にはなりません。それらが細胞でどのようにはたらき、その結果どのような高次の機能を担い、個体の生命活動が行われているのか、そこまでを知る必要があり、その方法を示すのがこれからのゲノム情報科学の役目と考えました。20世紀後半は分子生物学が大成功をおさめた時代で、ゲノムからタンパク質への情報の流れはセントラルドグマとされ、遺伝子至上主義の考えが生まれましたが、科学の歴史を振り返れば変化は必然です。ゲノム配列という基本情報を手に入れた今、それぞれの生物がもつゲノムの部品のセットがどうはたらくかのネットワークに注目する、ゲノム説からネットワーク説への転換の段階に来ていると言いたかったのです。
当時はタンパク質の1対1の相互作用を網羅的に調べる実験がパン酵母で行われて、それをつなぎ合わせてネットワークを再構成することも期待されていましたが、既知の知識を活用して全体像を描くことができるのではないかと考えました。そこで細胞の中で行われている反応の総体、代謝マップが浮かびました。生化学系の研究室の壁には必ず貼ってありましたよね。そこで、日本生化学会が編纂した代謝マップの本をコンピュータに載せるところから始めました。これが、KEGG (Kyoto Encyclopedia of Genes and Genomes)の始まりです。代謝のパスウェイは、タンパク質である酵素が化合物である基質を生産物に変換する反応の集合と考えられます。酵素には国際生化学分子生物学連合の命名法委員会(NC-IUBMB)が管理するEC番号が振られていますが、反応と基質の種類での分類で、遺伝子や配列情報とは結びついていませんでした。酵素と遺伝子を対応づけ、それぞれのゲノムがもつ遺伝子をパスウェイにマップすれば、その生物のゲノムがもつ反応経路が明らかになります。例えば大腸菌のゲノムにある遺伝子と代謝パスウェイを重ねることで、大腸菌ゲノムの代謝機能の特徴がわかるのです。目的はそれぞれの生物のゲノム機能の再構築と可視化ですから「遺伝子とゲノムの百科事典」です。これからゲノムの配列はどんどんわかってくることが期待できました。データをリンクで行き来する統合データベースとは全く異なる発想の知識情報でつながる「生命システム」をモデル化したデータベースを作ったのです。
KEGGを代表する代謝パスウェイの全体図(2025年現在)。4800以上の遺伝子、3000以上の化合物がマップされ、細胞を駆動する基本システムを表現している。
KEGGがうごきだす
KEGGを最初に公開したのが1995年12月で、初めての生物の全ゲノムシークエンス、インフルエンザ菌のゲノムが発表された年でした。翌年10月に公式リリースのバージョン1.0を発表しましたが、大変な反響がありました。最初のリリースには、インフルエンザ菌、マイコプラズマ菌、メタン菌、シアノバクテリア、パン酵母とその当時、全ゲノム解析が終了していたゲノムデータを入れました。パスウェイの絵に遺伝子や化合物を表示するために、プログラムも合わせて提供する方法が必要でした。当時は、今のようにインターネットが普及していませんでしたし、画像を動的に表示するのは時間がかかることもありました。そこで、データをCDに入れたものを作って配布することにしました。CD版はまず試験的に作り、利用環境との相性を探りながら、1997年から公式に配布を開始しました。コールド・スプリング・ハーバーでの招待講演のお土産用にCDを持っていきましたが瞬く間になくなりました。
1999年には「バイオインフォマティクス学会」を設立しました。アカデミアだけではなく、企業からもバイオインフォマティクスの需要が高まり、交流を深め人材を育てる意味でも学会は必要です。この頃には「ゲノム情報」のメンバーが活躍していましたので、毎年行っていたシンポジウムをそのまま年会に引き継ぐ形にしました。当初からインターナショナルワークショップとして海外からの参加者を集めていましたので、国際的にも先端を行く試みだったと思います。 バイオインフォマティクスという学問分野が発展し、私の所属もバイオインフォマティクスセンターと名前を変えました。

KEGG最初のリリースを発表した。インターネットが普及しておらず、CDでデータ配布した。

「ゲノム情報」からバイオインフォマティクス学会へと引き継がれたGenome Informatics Workshopの予稿集。オリジナル論文を投稿し、査読が行われる論文誌の役割もあった。
知識情報の構築
KEGGパスウェイデータベースは代謝マップを網羅することから始めましたが、タンパク質の合成分解に関わる過程やシグナル伝達、細胞周期、ヒトの組織や器官での反応や疾患など、あらゆる細胞現象を対象にしています。パスウェイデータは、生命システムのコンピュータによる表現です。例えば、代謝マップは生化学の知識が集約された図が出発点ですが、その他のパスウェイは、細胞内の現象を生物学的な機能として定義し、そこではたらくタンパク質や化合物の相互作用を信頼性の高い文献の実験データから抜き出して構成します。つまりキュレーターであるスタッフが表現を工夫して描いたKEGGのオリジナルの知識情報なのです。
パスウェイを構成する遺伝子は、KEGG オーソロジー(KO)のデータとしました。KOは、生物間で同義の遺伝子であるオーソログを探索して集約したグループに機能を定義したもので、KO IDで識別します。新しいゲノムが追加されたときは、その遺伝子がどのKOに対応するかを決めれば、パスウェイや階層に対応づけることができるのです。KOグループは、それぞれのゲノムに含まれる遺伝子の総当たり戦で配列が似ているセットを取り出します。実際に配列が似ているというだけでオーソログと呼べるかは難しく、計算による半自動、キュレーターが見て遺伝子ごとに判断する半手動で決めています。経験から得られた判断基準を知識として取り込んだ遺伝子アノテーションツールを開発して公開もしていますので、一般のユーザが自分で配列を決めたゲノムをKEGGパスウェイにマップすることもできます。
化合物の情報は、酵素反応の基質や生成物やその他の機能性低分子の構造データと反応の前後の構造変化をデータベースとしました。化合物は、米国化学会の歴史あるChemical Abstractsというデータベースがありますが、KEGGが参入して以降、NCBIやEBIでも化合物の収集が始まり、生命分子の集約の先鞭をつけることになりました。
データベース全体としての統一感を維持するために、遺伝子や化合物など全ての要素に描画のルールを決め、専用のツールを開発して見た目の品質管理も大切に考えています。システムの拡張のための書き直しや形式の変換などもしますが、基本スタイルは変わっていないはずです。
部品のデータとしての遺伝子と化合物、ネットワーク情報としてのパスウェイや階層と大きく3つの要素をKEGGの基本構造として、ゲノム研究の進展を見渡しながら、データの種類を拡張し、構成を見直していきました。
KEGGのホームページ (2025年現在)。ロゴの卵は開始時からのシンボル。カラーコードを定義して、視覚的なわかりやすさが特徴である。
KEGGのデータ例。上図は、オーソロジー(KO)(ATP合成酵素)。Genesに種間の同義遺伝子(オーソログ)のグループを示す。PathwayはKOを含むパスウェイデータへのリンクで、下図が、一番上の酸化的リン酸化のパスウェイ。対応するKOデータは赤字で示されている。
メディカル情報への展開
2003年に京大の薬学研究科と21世紀COEプログラムを開始しました。これがKEGGの次のターニングポイントとなります。化学研究所と薬学研究科のプロジェクトでしたので、薬をはじめとする化合物のデータベース化が飛躍的に進むことになりました。薬のデータを手始めに、生体外に由来し、生物に影響を与える物質を化合物データに積極的に加えました。薬は生体内のパスウェイにはたらきかける分子なので、体内から外に開かれた環境との関わりを表すネットワークに拡張するきっかけとなったのです。植物や細菌の二次代謝産物なども対象となり、生物共通のパスウェイから化合物の多様性へとパスウェイが広がりました。
薬のデータを追加することで、薬の作用機序の理解や創薬につながるヘルスデータのリソースとなることが期待できました。薬のデータは膨大ですが、日本の医薬品なら日本医薬情報センター(JAPIC)で管理されでいます。薬学研究科とのつながりを活かして、JAPICの出版物をデータベース化し、薬の添付文書を全て見られるようにしました。その後、欧米の薬も含め国際的なデータベースに成長しました。KEGG DRUGのデータは、化合物データベースの一部として構造を登録し、化合物データと同じように検索ができます。また、薬物には天然物から発見され、医薬品化に際して構造を変えたものがありますので、その歴史的な変遷のパスウェイも作成しました。ゲノム創薬の発展に寄与するリソースをイメージしてのことですが、一方で、一般ユーザを想定して、お薬手帳も作ってみました。昨今、薬の問題としてはポリファーマシーなどの、多剤投与による問題があります。データベースには医薬品が作用するタンパク質や薬物間の相互作用などの情報もあるので、体内での機能や副作用を調べることができます。KEGGの利用は、アカデミアでは海外が圧倒的に多いのですが、薬については日本のユーザを意識して、日本語での提供を進める機会にもなりました。
薬の情報の充実とともに、KEGG DISEASEとして病気の情報を充実させました。ヒトゲノム解析の成果で疾患機序や病因遺伝子の解明が進んできたことが背景にあります。ゲノム情報を社会に役立てることを考え、KEGG MEDICUS として病気と薬のデータに力を注いでいます。病気については、国際疾病分類の疾患を治療薬情報とともにデータベース化し、さらに病因となる遺伝子の作用がわかった疾患はパスウェイを描いています。ヒトゲノムでは、従来の単一遺伝子を原因とする遺伝疾患から、病気に関わる一塩基多型のデータが多数解析され、生活習慣病などと関わる多因子疾患の原因となる変異も探索されています。そこで、バスウェイに影響を与える変異のデータは、KEGG NETWORKというデータベースに表現しました。それを参照すると疾患のパスウェイのどの遺伝子が変化しているかがわかるのです。疾患とは遺伝子の変化や外部からの病原因子、薬物や撹乱物質が体に影響を与えることで起こる揺らぎだと考えています。ヒトについては免疫系や内分泌系など器官レベルの高次機能の分子パスウェイもありますので、疾患を正常なパスウェイの揺らぎとして表現できることが理想です。KEGG MEDICUSは、トランスレーショナルバイオインフォマティクス、情報の科学的根拠を提供することで社会におけるデータベースの有効利用を視野に入れています。
KEGG MEDICUSのデータ例。上図は、DISEASEデータベースから、疾患パスウェイ(コロナウイルス感染症 – COVID-19)。下図は、DRUGデータベースから、ファイザーのCOVID-19ワクチンのデータ。社会での活用を視野に入れている。
持続可能なゲノム理解を目指して
KEGG開発の始まりはゲノムの研究プロジェクトでしたが、研究目的によるデータベース開発の問題点は、データベースが完成し研究としての新規性がなくなると研究予算の獲得が難しくなることです。そこでKEGGは、自立して持続可能なシステムを作りました。始まりは、著作権の問題です。KEGGは公共データベースではありません。自作の情報であるパスウェイのデータが私たち金久研究室の独自の著作物であることは明確ですし、データを編纂する手法も我々の創意工夫によるものです。2000年頃に権利の所在も含めて、大学や関西TLOなどや、その当時の文部省にも相談に行きましたが、データベースの著作権は、特許のようにルールが決まっておらず、結論がでませんでした。最終的には、大学の担当者の勧めで会社をつくることに決め、パスウェイソリューションズ社を設立しました。WEBからのアクセスや学術研究に対しては無料で提供し、営利目的の利用にはライセンス料を課金するしくみにしたのです。研究費で作ったものをつかって会社で儲けているという非難を受けたこともありますが、KEGGの利用者のための利便性を維持し、データベースを更新し続け、さらに時代の要請に合わせてシステムを向上するためにライセンス料を使っているのです。研究費に頼らなくても、変わらずKEGGを使ってもらうことができるのはこのシステムのおかげです。データベースを常に更新しながら安定して提供するためには、多くの経費と労力がかかります。世の多くのデータベースが、公的な研究資金が停止するとデータ更新が止まり、システムも古くなりやがて廃れるのはそのためです。大きな損失だと思いませんか。大切な情報リソースを活かし続けるためには、こういった工夫が必要なことは是非わかってもらいたいのです。
開発者として、利用者として
2012年に大学を退職してからは、特任教授として引き続きKEGGの開発を続けています。幸いこれまでKEGGの知識情報を集約してきたメンバーが続けて働いてくれています。研究室を引き継いでいただいた緒方博之教授は、KEGGの初期の開発の頃の学生でしたが、フランスで独立した後、ウイルスに注目した環境ゲノムの研究をしています。そこでウイルスのゲノムデータを強化することにしました。疾患との関連でヒトに感染するウイルスから始めましたが、今はウイルス全体を対象にしています。ウイルスの遺伝子は未知のものが多く、他のデータベースでもあまりアノテーションされていません。配列が変化しやすいため、KOのグループの定義に苦労しました。そこで、遺伝子の並びに注目してみたのです。そうすると配列の類似性は低いけれど、並び順が同じだからオーソログと判断できることがわかってきました。それで、遺伝子の並び順がアノテーションに役にたつのではないかと考え、KEGG Syntaxというツールの開発を手掛けました。実はこれは、アメリカ時代に作ったゴード・カネヒサアルゴリズムを使って、私自身がかつてFortranで書いたプログラムをC言語で書き直して使っています。他に頼む人がいないので自分で始めたのですが、自分で試しながらつくるので効率がいいのです。実は、オーソログのアノテーションツールであるKOALAも最近自分で全部書き換えました。これはちょっと自慢してもいいと思っています。私は、KEGGの一番のユーザーなのです。使いたいと思うからこそ、改善点が見えて、もっと便利に、もっと良いデータにと欲が出てきます。これまでもずっとそうだったのですが、使う人が作っているというのが一番の強みです。それがKEGGをここまで続けていられる理由と思います。

スーパーコンピュータラボラトリーからバイオインフォマティクスセンターへ。KEGGはここから羽ばたいた。
人の知により生命情報の基盤を築く
DNAの解析が簡単にできるようになったので、ゲノムデータ自体は恐ろしく増えています。しかし、基本的にわかっていることがどのくらい増えているのかというと疑問です。今はオミックスといって全体から見る方法が主流なので、個々の遺伝子を調べていないゲノムデータも増えています。実際に機能がわかっていない遺伝子も未だに少なくありません。これまでKEGGは6千万を超える遺伝子データを登録して、機能を決めたKOは2万7千以上になっています。さらに、実験で機能が明らかにされた遺伝子のデータはゲノムが未解析でもKOに追加して、レファレンスとしての完成度を上げています。ゲノムが増えるほど生物界でどの反応がどれだけ使われているか、植物や菌類、ある種の細菌などがどう特殊化しているかが見えてきます。やや大袈裟ではありますが、これだけのデータが蓄積すると実際の生態系を反映するモデルと言えるのではないかと考えています。この部分の反応は、海で、大気で、地中でと生物の生息環境と役割を当てはめることで、ゲノムから地球全体としての生物の役割が見えてくるのではないでしょうか。
KEGG はデータベースですが、実験が生み出す大量のゲノムデータを解釈するためのツールです。多くの研究者がゲノムデータの解析に使っていて、文献の引用数は年間1万を超え、増加の傾向にあります。昨今は皆、データベースはデータが多ければ多いほどいいというイメージで、大量データから人工知能や機械学習モデルでデータを生み出す将来像が描かれていると思いますが、質のよいデータをつくり維持するためには、人間が介在し選別する知恵が必要です。私には質の高い文献から人間の知性で構築した知識でここまでやってきた確信があります。KEGGは生命システムをコンピュータ上にモデル化したデータベースとして、分子レベルの大量データであるゲノムを用い、細胞から生物種にいたる機能を表し、創薬・医薬などの社会での有用性を生み出してきました。ゲノムから生命を解釈する普遍的なツールとして、地球上の生命のモデルとなる知識ベースとして、生命誕生から進化、地球生態系など高度な生命の理解までを可能にするデータベースであると考えています。
KEGGシステムの概要(2025年現在)。現在は16のデータベースを統合して、生命システムのモデルを表している。