TALK 情報を切り口に…

Talk

情報を切り口に…

辻井潤一東京大学大学院情報理工学系研究科・コンピュータ科学専攻・教授
中村桂子ＪＴ生命誌研究館館長

これまでの研究では調べて見つからなかったからといって、それがないとは言えませんが、ヒトゲノムの中になければ、ヒトには「このような遺伝子はない」と言える。網羅のすごさです。

しかしここで扱う情報量は、人間の脳で整理できる量を越えており、コンピュータの助けが必要です。

言語も同様の処理を求めている。複雑な対象を知るには、今までの科学とは異なる考え方や方法論が必要なのかもしれません。コンピュータによる言語処理に取り組む辻井潤一さんと、生命、人間、ゲノム、科学…、たっぷり話し合いました。

CHAPTER

1. 情報を切り口に人間を見る
2. 生命研究の現状ーブレークスルーを必要としている
3. シミュレーションの限界
4. ゲノムと言語ー構造と多様
5. ゲノムと言語ー符号化
6. ゲノムと言語ー解釈系
7. 透明度をあげて理解する
8. 新しい科学像
9. 言語から人間に迫る

1. 情報を切り口に人間を見る

中村

生命誌は、ゲノムを基本に生物の共通性と多様性、歴史と関係を見ているのですが、ヒトゲノムも解析され、脳研究も進む今、とても人間が気になり始めました。生命研究と人間の結びつきの多くは、ゲノム医学や、再生医療など科学技術と産業になっていますが、ここで改めて「人間ってなに？」という青くさいところを、純粋な好奇心として考えたいと思って、今日は情報という切り口で人間を攻めていらっしゃる辻井さんに生命研究の現状を聞いていただき、お考えを伺いたいと思うのです。

辻井

情報から生物を見たとき、「ゲノム」と「脳」があり、これはまったく違う感じがしますね。

中村

違いますね。生きものは、モノ、エネルギー、情報がからみ合うシステムで、それを今、情報という切り口で見ることが大事な時期にきています。　ただ、情報という言葉は、情報科学と生物学という学問の間でも、ゲノム、脳、言語など異なる対象の間でも、すり合わせのないまま使われています。これを整理する必要がありますね。ただ今日は、その大問題は脇に置き、ゲノムと言語に注目しながらお話させてください。

2. 生命研究の現状－ブレークスルーを必要としている

中村

生物研究は、今、急進展していますが、だからこそ、ある戸惑いの地点にいると思うのです。ゲノムが解析されるということは、「ヒトの遺伝子はこれ以外ない」ことが明らかになることです。今までの生物研究ではなかったすばらしいことです。でも、各遺伝子がどうはたらいてヒトになるのかを知るには大量の情報を扱う新しい方法が必要で、ブレークスルーを必要としています（関連記事：生命誌26号「生物はどこまでわかったか？-システムとしての細胞・個体の理解を目指して：加藤和人」）。　分子生物学は、１９６０年代の終わりに１回目の闇を経験しています。ＤＮＡが基本物質であるとわかり、遺伝暗号（コドン）や、タンパク質発現の仕組みなど、すべての生きものに共通の、いわゆるセントラルドグマと言われる部分が大腸菌で解け、分子生物学は終わったという人までいた。でも、免疫、脳、ガンなど多細胞生物の現状は何もわかっていない。そこで、多細胞のモデル生物を探す模索がありました。ところで、この時のブレークスルーは、組換えＤＮＡ技術であらゆる生きもののＤＮＡを取り出して調べるという思いがけない方法でした。ヒトはモデル生物にできないけれど、ヒトのＤＮＡならいくらでも研究できます。この技術の強みの一つはヒトまで研究できるということです。それでその方向の研究が進み、ヒトゲノム解析にまで至ったのです。７５年ころの組換えDNA技術開発が第１の闇を開き、酵母、センチュウ、ハエ、マウス、シロイヌナズナ、などのモデル生物が登場しました（関連記事：生命誌22号「ショウジョウバエを使うわけ：加藤和人」）。　これまでは、１つ１つの現象を調べて蓄積してきたわけですが、まだ現象としての解明はできていないのに、ゲノム情報はどんどん出てくるという状況です。それをどうやって整理するか、それが今の問題です。

辻井

現象からの研究とゲノム側からの研究はつながっていくのでしょうか。

中村

つなげようとしています。たとえば、卵から身体ができる発生過程で、ゲノムのどこがどのように働くかということを知りたいわけです。１個の受精卵が人間なら６０兆個にもなる。そのプロセスをゲノム情報のはたらき方として解明するのですが、要素が非常に多く、まだ方法は見えません（関連記事：生命誌29号「ゲノムから進化を探る研究：鳥居信夫」）。

（註1）ヒトゲノムプロジェクトの開始

ヒトゲノムプロジェクトとは、ヒトの遺伝情報の総体であるヒトゲノム（染色体24本に分配されている30億塩基対DNA）をすべて解読しようという壮大な計画である。1985年、ヒトゲノム解読に関する会議が各地で開催され、以来、ヒトゲノム計画の開始に向けて準備が進められた。ガン遺伝子の発見で1975年にノーベル医学生理学賞を受賞したダルベッコは、1986年に、「ガンのメカニズム解析のためにヒトゲノムを解読すべきである」と提案し、医学の発展への影響の大きさを強調した。ワトソンらは、1988年に、科学者主導でヒトゲノム計画を実施すべく、ヒトゲノム機構（HUGO）を設立した。こののち1990年10月に、ワトソンの指揮のもとで正式にプロジェクトが開始された。日本でも、1991年から解読が本格化した。計画開始当初、2005年をメドに全長配列決定をする予定であったが、シークエンス技術の急速な進歩、およびゲノムの大量解読を行うベンチャー企業の追いあげにともない、当初の計画を大幅に前倒しすることになり、2000年6月には、解読が発表された。
©2001 Tokyo Electric Power Company

3. シミュレーションの限界

辻井

今の科学的方法論は、要素還元主義ですから、要素に分解し、要素全体がどういうシステムを作っているかを再構築し、系全体を理解するという方法論をとる。シミュレーションです。ところが、それが本当にうまくいく分野といかない分野があって、人間のかかわる経済学や言語学など、あまりに要因が多く、しかも偶然性や環境、歴史など科学の土俵に入って来ない部分が非常に大きいので、これまでの科学のやりかたでカバーできない気がします。

中村

そこに生命も入りますね。

辻井

そうですね。ものすごく沢山の要因が非常に複雑に絡み合っていますね。情報科学の基本的な考え方は、情報は物理的実体とは独立で無関係だということです。だから物理現象を計算機の中でシステムとして再構築するシミュレーションをする（関連記事：1.生命誌16号「コンピュータでつくる生物モデル：北野宏明」/2.生命誌26号「コンピュータの中でつくる細胞：冨田　勝」）。　たとえば、人工知能、あるいは言葉を理解するシステムを作る研究分野は、脳という物理的実体が情報と呼ばれるものを処理している、それをそのまま計算機の中に取り込んで、そのプロセスを再現する。それで脳の中で起こっていることを理解しようという再現する科学なのです。　この方法は、風洞実験や原子爆弾の実験のシミュレーションなど、要因が少ない時は現象全体をうまく切り取れて、パラメーターを推定するためのごく限定的な実験だけすれば、計算機のなかで再現できる。切り取られたモデルの正しさが確証できるのです。　ところが、経済学の予測システムは、成長率も予測できない。人工知能も、人間の知能は個人差があるし、成長の過程で環境とやりとりしてでき上がったもの、あるいは脳の形など生物的な基盤、何かわからない要因がものすごく関与している。モデル的に計算機の中で再現するやり方は、まだできてないし、果たしてできるかどうか…。

中村

自然科学は、ガリレオ以来、自然は数学で書かれているとしてきました。しかし、自然は数学だけでなく、言葉で書かれているところもあるのではないかという気がしてしかたがないのです。科学は、究めていく。最後の素子を探し、統一理論を探し、それですべてを説明しようとする。

しかし、生物は、究めるものではないのではないか。もちろん、知るべき要素を明らかにすることは必要だけれど、それを素材にして、最後は生きものとは、人間とはこんなものなのですと語るしかない部分が残るのではないか。

神話の時代には、要素還元などなしに、１００％語っていました。その中から、要素がわかり、数学で説明でき、論理的に納得でき、共有できる知識を探ってきたわけですが、これですべて終わりではないという気持ちです。

辻井

今の科学は、１９～２０世紀前半の物理学がモデルです。数学的構造を自然界に認め、ごく少数のパラメーター、ある種の要因が数学的構造で結びついていると考えています。原理原則が捉えられると、それで世の中が説明できる。それが科学のイメージだった。

ところがそれにあてはまらない対象がある。生命、経済、言葉などはある種の原理原則はあるのだけれど、そこから派生するものがものすごく多様で、そこがわからないとわかったという気がしないという分野です。

例えば日本語とか、英語とか、多様な言語の根底には、ユニバーサルグラマーのような言葉の原理があるとしても、そこから抜け落ちる部分も膨大にある。人工知能の失敗も、まさにそこにあったと思います。ここで大事なのは、わかるとはどういうことかということですね。

科学は何かをわかろうとする。僕らが対象を理解したい時、物理学はあるきれいな科学のモデルを提供してくれた。数学的構造とごく少ない要因があると、僕らは完全にわかった気がする。予測もできるし、ごく少数の原理だから、見ればわかるわけですよね。数学は演繹性があるので、数学の系に乗ると、式が勝手に考えてくれて、予測ができて、その予測が現象とつながって、実験的にも検証できるわけです。そういう非常に強い予測性がほんとうに僕らのわかるということの絶対的な形なのか。

大量の、ものすごく複雑な系を対象にしたときのわかるというのは、数式でこうなりますよというのではないのかもしれない。ただ、対象の構造が心の中で再現でき、一応の体系ができ、少なくとも対象がわりあい客観的に捉えられて、ある程度の予測と操作ができるということは必要ですね。それが語るということかもしれないけれど。

中村

まさにそこです。ある程度の予測と操作ができれば、その構造が自分で再現でき、それが語れるわけでしょう。

辻井

人間は、真理を理解するといっても神様的な理解ではなく、僕らの理解能力の範囲内でしかわからない。数学やごく少数のパラメーターは、僕らのサイズにうまく合ったのですよ。数学というのは個別の対象から離れても正しいというきれいな体系ですよね。そして、個別の対象がいったん、その上に乗ると操作ができて予測ができてわかった気がするわけですね。生命や言語の扱い方は、こういういわば理想的な「わかり方」から科学者として後退しているという気がしてなんとなく気持ち悪いのだけれど。

中村

今のお話は、私が思っていることと重なります。そこで物理をモデルにした科学だけにとらわれない「知」を作ろうという考えがあってよいと思うのです。情報や生命の研究はそれを考えるところにきていませんか。

辻井

物理学のようにきれいな形はとらなくてもある種の客観性はある「知」ですね。言葉で語るということは。

中村

コミュニケーションが成り立ち、「知」を共有できなければいけないのだから、客観性がないと語れません。

辻井

それはいいポイントだと思います。語れるということは、コミュニケーションできるわけだから、ある種の客観性には到達していて、しかも神話ほど現実からかけ離れるのではなくて、現実とつきあわせることでチェックはできる。

中村

数学的構造として得た知識は最高級の素材です。ただそれはすべてを説明するものではない。科学の素晴らしさは、それがすべてを説明できるからではなくて、自然のこと、人間のこと、世の中のことをお互いが語り合う時の最高級の素材を作るから、見事な知、魅力的な知なのではないかと思っているのです。

辻井

確かにそういう感じはするな。ただ、科学という枠の中で語ることでものごとを捉えようとした時に、どう歯止めをかけ、なおかつより正確で深い理解の方向に行く基準を設けるか、それが大事ですね。

中村

語るということは、いい加減なことを言うのではない。矛盾をどう取り込むか、約束ごとが必要だということ。それを徹底的に究めることは、意味があることです。

辻井

物理学のモデルから離れて生物や言語、経済を研究の対象にした時に、従来の科学者としての客観性の保証、つまり、現象や実験を完全な形で再現できるような細かな理解はできないのだけれども、僕らは文科系のように、メタファを使って語るということではやっぱり済まないわけですよね。どこかで現実とうまく密着しなければ。

中村

そうです。生物の場合、モデル化に行ききれないのは、チョウはチョウですし、私は私という実体があるからであり、それは現実への密着という制約にもなります。

辻井

語りというと文科系的なニュアンスに聞こえるのだけれども、それをどう科学として客観性を保ちながら語れるかという、そこの部分が一番大きいという気がします。

4. ゲノムと言語－構造と多様

中村

ヒトゲノムの解明が進んで、３～４万個の遺伝子があるとわかってきました。働きから見ると、１０万くらいあると思われていたのです。だから、１つの遺伝子が状況によって異なる働きをするのでしょう。同じ遺伝子が別の生物の中では違う働きをする例もあります。だから、３万という数以上の複雑さがあるわけです。悩みは、それをどう扱うかという方法の探求です。ただ、発生を見ればとても複雑だけれど、カエルの卵からはカエル、トリからはトリが生まれるという原則はある。その中での柔軟性なのです。

辻井

言語に似ているのかなあ。言葉の場合も、ものすごく多様なんだけども、骨はきっちり通っている。全然違うところで育っても、日本語の文法をちゃんと習得する。日本語と他の言葉が一緒になって訳のわからない言葉ができ上がるわけではない。環境からの影響を受けて皆違った動きをし、違う言葉を話すけれど、骨になる文法があって、共通したものをみな学習しているわけです。基本構造があって、なおかつ表面上は非常に多様な現象を見せるところが似ていますよね。

中村

ニューギニア奥地の隔絶された部族の言葉が英語に通訳されているのをテレビで見ましたが、翻訳可能ということは、言葉に共通の構造があるということですね。

辻井

言葉の場合も、ものすごく多様なんだけども、骨はきっちり通っている。全然違うところで育っても、日本語の文法をちゃんと習得する。日本語と他の言葉が一緒になって訳のわからない言葉ができ上がるわけではない。環境からの影響を受けて皆違った動きをし、違う言葉を話すけれど、骨になる文法があって、共通したものをみな学習しているわけです。基本構造があって、なおかつ表面上は非常に多様な現象を見せるところが似ていますよね。

中村

ニューギニアの奥地のほとんど隔絶された部族の言葉が英語に通訳されているのをテレビで見ましたが、翻訳可能ということは、言葉に共通の構造があるということですね。

辻井

１つはチョムスキーの説で、あまり間違っていないと思うけれど、言語を習得するとか、言語の構造的な側面を取り扱うといった基盤の割合は、人間という生物種に固有で、それがいろいろな環境との相互作用で個別の言語の文法に変わっていく。言語ごとにそれぞれ文法が決まっているのではなく、人間の言語だということからくる共通性が構造的にある（ユニバーサルグラマー）。これがチョムスキー以降の理論言語学の前提ですね。

もう１つは、人間という生物種がもっている言語以外の認知の基本も共通基盤をもっているはずだから、僕らが世界を認識する意味的な部分、何をまとまりとして見て、何を概念化していくかという部分も生物種としてそんなにでたらめではないということでしょう。言語を見ていると、硬い部分と柔らかい部分が微妙に関係しているという実感があります。硬い部分に関しては、要素還元した時に、そんなに大きくない原理原則が捉えられるかもしれない。

5. ゲノムと言語－符号化

中村

少し妄想も入りますが、これまでの話から、ゲノムと言語を並べて考えたくなってしまいます。私はゲノムが言語と同じように一次元に並んでいることに関心があるのです。生体内では、特定の立体構造をもったタンパク質が物理や化学の基本法則にしたがって働いている。それをそのままの構造で次の世代に渡すのでなく、一次元の情報にして渡すところが興味深い。どうしてそうなったかはわかりませんが、こうなっている長所は、符号化できて、無限の可能性を書き込めることです。　三次元だと無限にはならずきつい決まりになってしまう。親と同じ形で渡さないと子供はたぶん死ぬでしょう。一次元だと、そっくりそのままでなくても許される。一次元に情報を置いたために、原理原則は決まるけれども、ほぼ無限の揺らぎができる。そうでなければ生命は続いてこられず、どこかで失敗したと思います。（解説へ）

辻井

三次元だと失敗するとはどういう意味ですか？

中村

実際に身体を作っているタンパク質は揺らぎがもちにくいし、余分なものを抱え込めません。

辻井

ゲノムはそういう意味では符号性がかなり強いのかな。実体そのものを完全に表現しているのではなくて、その骨にあたる部分をコーディングしているのかな。

中村

そうなんです。だから、少々間違っていても続いていけて、逆に新しいことを生み出すことまでできてしまう。

辻井

可能性はあるな。何か表現したいことがあって、それを符号で表現しようとしますね。つまり、実体とは独立に表現する、コーディングするわけですね。それは一種の符号性を持つわけで、三次元の実体そのものを渡すのではなくて、こんな構造だということを符号で書くわけですね。その時、一次元というのはすごい表現力があって、符号化できることであれば、すべて一次元の符号でコーディングできるわけですよね。　いったんコーディングされると、今度はコードの上だけで実体から離れて、操作ができるようになって、エラーをしないように余分なコードを入れるとか、あるいは実体が何であるか考えずにコードだけで操作ができてそれが実体を変える可能性があるわけですね。実際、通信の符号化を行う工学的なシステムでも、符号の意味、すなわち、符号の表す実体とは無関係に、符号だけを操作して圧縮したり、エラーを修正したりしているわけですから。そういう意味では、そこの部分は、すごい情報的なんですね。

中村

まさにそうなんです。コドン（遺伝暗号）は３文字の塩基の並びでアミノ酸をコードしているのですが、１対１で対応していない。３文字目は自由度があります。例えばＡGTでも、ＡGCでも同じ意味に翻訳される。だから、３文字目は変わってもかまわない（関連記事：生命誌2号「無の発見：大澤省三」）。そんなこと実体ではなかなかできないでしょう。

辻井

符号のレベルに戻ってそのレベルでいろいろ操作ができるようになっているんですね。

中村

そうなんです。進化につながる変化はＤＮＡのレベルで起きているのです。例えば、形づくりに関わるHoxという遺伝子群に関して、ヒトはナメクジウオと基本的には同じ遺伝子群を４つもっているのです。その部分は重複したのでしょう。３つ分は余裕ですから、その部分は変化していろいろなことを試せるわけです（関連記事：生命誌23号「形の進化とゲノムの変化―ナメクジウオが教えてくれること：ピーター・ホランド」）。その結果が進化につながる。だから、進化はまず符号の変化として起きているのです。それが実体とつながる。

辻井

うまくできているな。

中村

誰も不思議と言わない。なぜ一次元に書いたのかなんて聞いてもしょうがないと。

辻井

なぜそう書いたのかはわからないけれども、そうやっておくと非常に便利ではある。

中村

そうでなければ、今のような多様な生きものは生まれなかったと思うのです。もしかしたら三次元で伝えている生きものがいたかもしれない。けれど、符号化したから残ったのだと思うのです。人間の言葉も同じですよね、まさに。そこで私は言葉に興味をもったのです。符号と実体の関係が恣意的であるという点も同じです。

辻井

実体とは独立した符号系があるということですね。しかも符号系にしたことで、実体の上ではとても複雑な操作を非常に単純な操作にできる。符号系の中での一般的な操作だけですから、実体の多様性とは無関係に、変わり方の原理はごく少数なんですね。

中村

ゲノムにはＡＴＧＣの４文字しかありませんから、それが変わるしかありません。ＣがＴにというように１文字が変わる、繰り返しが入る、ひとまとまりが欠落するなどさまざまな変化があります。その変化の中で、コドンの３番目のＴがＣになるくらいのことなら、実体の方は変わらない程度ということも起きます。もともと実体が変わることは、非常に少ないはずです。でたらめに変われば、実体の方は死んでしまうとか、何も変わらないとか、その方が多いでしょう。その中で、時に新しいものが生まれてくる。

辻井

それは情報の人たちには面白い話ですよ。ただ、情報科学も、今は計算科学になっていますよね。そうではなくて、情報科学が最初の頃問題にしていたようなこと、例えば符号化とか、情報の本質みたいな話。そういう話から考えていったら、面白い話になるだろうな。

中村

それが言語と重なりませんか。

辻井

言語というか、符号ですね。実体から離れてそれを書き表す、書き表し方みたいなものですね。そこで言語の本質は何かと。

中村

言語も符号化ですね。私たちがよく知っている見事な符号化のもう１つは言語じゃないかと。ゲノムと言語と言い始めたのは、そこからなのです。

辻井

あ、そうか。コード化（符号化）した時のおもしろさは、実体とは別の性質が出てきて、コードとして自由な操作ができるようになること。それは非常に大きいですね。

中村

コンピュータや言語は人間が操作するわけですが、自然界では変異が操作ですね。進化という長い時間の変化だけでなく、ガン化や老化など１つの個体の中での変異もコードの変化で起きるわけです。たとえば放射線は、ＤＮＡのコドンを変えることで体に影響を及ぼします。

辻井

なるほど。コードとしての操作が実体とは関係なくやられるんだけれども、その操作が実体にいろいろな効果をもつわけですね。

中村

そうです。たいていは良い効果ではありません。卵から体ができる発生という実体のところで変異があるものの多くは生まれないことになるでしょう。でも中には、変異があっても大丈夫だったり、実体の変化につながって、新しい生きものが生まれたりするわけです。

辻井

非常にコード性が強い、確かに。そういう意味では言語と非常に似たような性質を持つはずだな。

中村

放射線だけでなく、ウィルスが、宿主のゲノムの中に入って変化させる。トランスポゾンという動く遺伝子が出たり入ったりしながら、周りの遺伝子を一緒に移したりする（関連記事：1.生命誌24号「変化朝顔　種子のできない一年草：仁田坂　英二」/2.生命誌14号「黒白江南花　和名シボリアサガホ：飯田　滋」）。この話を情報の人に話したら「コンピュータウィルスと同じだ」と言われましたが、こちらが先ですよ。

辻井

生命系の場合のコードは、設計されたわけじゃないから、意図を持ってやっているわけじゃないですよね。

中村

意図を持つって、誰が？

辻井

神様になってしまうかな。

中村

ウィルスは増えるという命令だけは持っており、つくる工場は宿主の細胞のものを使うのです。巧妙です。これを見るとどうしても擬人的表現になり、ウィルスは増えたがっているなどと口走りたくなるので困るんですよ。

（解説）一次元とは？

今から４０億年前、最初の生命が誕生した。この当時、生命は、細胞内のタンパク質を当のタンパク質から直接複製して次世代に譲り渡していた（こんなことは現実にはあり得なかったと思いますが、そうだったものとして想像してみて下さい）。タンパク質をコードしたＤＮＡのような物質はなく、タンパク質という実体をそのまま譲り渡していたわけである。貨幣がまだ発明されていない頃に、物々交換をしていたような感じだ。

しかし、細胞がだんだん複雑になるにしたがって、それを支えるタンパク質も増えた。必要なタンパク質を必要な時期に働かせるためには、働く時が来るまで不活性に保つためのタンパク質が必要だ。こうして生み出された多種多様なタンパク質は、またそれ自身が上手く働くために、別のタンパク質を必要とするのだから、タンパク質の爆発が起きた。大量のタンパク質が細胞内に溢れ、細胞は拡大の一途を辿った。物々交換で、巨大な経済を支えるような事態が生じたわけである。
　そんなとき、ＤＮＡが誕生した。１次元のＤＮＡ上には、符号でタンパク質の構造を書き込むことができた。つまり、実体を符号化して、その符号化された情報を次世代に伝えることができるようになった。こうして、実体（タンパク質）をそのまま動かす必要がなくなったわけだ。

符号はそれだけで操作できる。実在するタンパク質から離れた符号化された世界で、無限のパターンの書き込みが可能になった。現実世界から離れた仮想世界が生まれたとも言える。符号化された世界では、実在のモノしかない世界では、実在するモノ同士の間に直接かつ固有の連鎖を作り出すしかない。連鎖を断ち切るにも、個々の実在の間に直接分け入らなくてはならない。しかし、符号化された仮想世界ではそれが簡単に行える。

符号化によって、タンパク質を複製していた頃の膨大で複雑な処理系は、もはや不要になった。符号は大きさを伴わないので（ＤＮＡの場合、物質なので、言葉とは違い実際には大きさを伴っているが、ここでは符号の性質を明確にするため、理想状態を考えている）、無限量の情報が盛り込める。

解釈されない符号は符号ではない。したがって、符号は必ず解釈されるのだが、解釈にはある程度の自由が伴う（言葉の使い方に多少の間違いがあっても意味は通じるし、言葉の使い方次第で、解釈が膨らむ場合もある）。これは解釈する側（解釈系）に依存する。ＤＮＡの解釈系は徐々に複雑化し、いつしかＤＮＡに多少の変化があってもそれなりに正しい解釈ができるようになった。こうしてＤＮＡは「ゆらぎ」をもつようになった。実在しかない世界では、簡単には生み出されなかったものだ。

ＤＮＡの出現によって、進化が可能になったと言っていいだろう。

解釈系（細胞内の状態）が時間とともに変化を遂げる過程で、同じＤＮＡをもつ細胞から多種多様な細胞が生み出されるようにもなった。こうして複雑な多細胞生物も誕生するに至った。

以上は、対話（辻井×中村）に出てきた「１次元」を説明するための作り話です。タンパク質の爆発や、タンパク質からのタンパク質の複製は科学に基づいた現実ではありません。ここで伝えたいのは、１次元に書かれた情報（ＤＮＡ）とは、実体（３次元のタンパク質）から切り離された符号化された情報を指しています。そして、符号化によって、現実世界とは切り離された世界で、無限のパターン、無限の可能性を生み出すことができるようになったのです。「１次元」は、大きな意味をもっていると言えるのではないでしょうか。

この辺り、情報と生物両方からの意見を是非聞きたいと思っています。（ＢＲＨ鳥居信夫）

6. ゲノムと言語－解釈系

辻井

ゲノムがある種の符号性をもっているのはよくわかったけれど、そこから先は、言語とゲノムの性質の差がかなり沢山あるのではないかと思うのです。

１つは、何がそのコードを解釈するかということです。符号系があり、符号が解釈されて、実際の効果を持ち出すわけで、生命系の場合は、タンパク質へと遺伝子が解釈されて動き出す。コードの意味はその中で与えられている。

ところが言語の場合は、コードを解釈するのは、脳であり、言葉が使われる環境によって意味が決まる。そこが大きく違うのではないか。

それから構造。人間の言語には、単語、句、文などのまとまりをもった構造があって、その構造が脳にとって処理しやすいようなまとまりかた、構造化がされているはずです。どんな言語も脳が処理していることは確かだから、共通の構造的制約が働いているという発想が言語学者の中にはある。つまり、脳のもっている処理装置の制約が言語の構造に反映している。例のチョムスキーのユニバーサルグラマーということですね。

ところが、ゲノムの解釈機構は、タンパク質の反応ネットワークでしょう。そこに構造的制約があるのか、あるいは、ゲノムにまとまりの単位があるのか？

中村

２つともあると思っています。発生過程の例をあげましたが、あれはまさにコンテクストです。そこではどういう状況でどの遺伝子が読まれるか決まっています。これが壊れると体はできません。それからゲノムでは遺伝子を単語と考えるとそれがあるまとまりをもって働きます。ゲノムの中に遺伝子がちらばっていて、初めから読んでいくのではなく、これの次はこれというふうにあちこち読むのですがその順番は決まっていて、働きとしてまとまりがあるのです。ある種の階層がある。文章みたいになっているのではないかと思うのです。これは妄想ですけれど。

辻井

なるほど。言葉の場合も隣ではなく、離れた単語同士が関係しているような構造があり、形によって関係できるところとできないところがあるという構造的制約がある。

中村

ゲノムもそう。符号で何でもできるわけではない。

辻井

結局、コーディングのもっている制約は実体のもっている制約を反映するはずですよね。

中村

そう、そこで、ゲノムは言語と似ているではないかという気がしてしかたがないのです。根拠はないのですが。

辻井

可能性はあるでしょうね。でたらめに関係するとしたら、処理する側がやたら高機能にならなければならない。実体の側が、それほど無原則的ではないとしたら、コードの側も、その制約を反映した構造をもっているはずだ。

中村

ゲノムと言葉の構造が同じだとは申しませんが、実体の制約のもとに構造をもっているという関係は同じなのではないでしょうか。

辻井

そうだとすると言語とゲノムはもっと近づいてくるな。もう１つ気になっていたのは、一般に言語といった場合には、２つの種類があるのです。１つは楽譜や計算機の命令。これらも、実体から独立した言語ですが、こう書いてあったらこうしなさいという指令書です。通常われわれが使う言語は、指令書ではなく、何かを記述している。どういう効果を持つかは、受け取った側が自由に解釈する。そこがゲノムと違うかな。

中村

ゲノムでも指令書に近いところはそうでしょうね。だけど、働きからみると１０万と予測された遺伝子が３万しかなかったということは、受け取った側にある程度の揺らぎがあるということです。ノックアウトと言って体づくりや生きていくにあたって不可欠と思われる遺伝子を壊したのに、ちゃんとネズミが生まれてぴんぴんしているという例があります。別のタンパク質がそれに相当する働きをすることがあるのです。脳での損傷が他で代用されるのはよく知られていますが、ゲノムにもそれがあります。

辻井

なるほど、解釈系が結構複雑で、あるコードにたいしてある働きをするというほど直接的でなく、そこはまたシステムになっているということですね。そうなるとまた言葉の理解と似てくるな。

中村

でしょ。原理はどちらかというと指令書に近いのですが、コンピュータのプログラムとは違う。

辻井

もう少し解釈に余裕がある？

中村

そう。それはその時の状況判断で変わる。

辻井

人間の言語の場合は、情報を完全にコード化しているかという問題があります。例えば俳句は、受け手が解釈を膨らませる。だから、言語は、情報を伝えるのか、刺激だけで解釈系が大きな仕事をしているのかという問題がある。いまこうやって話していても、共通の知識があって、言わなくていいことは聞いているほうで補っているわけですよね。俳句のように文化を共有している場合は言語として出す部分はごく少なくてよく、あとは解釈。自然言語はその機能が非常に強い。そこに言語の難しいところがあるのです。解釈系がやたら複雑になっていて、受け取る人間の知識で解釈を膨らませる、ゲノムもそういう意味で機能が大きいのかも知れませんね。

中村

指令書と俳句の間くらいかな。その解釈系もわかっていないのでこれからのテーマです。

辻井

それは可能なのですか？

中村

というより、それをやらないと生きもののことはわからない。だからそこにブレークスルーが必要なのです。今までは、１つの遺伝子がつくる１つのタンパク質を追い、その知識を積み重ねてきました。ついで、ガンという現象を遺伝子の働きとして知ろうという段階に入った。これは、細胞が増えるのですから、多くの遺伝子が関わります。しかも、増殖を促進する遺伝子もあれば、抑制遺伝子、調節遺伝子と複雑な組み合わせです。そこで、とにかく遺伝子をすべて調べようということでゲノム解析が始まったのですが、解析されたところで、ガンがわかるのかということです。複雑な要素のからみを解く方法が必要なわけです。

7. 透明度をあげて理解する

中村

バイオインフォマティックスという分野が生まれてきたのは、ゲノム解析で得た情報が実験だけではその機能を解けない（関連記事：生命誌31号「ゲノム分析からわかってきた生命現象の基本と多様性：中村桂子」）。それを情報系システムとして解く学問が必要だということからです。ところが、辻井さんのお話を聞いていると、これは大変だぞと。

辻井

まだ本当にその辺の方法論はないのじゃないかな。どういう形の学問になるのだろう。

中村

それがわからない。今までこんなに大量の情報に向き合ったことはありませんから。生物と情報の研究者がお互いにいろいろと話し合って考えているうちに何か出ないかというところでしょう。

辻井

骨組みはあるが多様な言語を総体として理解したいという時、骨組みを研究する方法を拡大して、多様性の部分までもその方法、つまり、要素還元的に研究者が自分たちだけでモデルを作ってゆくという方法を以前の人工知能は探ったのですが、この人工知能の研究はある意味では失敗した。そこで、数兆語にも及ぶ言語のデータを蓄えておいて、それに少しずつ骨組みを与えていくという方法に移りました。それだけだと単なるデータだけれど、それにここはこういう現象が起こっているという、わかっていることを付加的に与えていく。非常に大量の要因が関係している状態を人間の情報処理能力だけで把握しようと思うと無理があるけれど、計算機という僕らの知性とは違う膨大な記憶量と処理速度を持つもう一つの知性に僕らのわかっていることを入れていってやると、何かある種の超知性にならないか。計算機という知性と研究者、人間の知性とが合算されて超知性的なものにならないかということです。そういう形くらいしかないかな。

語りも、それに客観性を持たせようと思うと、誰が何を語ったという膨大なデータを蓄えておき、自分の語りが今までのデータと矛盾しないかとかどう関わるかというような細かいチェックが必要でしょう。ひょっとしたら、物理学とは違う科学モデルが計算機の力を借りてできてくる可能性はあるかな。物理学的な数学の枠組みでは捉えられない語りに客観性をもたせて相互比較できるとか、何となく僕らにわかった感じがするとか、そういうことなら、計算機はある程度助けることができるという感じはもっています。

中村

バイオインフォマティックスでも、まずは、シミュレーションを考えるわけですが、私が、言語学や辻井　さんのお仕事に興味をもったのは、今おっしゃったことが、ブレークスルーになるのではないかと思うからなのです。

辻井

僕の問題意識は、何か膨大な情報があった時に、その情報の透明度を少しずつあげていくことです。社会で起きていることなど、物理学的な数式で書けない認識が大量にあって、ある程度の一般化はできるかもしれないけれど、完全な一般化はできない。

起きている事実を比較し、一見同じような構造をもっているのになぜ違うことが起きるのか、実体のほうにどういう違いが起きているからなのか調べていくことで、もう１つ別のそれまで知られていなかった要因がわかってくるとか。物理学とは違う、それでも客観的な理解というものにたどりつかないとだめだから、比較することで、どこが同じでどこが違うかともっと立体的にわからなければならない。でも要因が多すぎて人間の能力を超えてきているのだと思うのです。ゲノムにしても言語にしても。つまり、何かを把握しようと思ったときに、一人の研究者が把握できる理解の範囲を超えてしまって、そこの透明度をあげないとわからないという状況になっていると思うのです。

中村

ゲノムの分野でそれをやっている１つが、比較ゲノム学。同じ遺伝子が違う生物の中で同じことをやる場合と別のことをやる場合を見るとか、今盛んな研究です。だから、情報の人に助けてもらうなら言語だと思ったのです。そこにブレークスルーがないか。

辻井

積み木を持ち上げてどこかに置きなさいというとその通りにするロボットを作ったMITのウィノグラードは、大規模に言語理解をやろうとして失敗し、人工知能はだめだといったのですが、それはシミュレーションという手法への疑問で、解釈学はできるというのです。なぜ、この言葉を使い、なぜこの構造をとるかという説明はできるが、それを作り出し、完全に再現することはできない。

言語理解の背後にあるものすごくたくさんのパラメーターをすべて計算機にとりこんで再現するのは無理があるだろうということです。だからシミュレーターも説明の素材としては有用だと思うのですが、それですべてが再現できると考えないほうが無難でしょう。

言語の研究については、ものすごいデータを蓄えて、ある仮説にしたがってどれくらい今あるデータが説明できるかをチェックするとか、あるいは、この論文が既存の論文と矛盾しないかとか、人間ひとりでは決してできないことを計算機の力でやっていくのはどうかと思っています。つまり、データだけを蓄えておくのじゃなくて、理論の一部も計算機に入れておき、データの整理と理論化を計算機の中でやっていくみたいなことが、言語の研究に関してできないかと思っている。多分、語りを客観化していこうという、中村さんの思いと同じではないかと思う。

中村

それが必要ですね。ゲノムについても同じことですね。遺伝子やその働きのデータをどんどん入れていく。一方で理論を探していく。整理と理論化ですね。

辻井

うまくいくと形式化されて出てくるのだけれど、それで総体が捉えられるのではなく、現象に関する部分的な要因がそこで捉えられる。そこでみるとまったく同じ現象が起こるはずなのに起こらなかったとしたら、捉えられていない現象や要因があるはずだという形で研究を動機づけしていくような感じでだったらできると思うのです。中で完全に解くというのではなくて、もう少し研究者のグループと計算機が共同する形で。

中村

お互いにやりとりしながら進めていくという。

辻井

それはできると思います。人間がロボットの中に入って、機械操作し、操作がロボットの手で実行されるとき大きな力がでる。それを知的なレベルでやりたいのです。つまり、情報処理の機械に人間がポコッと入って、人間の知識の体系が計算機の中に埋め込まれて、それでデータを見ていく。僕らの知的能力だけでは、追いつかないことがもう少し透明度を高く見られるようなことができると思います。そうすると、物理学のパラダイムとは違った語りをもった科学がある種の客観性をもって進んでいく可能性があるんじゃないかという気がするんですよ。現実と語りとをうまく比較しながら。言葉をやっている者としたら、そこで役に立てるかなと思っているのだけど。

中村

例えば、大久保公策さん（九州大学）は、ゲノムへのアプローチとしてそういうことをやっていますね。学術用語は、背景にある現象を表現しているわけですから教科書の中で常に一緒にでてくることが多い言葉は、現象としてもつながっていることが多いのだろうということで、言葉の方から現象に迫るわけですね。

辻井

そうですね。だから、ゲノムの数理モデルを探す方法と、彼のように、テキストとつないで知識を整理してもう少しクリアな体系にまとめる方法がうまくからむと膨大な分野の透明度をあげていく可能性がある。

中村

たぶんそうじゃないかな。ゲノムへのアプローチとしてその組み合わせは面白いと思うのです。

辻井

僕もそう思うな。

8. 新しい科学像

中村

物理の力学を最初に習う時は、摩擦ゼロの式で習うわけです。でも、摩擦ゼロの世界は、現実じゃない。非常に抽象性が高い。でも、もし摩擦のある現実の世界についての力学を習ったら難しい。デコボコ道や坂道の実際の摩擦など解けません。摩擦ゼロだからこそ簡単に解けて、「これで世界はわかった」と思えるわけですね。理想化され抽象化されたモデル世界を基本にして物理学はできている。だけど、言語学や生物学はそれがないんですよね。

辻井

僕もそう思う。

中村

チョウを調べるのに翅が邪魔だから翅がないチョウを考えましょうといったら意味がない。

辻井

物理学の場合は、天体での理論が現実的なところでもかなりの精度で成り立つ。基本の数学的構造がいったん捉えられると、それが全然違ったところにも当てはまって、現象の大きな要因を捉えることができる。生物学や言語学は、そんな変換可能な骨太の理想的なモデルがなくて、むしろ個別な対象に特異的な剰余の部分にものすごく沢山ものがあるという感じがするのですよ。

中村

力学で万有引力を習って、天体も机の上のボールも同じに動くと思ってしまうけれども、緻密に記述しようとしたら、そんな簡単な式では記述できない。この机はどういう性質でといちいち記述して、だからこうなんですと言わなければいけないのだけれど、物理学はそれを全部捨象し、みんながそれを認めている。でも、生物学や言語学に関しては、それは認められない。捨象したものなど言語じゃない、生物じゃないと言われます。だから、捨象できないものを対象にした学問、それを科学と呼ぶかということも含めて、そういう「知」を組み立てなければいけないわけですよね。

辻井

そう。僕らは３～４世紀くらいかけて、物理学という１つのパラダイムを作って、それがあまりにもきれいだったからそれに引きずられたと思うんです。捨象できない対象には、違うパラダイムが必要になる気がする。何をもってわかったとするかとか、何を持って客観性があるとするか。

言語学が科学になろうとした時に物理学をモデルにとって、反証可能性とか、モデルとか、理想化された世界とかを強く言ったんだけれども、その結果、非常に貧しい言語学にしかならなかったという反省はあると思う。チョムスキーなどの言語学には。そうすると、反証可能性などをある程度は弱めるんだけれども、そこがまったくないと文科系の語りになってしまうから。

中村

そうです。だから、「科学性」は必要なんです。だから、チョムスキーはやっぱり偉大な人だと認めたうえで…。

辻井

言っていることは正しい。ただ、科学のパラダイムとして物理学をあまりにも強くとったために、言語の本質は何かと皮をむいていったら、ラッキョウのように、後に残るものは何もないみたいな感じになって、まったく面白くなくなっているんですよ。

中村

科学という言葉があまりにも影響力が大きすぎますね。科学的というとレベルが高いとされる。日常的にも「非科学的ね」と言うと、否定的な意味になりますしね。しかも、その時の科学は、物理学をモデルにした科学。

辻井

そうそう、そこが強すぎるんだと思うんだよね。

中村

だから、科学として大事なことは捨てないで。

辻井

ちょっと、緩めないと駄目なんじゃないかな。緩めて、なおかつ着実に進歩していくみたいな。

中村

そうやってわかってきたものをどう解釈するかという知を組み立てる。

辻井

そうやって語られたことを客観的なものにしていくとか、あるいは数学的な枠組みに載せていくという作業が長く続くのじゃないかと。少なくとも言語学は物理学を早くモデルに取りすぎたと思う。

中村

大量のデータを処理するコンピュータを使える今、あらためて方法を考える必要がありますね。

辻井

その時にある種の形式化みたいなものを持ち込んで、計算機操作ができるような形で自分たちの主張を書いていく。例えば自然言語を使う。科学として安定した部分はある程度形式化できるわけですが、安定化していない部分は言葉で書かざるを得ないわけですね。そういう形で新たな要因を現実世界から紡ぎ出すわけですよ、語ることによって。それが徐々に安定していって、共通の基盤になる。だから、生物学や言語学は語りの部分、言葉によって現実を切り取っていく作業というのかな。そこがかなり残る科学じゃないかという気がする。そういう意味では語りの科学というのはうまい言い方ですね。本当にそう思います。

辻井

中村

言語に対して私の思っていたことはそんなに違ってなかったのかなとうれしいのですが、またよく考えてみます。

9. 言語から人間に迫る

中村

人間を知るのに、特に、意識や心を知りたいとなると脳の研究になり、それが脳細胞の構造や機能を見ることになるのですが、疑問もあります。もちろんそういう研究は必要ですが、言語からアプローチするほうが本質的なのかもしれないという気がするのです。

辻井

僕もそう思います。やっぱり言語が出てきたことで僕らの心が豊かになり、思考が構造化されてきたと思うんです。知性、知能といった抽象的なものより言語という実体のある方が考えやすい。人間の人間たるところが言語にあるのは確かですし。一方、言葉が人間の知能の本質だという立場は、人間と他の動物を強く分けてしまう。もっと連続性があるのではないでしょうか。

中村

原理的には連続だけれど、ある不連続があると考えてよいと思います。それは生命の起源についても言えることで、現代生物学は物質と生命に連続性を認めるけれど、本当に連続かといったら、生命の起源は明らかにあるのですから、そこにはある種の不連続があるわけです。何が不連続なのかはわからないけれど、物質と生命体とは違う。生命体同士も連続していると思います。ゲノムを見たらヒトとチンパンジーはほとんど変わりません。しかし人間は、単なるコミュニケーションでなく、概念づくりや想像を生み出せる。それはおそらく言語をもったから。そこに不連続があります。だから、基本は連続ですが、言語によってある溝を超えたのではないでしょうか。生命も人間もその起源については、それ以前とそれ以降から、限りなく近づけますが、不連続があります。人間に移る溝を知るとしたら、やはり言語からではないかと思うのです。

辻井

人工知能はそのジャンプを非常に大きくとっている。言葉がないと、現実世界のあらゆるものはべたーっと連続しているわけですが、それに机という言葉を貼り付けることで、机があるという個体の認識ができ、それが机というカテゴリーとつながる。現実世界にある種の構造を持ち込む言葉が、大きなジャンプだというのが人工知能の最初の話としてあった。合理的知能、記号論的な人工知能と呼ばれる一連の研究ですね。つまり、人間は記号を使い、それが思考の根底にある。そこを非常に大きくみて、ほかの生物種との連続性をあまり考えなかった。

その揺れ戻しが８０年代半ばからあって、記号を使う能力の基盤に、記号以外の認知の能力や、視覚の能力があって、それが他の動物との連続であるという。そこが僕にはそんなにきれいに割り切れていない。

中村

それはそうだと思います。言語を使う能力をもつシステムとしての脳の構造は、ある程度準備されていたと思うのです。ただ、全部準備されて言語が生まれたのではないと思うのです。トリの鳴き声処理のような能力はあると思う（関連記事：生命誌20号「ジュウシマツの歌の〈文法〉：岡ノ谷一夫」）。ただ脊椎動物で、ゲノムのある部分が４倍になって、可能性がいっぱい出たのと同じように、脳も人間になる時に、大きくなったわけでしょう。全部機能がきまって大きくなったとは思えません。もちろん機能はもっていたけれど、昔の機能は捨ててもよい、組み直してもよい、そういう形で余裕ができたのだと思うのです。

外からの情報をトリやイヌと同じような形で処理したり、音声で表現したりする能力はある程度あったけれど、全部準備されて言語が生まれたのではなく、プロトタイプがあって、さらに脳にいろいろな処理ができる余裕ができて、そこに言語が入ってきて、脳が処理したのだと思っています。

だから、脳からだけでは解けず、どちらかといえば言語からのほうが解きやすいのではないかと思えるのです。

辻井

そこまでの必然性はなかったというわけですね。その構造だけ見ても、人間の心はわからない。

中村

はい。抽象的な概念をもつ能力などは、やはり言語のもっている性質からみていったほうがわかるのではないか。生命の起源も、それ以前の物質のほうから見て行くやり方をとっている人はあまり多くない。化学進化という分野があって、生物体をつくる物質は全部準備されているというところまでは来ているけれど、生命体が生まれたということは出てこない。生命の本質への問いに関して、物質のほうからのアプローチは難しいので、多くの人は、すでに存在している生命体を知るという方法をとっています。

それと同じく、人間も、動物側からではなく、言語のほうから迫ってもいいのではないか。まだわかっていないことがたくさんありますし、動物の側から調べるのは必要ですし、おもしろいことが出てくると思うけれど、なぜ言語のほうからやる人がいないのかという疑問もわきます。

辻井

計算機からの研究者は、その方向でやろうとしていると思います。やろうとはしていますが、言語というのが、完全に外在的なものですよね。脳とは関係なく観察できるわけです。ある種の規則性を持っていて、その規則性は整理ができ、数学的な体系で捉えられる。次に僕らがやりたいのは、それを処理から再編することです。つまり、外で観察された言語の関係や構造が、どういう計算をしたら生み出されるかという処理に入りたいのですが、それは、もう脳内処理という、中を問題にすることですよね。

中村

脳科学者による失語症の研究などでは言語そのものへのアプローチにならないことはないというギャップ。

辻井

そうですね。ただ脳科学の人は、やはり物的な実体がないと気持ちが悪いんじゃないですか。

中村

人間とは何かという問いと脳研究の結びつきはどこにあるかということですね。もちろん神経細胞を知るのは大事で、実験としてはレセプターを調べることになるのは当然なのですが、人間とは何だろうという問いをもし立てたとしたら、タンパク質ではなく、言語から追うという発想を持つ人がいてもいいような気がします。

辻井

僕もそう思うけど、でも脳科学の仲間には入れてもらえない（笑）。というか、そろそろ学際的な研究をやらないとだめだというのは明らかなんだけれども、学際研究というのは、７０年代後半からほとんど失敗しているわけですよね。認知科学だとか心理学だとか皆集まったけど、何か訳がわからなくなって。

中村

あの頃はまだ知識が足りなかった。分野の違う人がただ集まってもだめですね。やっぱり内発的に出てこないとできませんね。

辻井

そう思います。集まる前に各々の分野がそれなの成熟を遂げて、相手に提供できるものがないとね。

中村

生物学と情報科学がそろそろその時期に来ていると思いたいですね。

辻井潤一（つじい・じゅんいち）

１９４９年生まれ。京都大学大学院工学博士取得。京都大学工学部・助教授、フランスグルノープル大学CNRS客員研究、マンチェスター大学計算言語学教授、１９９２～９５年マンチェスター大学計算言語学センター所長を経て１９９６年より現職。