生命誌ジャーナル 2002年号
Research ─ 研究を通して ─ :目次> 言語とゲノムの意外な関係─かな漢字変換と遺伝子発見
ゲノムや言語をどう読み解くか?
言語とゲノムの意外な関係─かな漢字変換と遺伝子発見
NTTサイバースペース研究所  永田昌明
 「かな漢字変換プログラム」と「遺伝子発見プログラム」は実はほとんど同じソフトウェアである。薮から棒に、こいつは一体何を言い出すんだと思われたかもしれないが、そんなことでもなければ、言語処理を専門とする電話会社の研究者が生命科学の雑誌に登場するわけがない。

 例えて言えば、幼い頃に別離し、全く別の境遇で育った兄弟が、数奇な巡り合わせから再会し、お互いにあまりにも良く似ているので驚く。実はこの二人は異母兄弟で、兄である「かな漢字変換」の母親は「言語処理」、弟の「遺伝子発見」の母親は「ゲノム解析」、そして、二人の共通の父親は「隠れマルコフモデル」である。この父親はなかなか隅に置けない奴で、「音声認識」という女性とも深い仲にあるのだが、その件については話が複雑になるのでここでは触れない。

 我々が日本語の文書を読む場合、無意識のうちに内容を理解してしまうので、言語とゲノムはとても同じものとは思えないかもしれない。しかし、もしそれが、ハングルやアラビア文字で書かれていたらどうだろう? どこからどこまでが一つの単語なのか、いや、どこからどこまでが一つの文字なのかさえ判別できないに違いない。

 コンピュータにとっては、日本語も韓国語もヒトゲノムも、ただの記号列に過ぎない。約100種類のひらがなで構成された文字列から単語を発見する「かな漢字変換」と、4種類の塩基の配列であるゲノムから遺伝子を発見する問題は、基本的には同じなのである。

 コンピュータで言語を解析するとはどういうことかを実感してもらうために、漢字表記の日本語文字列から単語を発見する問題を考えてみよう。

 例えば、「畜産物価格安定法」は、「畜産物」「価格」「安定法」という単語列から構成される複合名詞であることを、我々は容易に認識できる。ところがコンピュータにはこれが難しい。

 図1に示すように、「畜産」「産物」「物価」「価格」「格安」「安定」「定法」など、すべての隣接した2文字の漢字列がすべて語を形成するだけでなく、「産」「物」「価」「格」「安」「定」「法」などほとんどの漢字が一文字でも語を形成する。そのため、「畜産|物価|格安|定法」「畜産|物価|格|安定|法」など非常に多くの単語分割の可能性が存在するのである。
<図1>

 同様の問題は、ひらがな表記された文字列を漢字かな混じり表記に変換する「かな漢字変換」でも発生する。例えば、「へんなじがでる」をかな漢字変換する場合を考えると、これも色々な解釈が可能である。

 へんな/形容詞 じが/名詞 でる/動詞 → 変な自我出る, 変な自画出る ,..
へんな/形容詞 じ/名詞 が/助詞 でる/動詞 → 変な字が出る, 変な痔が出る, ...

 かな漢字変換プログラムの仕事は、(1)ひらがなで表記された入力文を単語に分割し、(2)それぞれの単語の可能な漢字表記(同音異義語)の中で最も妥当なものを選ぶ、という2つである。(1)に失敗すると「変な自我出る」になり、(2)に失敗すると「変な痔が出る」になる。どちらもあり得ないとは言い切れない解釈であるが、かな漢字変換の第1候補として適切とは思えない。

 かな漢字変換で正解を得る鍵は、複数の解釈の可能性の中から日本語として最も妥当な解釈を選択するための判断基準、すなわち、日本語の「文法」をコンピュータ上で表現する方法にある。1980年代の初期のパソコンやワープロに付属したかな漢字変換は、上記の例のような珍答・迷答のオンパレードだったが、最近のかな漢字変換は随分と「賢く」なっている。その背景にあるのが「隠れマルコフモデル」である。

 少し難しい話になるが、一般に、ある記号の出現確率が直前の記号のみに依存すると仮定する確率モデルを「マルコフモデル」という。これに対して、マルコフ過程に従って遷移する内部状態、および、各状態における記号の出現確率分布から構成される確率モデルを「隠れマルコフモデル」という。外部から観測できるのは記号の系列だけであり、内部の状態遷移は直接観測できないところから「隠れ」マルコフと呼ばれる。

 名詞・動詞などの品詞を内部状態と考え、単語を外部から観測できる記号と考えると、言語の生成過程は隠れマルコフモデルで近似できる。隠れマルコフモデルで日本語の「文法」を表現した例を図2に示す。図2では、グラフの節点が内部状態(品詞)を表し、節点間の矢印が状態遷移およびその確率を表す。節点に付属するテーブルは状態別の記号(単語)の出現確率である。
<図2>

 「へんなじがでる」のかな漢字変換において、「変な自我出る」を不自然と感じる主な原因は、「自我」という名詞の直後に「出る」という動詞が接続し、助詞が省略されているせいである。標準的な日本語では、名詞の直後には動詞より助詞が接続する可能性が高い。隠れマルコフモデルでは、このような単語の接続の自然性を状態遷移確率の大小で表現する。また、「じ」の変換候補としては「痔」より「字」の方が可能性が高いことは、名詞という内部状態における出現確率の大小で表現する。

 近年のかな漢字変換が「賢く」なったのは、この隠れマルコフモデルのパラメタ(品詞遷移確率と単語出現確率)を大量のテキストから統計的な手法を使って正確に求められるようになったお陰である。

 さて、ゲノムの場合、図2において、文字を塩基(A,T,G,C)、単語をコドン(1つのアミノ酸に対応する3つの塩基)に置き換えれば、やはり隠れマルコフモデルで表現できる。言語における品詞に相当するような、分かりやすい内部状態はまだ解明されていないが、開始コドン(ATGなど)と停止コドン(TAA,TAG,TGA)という内部状態が存在することは良く知られている。

 かな漢字変換は、文字列の先頭から末尾までに対応する内部状態遷移の可能性の中で、日本語らしさを表す確率が最も高いものを求める問題であるのに対して、遺伝子発見は、開始コドンから停止コドンまでの内部状態遷移の可能性の中で、遺伝子らしさを表す確率が最も高いものを求める問題である。

 実際には、真核生物のゲノムの場合、タンパク質の情報を持つエキソンと何も情報を持たないイントロンが交互に出現するので問題はさらに複雑である。しかし、イントロンとエキソンの間の状態遷移も隠れマルコフで表現することが可能である。

 どうだろう? 「かな漢字変換」と「遺伝子発見」が兄弟のように良く似ているという意味を理解して頂けただろうか?

 このように、言語解析とゲノム解析は、意外に関係が深い。最近では、アミノ酸配列からタンパク質の立体構造を予測する問題に、言語処理における構文解析の技術を適用できることが分かってきた。今後、一見、無関係なこの二つの分野の交流が進み、さらに新しい技術が生まれることを大いに期待したい。
INDEX
  塩基配列に隠れた情報を探し出す─生物情報学の挑戦:浅井潔
Rsearch

CLOSE

Javascriptをオフにしている方はブラウザの「閉じる」ボタンでウインドウを閉じてください。