気がつけば, 言語処理に関わるようになって, 試行錯誤のうちに十数年が経過しました. こんなに身近な言語がこれほど奧が深かったとはと, 改めて感心するぱかりです. この機会に自戒をこめて経過を振り返り, 今後の試行錯誤の効率化の一助としたいと思います.
言語現象には様々な要因が入り組んでおり, それの解明は一筋縄では行きません. 言語現象を観察し, 言語モデルを作り, 検証にとりかかります. いくらよい言語モデルでも, 作っただけでは十分には働かないため, ルール等を作り込んでいく必要があります. 初期はルールを増やしただけ適用性が広がって行きますが, 徐々にルールの相互関係の調整が難しくなり, やがて改良不能に陥ります. そうなれば, 次の言語モデルを作るステップに移行することが必要になります. 言語モデルを作った瞬間に濳在的に適用限界が生じているのですが, ルールを増やすという具体的な作業なしでは顕在化しにくい問題です.
日本語の記述文に対する係り受け解析を例に取って考えてみます. 寡聞にしていつごろ提案されたかは存じませんが, 係り受け解析では次のような経験則が知られています. 例えば,
| (1) | 後方を修飾する, | ||
| (2) | 係り要素は受け要素を1つだけ持つ, | ||
| (3) | 係り受け関係は交差しない, | ||
| (4) | 同じ働きの係り要素が2つ以上同一受け要素には係らない, | ||
| (5) | 係り要素は可能な限り最も近い受け要素に係る, | ||
| (6) | 読点を伴う係り要素は最も近い受け要素には係らない, |
とは言うものの, これらの経験則は大変よくできています. “「名詞+格助詞ガ」は用言または「名詞+助動詞ダ」に係る”等の文法ルールと 経験則を併用すると, 20文字くらいまでの文ならほぼ完璧に係り受け解析が行なえるようになるのです. しかし, それより長い文になると, 上記以外の様々なヒューリスティックルールを駆使しても, 対応し切れなくなります. すなわち, ここからが係り受け解析の第2ステップということになります.
では第2ステップとしてはどうするか. やはり, 現象を観察することから始まります. 第1ステップ(経験則)では何ができて何ができないかを見極めて行きます. すると, 複数の従属節の相互関係がうまく認定できなかったり, 格要素が係るべき述語が決められなかったり, 並列の認定で余計な多義が発生したりというところに問題があることがわかります. これらの課題に対しては, 現在では一定のレベルの回答が与えられていますが, 長い文を解析する上ではまだ十分とは言えない情態にあります. ルールを作り込んでいくことにより, しばらくは適用性が向上するものと思われますが, いずれまた限界に達し, そこから第3ステップへ展開を図ることが求められるでしょう.
このように, ステップを踏みながら改良するというのは, 自然科学全般に言えることなのですが, 言語処理や知識処理などの情報処理系の分野では若干事情が異なっているように思います. 研究対象の中に, 振る舞いの予側しにくい人間の知的活動が含まれているからです. この点で, 現象面を追いかけすぎると, 「木を見て森を見す」というワナに陥りやすいと言えます. 要素合成による機械翻訳がうまくいかないように, 1つ1つのルールは正しくても, 全体としては所期のように機能しないということがしばしば起こります.
それを防止するには, 大局的に見ることと, 分析的に見ることをバランスよく行なうことが求められます. むしろ, 「目に見えないつながりがあるが, 独立しているように見えているに過ぎない. 従属と独立は相対的なものでしかない」と思ってかかる方がよいようです. 例えば, 「ちょっと右」といった副詞が名詞を修飾するという言語現象があります. 学校文法(これもある意味では経験則です)では, 副詞は名詞を修飾しませんから例外事項となります. しかし, 「ちょっと」は基準位置に対する「右」寄りの程度を示していることに気がつけば, 「ちょっと重い」のように形容詞を修飾する場合と同様に, “属性の程度を示す”という共通の説明が可能になります.
いろいろ書きましたが, 経験的には工学系の研究者には 言語モデルに対する処理系やルールの作成ツールを作って満足してしまうきらいがあり, 本当に必要なルールの作り込みがおろそかになっていることがあります. そこで止まってしまうと次のステップヘの展望が開けません. 工学系の研究者がそのことを意識することも必要ですが, 体系だったルールの作り込みには言語系の研究者の協力に期待したいと思います.