これに対し,筆者らは,言語現象の個別性への対処を自然言語処理の重点課 題と位置づけ,初期は新聞記事の読み上げシステムの開発を通して,大規模辞 書の構築を進めてきた。日英翻訳の開発では,意味を喪失しない表現単位とし て,用言を中心とする単文を結合価パターンとして捉え,それを日英対訳の形 で対にして辞書記述し,日英翻訳を行なう方式の実現を目指してきた。
本稿では,重点的に進めてきた単文のパターン対の収集経過を踏まえ,最終 的にどれくらいのパターン対が収集できそうかについて,最近の見積もり情況 を報告する。
具体的には,次のような事項を報告する。大きく分けると,a.和英辞書から の収集,b.例文とその訳文からの収集を行なった。a.では,一般表現が6,000 用言10,000パターン,慣用表現が3,000パターン収集されたが,これは高頻度 単語の高頻度用法が収集されたと考えられる。一方,b.では,高頻度単語の低 頻度用法と,低頻度単語の用法が収集の対象となっている。b.では内省による 例文作成を提案し,現時点では,和語動詞は3,000語19,000文,イ型形容詞は 150語3,800文が収集され,ナ型形容詞は2,000語2,500文が収集見込みである。 また,漢語動詞には,基本語単位で見て5,000語の未収録がある。和語系の語 の用例からは日英翻訳としては慣用表現として扱って良さそうなものが多数収 集される。以上から,一般表現が12,000用言22,000パターン,慣用表現が 5,000パターン程度は収集可能と推計される。
また,上述の検討を通して感じた規則型の用例型の役割分担について言及す る。高頻度の用法は比較的容易に収集されるが,人手により大量のデータを整 理して辞書・ルールに記述するのは容易ではないため,統計的手法の適用が期 待される。低頻度の用法は収集するのが困難であるが,専門家が若干の事例を 参考にして内省により辞書・規則を作成することは可能であり,同時に検証を 行なっておくことにより,規則適用の際の一定の信頼性を保証することができ る。以上から,高頻度の用法には用例型翻訳を,低頻度の用法には規則型翻訳 を適用するのが有利であると考えられる。この点からも,低頻度の用法を辞書・ 規則として集大成する必要がある。