単文の結合価パターンの網羅的収集に向けて
― 日英機械翻訳の観点から ―

白井 諭 (ATR音声翻訳通信研究所/NTTコミュニケーション科学研究所)

 機械翻訳の方式として,以前は規則型の方式が主流であったが,辞書の構築 や規則の収集が容易でなく,規則の相互干渉の制御が難しいため,訳文品質の 向上が困難であるとされている。その後,用例型の方式が脚光を浴びたが,対 訳用例の収集が容易でない上,用例集に詳細な情報の付与が必要であるなど, "用例を追加すれば容易に品質が向上する"システムの出現は見ていない。最近, パターン型の方式が主張されているが,従来の規則型翻訳では単語ごとに翻訳 していたのに対し,単語の組合せのパターンを翻訳単位とした「規則型翻訳」 であるため,パターンが容易に収集できるか,またその相互干渉が制御できる かが成否のカギを握ると考えられる。

 これに対し,筆者らは,言語現象の個別性への対処を自然言語処理の重点課 題と位置づけ,初期は新聞記事の読み上げシステムの開発を通して,大規模辞 書の構築を進めてきた。日英翻訳の開発では,意味を喪失しない表現単位とし て,用言を中心とする単文を結合価パターンとして捉え,それを日英対訳の形 で対にして辞書記述し,日英翻訳を行なう方式の実現を目指してきた。

 本稿では,重点的に進めてきた単文のパターン対の収集経過を踏まえ,最終 的にどれくらいのパターン対が収集できそうかについて,最近の見積もり情況 を報告する。

 具体的には,次のような事項を報告する。大きく分けると,a.和英辞書から の収集,b.例文とその訳文からの収集を行なった。a.では,一般表現が6,000 用言10,000パターン,慣用表現が3,000パターン収集されたが,これは高頻度 単語の高頻度用法が収集されたと考えられる。一方,b.では,高頻度単語の低 頻度用法と,低頻度単語の用法が収集の対象となっている。b.では内省による 例文作成を提案し,現時点では,和語動詞は3,000語19,000文,イ型形容詞は 150語3,800文が収集され,ナ型形容詞は2,000語2,500文が収集見込みである。 また,漢語動詞には,基本語単位で見て5,000語の未収録がある。和語系の語 の用例からは日英翻訳としては慣用表現として扱って良さそうなものが多数収 集される。以上から,一般表現が12,000用言22,000パターン,慣用表現が 5,000パターン程度は収集可能と推計される。

 また,上述の検討を通して感じた規則型の用例型の役割分担について言及す る。高頻度の用法は比較的容易に収集されるが,人手により大量のデータを整 理して辞書・ルールに記述するのは容易ではないため,統計的手法の適用が期 待される。低頻度の用法は収集するのが困難であるが,専門家が若干の事例を 参考にして内省により辞書・規則を作成することは可能であり,同時に検証を 行なっておくことにより,規則適用の際の一定の信頼性を保証することができ る。以上から,高頻度の用法には用例型翻訳を,低頻度の用法には規則型翻訳 を適用するのが有利であると考えられる。この点からも,低頻度の用法を辞書・ 規則として集大成する必要がある。