Satoshi Shirai, Yamato Takahashi, Masatoshi Tachibana, Hiroko Inoue & Makiko Nishigaki, the 1995 Joint Conference of Electrical and Electronics Engineers in Kyushu, October 11-12, 1996

ルール型解析と用例型生成による日英機械翻訳の基本構成

白井諭^*1 高橋大和^*1 立花正敏^*2 井上浩子^*2 西垣万亀子^*2

( ^*1NTTコミュニケーション科学研究所 ^*2NTTアドバンステクノロジ(株) )

[ 平成8年度(第49回)電気関係学会九州支部連合大会, p.710 (1996.10). ]
[ In Record of the 1995 Joint Conference of Electrical and Electronics Engineers in Kyushu, p.710 (October, 1996). ]

INDEX

	1. はじめに
	2. 翻訳の基本方式
	3. システム構成
	4. むすび

	謝辞
	参考文献

1. はじめに

用例利用する翻訳の利点として, (1)慣用的表現や意訳表現, あるいは業務分野特有な表現等の対訳文を活用でき、また、(2)日英、英日等の双方向翻訳への展開が期待できる。しかし、従来は1:1対応の対訳コーパスに単語やフレーズなどのタグが付与されていることが前提となっているため、大規模な対訳コーパスの生成が困難であった。文の緩い対応付け(厳密ではないが、ある程度直訳的な対応付け)のみが行われた対訳コーパスを用いて翻訳するのが可能となれば適用領域が拡大する。本稿では、用例利用型日英翻訳として、下記を視野に入れたシステム構成を提案する。

多数のユーザが同時に利用できる。
ユーザ固有とユーザ間共通の対訳コーパスを同時に利用できる。

2. 翻訳の基本方式

対訳コーパスの構成: 対訳コーパス(文対応のみ)の和文と英文は別々のファイルに格納され、英文用ファイルには和文とのリンク情報を含む。さらに、和文の任意の位置から検索できるN-gram形式のインデックスファイルを作成する。

候補文の検索: N-gramインデックスにより入力文の形態素がある割合以上含まれる対訳コーパスの和文を候補文として抽出する。

候補文の評価: 候補文と入力文の動詞の部分や各文の形態素の並び順(を格に格等)、さらにはパターン対辞書利用による英訳文等、の一致性を考慮した類似度により類似文を選択する。

(注)類似の定義: 入力文と候補文の文間距離の基本概念は, 候補文の形態素を入力文の形態素の並びに極力一致するようバブルソートした際のスワップ回数とした。文間の類似度は、入力文と候補文の間の双方向からの距離、複数動詞の順序関係や活用変化からの距離、および「をに」格の品詞の一致の有無・順序関係の距離等を考慮した総合的な値とした。

英文の生成: 入力文と類似文での差異を識別し、該部分に対して辞書またはルール型翻訳により英訳を取得し、置換修正する。

3. システム構成

構成: システム構成を図1に、GUIを図2に示す。

図1 現状のシステム構成

図2 GUI

特徴: 主な特徴を以下に述べる。

クライアント/サーバ型のネットワーク対応で、ユーザはwindowsで利用でき、サーバはUNIX、windows-NTで動作する。
個人と共通の対訳コーパスファイルから構成される。このため、ユーザ独自の対訳コーパスを登録でき、さらにこれらを統合化してユーザ間で共通に利用できる。
対訳データの入力インタフェースにより、大規模対応の対訳コーパスが実現できる。
ALT-J/E[Ikehara 91]の形態素解析とのインタフェースを持つ。
融合型翻訳インタフェースにより、既存の翻訳システムと併用することによりより良い翻訳環境が実現できる。
GUIの活用により操作性の容易化と高度化が図られる。

4. むすび

緩い対訳データで動作可能なこと、多くのユーザが同時利用できることねらいに、ネットワーク対応の用例利用型日英機械翻訳システムを開発および評価中である。現在、文の解析は形態素解析のみであるが、今後は類似判定の適正化、構文解析や意味解析等の導入、さらに英文生成の改良を進める予定である。

謝辞

ご討論くださったNTTアドバンステクノロジ(株)の田邉俊明氏に感謝する。

参考文献

[Ikehara 91]: S.Ikehara, S.Shirai, A.Yokoo, and H. Nakaiwa: Toward MT System without Pre-editing -Effects of New Methods in ALT-J/E-, Proceedings of the MT SUMMIT III, pp.101-106 (1991)

対	訳コーパスの構成: 対訳コーパス(文対応のみ)の和文と英文は別々のファイルに格納され、英文用ファイルには和文とのリンク情報を含む。さらに、和文の任意の位置から検索できるN-gram形式のインデックスファイルを作成する。

候	補文の検索: N-gramインデックスにより入力文の形態素がある割合以上含まれる対訳コーパスの和文を候補文として抽出する。

候	補文の評価: 候補文と入力文の動詞の部分や各文の形態素の並び順(を格に格等)、さらにはパターン対辞書利用による英訳文等、の一致性を考慮した類似度により類似文を選択する。 (注)類似の定義: 入力文と候補文の文間距離の基本概念は, 候補文の形態素を入力文の形態素の並びに極力一致するようバブルソートした際のスワップ回数とした。文間の類似度は、入力文と候補文の間の双方向からの距離、複数動詞の順序関係や活用変化からの距離、および「をに」格の品詞の一致の有無・順序関係の距離等を考慮した総合的な値とした。

英	文の生成: 入力文と類似文での差異を識別し、該部分に対して辞書またはルール型翻訳により英訳を取得し、置換修正する。