1. はじめに | |
2. 対訳コーパスの作成 | |
3. 市況速報文の特徴 | |
4. 用例利用型日英機械翻訳の処理 | |
4-1. 類似和文用例の候補選択 | |
4-2. 最も典型的な類似対訳用例選択 | |
4-3. 類似対択用例に基づく訳文生成 | |
5. おわりに | |
参考文献 |
ルールベース翻訳は要素合成的な翻訳のため, 入力文に特殊な表現や語句の省略がある場合, 高品質な翻訳ができないという問題点がある. 一方, 用例翻訳では事前に大量の対訳用例を準備しておくことで, 様々な入力文に対して高品質な訳文を生成できる. 対訳パターンを用いる用例翻訳の手法[1] [2]が提案されているが, 人手で大量の対訳パターンを作成するため, 人的コストや時間がかかるという問題点がある.
本稿では, 文対応付けされた大量の対訳用例を用い, その文をそのまま使用することを基本として高品質な訳文を生成する 用例利用型日英機械翻訳[4] [5]について述べる. 本方式で有効な適用対象は, 対訳用例を大量に集めることが可能で, ルールベース翻訳では高品賞な翻訳結果を得ることが困難な 文を多く含んでいる分野であり, 現時点では市況速報文を対象として考えている.
本研究では大量の対訳用例を判用するために対訳用例の人手加工は行わず, 文対応の情報がある対訳コーパスをそのまま利用することを前提としている. しかし, 実際には人手で対応付けされた2言語のコーパスだけでは 大量の対訳用例を収集するのは困難である. そこで, 我々は同じ内容について記述された2言語のコーパスから 自動的に文対応付けを行う研究[3]も進めている. 現在は人手で対応付けしたものを利用しているが, 将来は自動文対応付け機能を組み込み, 大量の対訳用例が利用可能で高品質な訳文を生成する翻訳システムを実現する.
市況速報文は継続的に日本語と英語の記事が配信されており, 自動文対応技術が確立すれぱ大量の対訳用例を刊用できる. 現在, 市況速報文として59386ペアの対訳用例を用いている. これらの市況速報文には以下のような特徴があり, 用例利用型日英機械翻訳に有効な翻訳対象であると考えられる.
(1) | 数詞や企業名などの固有名詞を多く含む |
数詞を含む文は和文用例が30912文, 英文用例が27068文存在. | |
(一般化しやすく, 差分対象にしやすい) |
(2) | 分野に特有な表現がある |
(対訳英文に対訳が現れていれば翻訳可能) |
(3) | 語句(動詞)の省略がある |
(省略に対する語句が対訳英文にあれぱ翻訳可能) |
(4) | 定型的で類以した文を多く含む |
(典型的な対訳用例を選択可能) |
用例利用型日英機械翻訳(システム名: EUREKA)は, 対象分野の文対応付けされた対訳コーパスを用いて, 図1の手順で翻訳処理を行う.
以下, プロトタイプの各処理について述べる.
![]() |
大量の対訳用例から入力和文に類似する和文用例を高速に選ぶため, まず, 和文用例の校り込みを行う. 事前に和文用例集に対し文字単位のN-gram表現と文IDを記録しておき, 入力和文に含まれているN-gram表現を調べ, その表現を持つ和文用例を候補和文用例として選択する.
4-1で得られた候補和文用例を用いて, (1)入カ和文と候補和文用例の類似度, および候補和文用例の対訳である(2)候補英文用例の語による順位を考慮し, 最も典型的な類似対訳用例を選ぶ.
(1) | 入力和文と候補和文用例の類似度文字列(形態素) ごとに区切り, 候補和文用例の文字列を入力和文の並びにバブルソートしたときの スワップ数を基に計算する[4]. |
(2) | 候補英文用例の語による順位候補英文用例の間で共通に現れる語(但し, 冠詞, 助動詞, 前置詞を除く)の頻度が最大のものを 典型的な語とし[4], 候補英文用例ごとに 典型的な語の種類を多く含む文から順位付けする. |
4-2で得られた最も典型的な類似対訳用例の英文用例を模倣して 入力和文の訳文を生成する. 入力和文と類似和文用例の差分箇所, および類似和文用例の差分箇所に対応する類似英文用例の箇所を調べ, 類似英文用例の差分対応箇所を入力和文の差分箇所の英訳で置換する. 最後に, 活用形などの細かい調整を行う. 現在, 市況速報文特有の表現である数詞や企業名などに着目して差分置換を試みている.
図2に本方式による市況速報文の翻訳例を示す.
|
市況速報文を対象とする用例利用型日英機械翻訳について述べた. 今後, プロトタイプ[5]を基に検討, 改良を加え, ルールベース翻訳と用例利用型翻訳の長所を生かした ハイブリッド翻訳システムを構築する予定である. また, 市況速報文以外の分野についても翻訳対象を拡大して研究を進めていく.