Satoshi Shirai, Eiichiro Sumita, Hideki Kashioka & Setsuo Yamada, AAMT Journal, January 1, 1999, No.25, pp.5-7.

音声翻訳のための言語処理

株式会社エイ・ティ・アール音声翻訳通信研究所

白井諭隅田英一郎柏岡秀紀山田節夫

[ AAMT Journal, pp.5-7 (1999.1). ]
[ AAMT Journal, pp.5-7 (January, 1999). ]

INDEX

	1. はじめに
	2.音声翻訳における言語処理の課題
	3.変換主導翻訳
	4. 省略格要素補完
	5.部分翻訳
	6.おわりに

	参考文献

1. はじめに

エイ・ティ・アール音声翻訳通信研究所では、人が喋った言葉をコンピュータが外国語に翻訳し喋るシステムの実現を目指し、基礎技術の研究を行なっている。要素技術として、人が喋った言葉を聞き取る音声認識、聞き取った言葉を他の言語に翻訳する機械翻訳、翻訳された言葉を音声として出力する音声合成、これらの処理を統合管理する音声言語統合処理の4つの構築を進めてきた。 1998年10月末、旅行会話を対象として日英および英日の翻訳をほぼ実時間で行なうプロトタイプシステムの開発に成功した。

音声認識(ATR-SPREC)は、不明瞭な発声でも認識できる音響モデルを提案し、高精度の音声認識が可能である。機械翻訳(TDMT)は、話し言葉特有の言い回しとその対訳文に基づいてパターンと用例をデータベース化し、これと入力文の類似性を調べながら、覚えている表現を使い適切に翻訳する。音声合成(CHATR)は、音声データベースの中から適切な音声波形を選択し、必要に応じて信号処理を行なうことにより、極めて高品質の合成音声を生成する。このとき、音声認識で得た話者の発声の特徴パラメータも反映されるため、女性が喋れば女性の音声を合成する。

以下、本稿では音声翻訳を実現するために開発した機械翻訳を含む言語処理について述べる。

2. 音声翻訳における言語処理の課題

音声会話の認識結果を翻訳対象とすると、記述文を翻訳する場合に比べ、次のようなことが特に問題となる。

a. ほぼ瞬時に翻訳される必要がある

b. 文法的に誤っている表現が多く含まれる

c. 前提事項は言わないため断片的な表現が多い

d. 音声認識結果には誤りが含まれることがある

音声翻訳を通して会話を行なう場合、喋ってからその翻訳が合成音声で聞こえるまでに長い時間を要しては会話は成立しなくなる。また、喋っている言葉には詳細に分析すると文法的に間違っている表現も少なくないが、その状態で会話は成立している。すなわち、文法的に誤った表現でもそれなりの翻訳ができることが必要になる。そこで、変換主導翻訳(TDMT)を提案し、これらの問題解決を図った。

会話は面前の相手との間で成立するものであり、両者の了解事項は改めて発話されないことが多い。特に日本語の発話では、「誰が」や「何を」が省略されるため、英語など主語や目的語の省略が許されない言語への翻訳は難しい。会話を対象に、これらの省略要素を自動的に補完する技術を実現した。

また、音声認識結果には認識誤りが含まれることがある。記述文翻訳では、しばしば前編集や後編集が行なわれるが、会話翻訳にはそのような介入は不可能である。 TDMTでは覚えている表現を使い回して翻訳するが、誤りが含まれるとき、覚えている表現との類似性が低いという現象が生じることがわかった。そこで、その類似性に基づいて正しいと推定される部分だけを翻訳する部分翻訳処理を実現した。

3. 変換主導翻訳

変換主導翻訳(TDMT)として、実際に出現した表現を模倣して翻訳することにより、文法的に間遠った表現であっても翻訳することができる方法の実現を目指した。すべての表現をあらかじめ登録するのは不可能であるため、特徴的な表現を一般化して登録する事前学習を行なっている。例えば、「中国の河」は「XのY」というパターンに一般化する。一般化すると元の意味が失われるので、このパターンに実際の表現「中国の河」とその対訳「river in China」を一緒に登録する。翻訳システムに文が入力されるとその表現に当てはまるパターンを検索し、そのパターンに登録されている表現のうち入力された表現と意味的に最も近い表現を選択し、選択された表現を真似て訳文を作成する。

「京都に到着する時間を教えてください」という文が入力された場合、次のようにして訳文が生成される。まず「京都に到着する」のパターン「XにY」に着目する。このパターンには「大阪に着く」「3時に着く」「友人に会う」「ひどい目に遇う」などの表現が登録されているとする。シソーラスを用いることにより「京都に到着する」に意味的に近いものとして「大阪に着く」を選択する。その対訳「arrive in Osaka」を模倣して「arrive in Kyoto」を生成する。以下、「到着する時間」に着目し「the time when」を、「時間を教えて」に着目し「tell (me) the time」を、「教えてください」に着目して「please tell (me)」を順に生成する。これらを文法規則に従って組み合わせることにより、最終的に「Please tell (me) the time when (I) arrive in Kyoto」と翻訳する。

多くの翻訳システムでは規則型の翻訳方式に基づいており、文法規則に基づいて解析･変換･生成を行なっている。翻訳システムを改良するには、特に変換性能を向上させる必要がある。規則型翻訳では翻訳失敗を生じた原因となっている文法規則の改良を必要とするが、安易に規則を追加すると想定外の表現に適用され思わぬ副作用を招く恐れが大きく、専門家が十分に副作用等を検証することが必用条件となっている。これに村して、 TDMTでは変換の単位となるパターンを見いだすのに必要な解析と上述の生成には文法規則を用いるが、変換はパターンごとに登録された翻訳例に基づいて実行される。従って、翻訳例を追加することにより、比較的容易にシステムの性能向上が達成される。

4. 省略格要素補完

前節の翻訳において、「Pease tell (me) the time when (I) arrive in Kyoto」の括弧を付した部分は、入力文「京都に到着する時間を教えてください」には含まれていない。日本語の表現としてはこれらを言わないのが普通であり、英語の表現としては必ず言わなければならない。これらの要素を推定する技術が必要となる。

翻訳の実例は、このような要素が盛り込まれた状態で表現されている。従って、対訳文からどのような場合に何を補えばよいかを規則として抽出することが考えられる。しかし、そのような規則を手作業で収集するのは容易ではないので、効率よく収集する方法が望まれる。そこで、自動学習の手法を応用して、対訳文から欠落している要素を推定するための決定木 (判定規則と適用順序を体系化したもの)を作成し、それを使って必要な要素を推定する方法を考案した。

旅行会話の対訳データベースを用いた評価実験によれば、話し手、欠落要素のある動詞、尊敬などの待遇表現などを手がかりとした場合、決定木の作成に使用していない文に対して、文の主語では80%以上を正しく補完できるようになった。また、間接目的語等に対しても同様に補完できる。

5. 部分翻訳

現在の音声認識技術ではすべての会話を正しく聞き取ることは難しいため、認識結果には誤りが含まれることがあり、それにどのように対応するかが音声翻訳の成否を決める1つの課題である。しかし、人間同士が会話する場合にも聞き誤ることはあるが、聞き返したり、聞き取れたところを手がかりにして全体を推測したりするなどにより、会話は続けられる。音声翻訳を通して人間が会話する場合でも、聞き返しは人間が自由に行なうことができる。そこで、音声翻訳としては、正しく聞き取れたところだけを翻訳することにより、会話を継続させることを目指した。

「ホテルを予約したいんだけど」と発話された場合、これを正しく認識できれば、例えば「I'd like to reserve the hotel」と翻訳することができる。ここで「ホテル」を「蛍(ホタル)」と聞き間違えた場合、そのまま訳すと、翻訳としては正しくても意味不明となってしまう。しかし、「蛍」が間違いであると判定できれば、その部分を外した「予約したいんだけど」を翻訳し、「I'd ike to reserve」を伝えることにより、不完全ではあるが会話を続けることができると考えられる。

音声認識では、ある単語の次にどのような単語が現れるかを予測しながら認識を行なっている。そのため、単語の認識誤りがあっても、単語のつながり自体は自然なものとなっている。全体を通してみて初めて不自然であることがわかる。変換主導翻訳では、前述のように、パターンごとに用意された実際の翻訳例のうち最も類似性の高い翻訳例を真似て翻訳する。このパターンは比較的広範囲の表現を眺めていると考えることができる。

すなわち、認識誤りが含まれると、パターンの一部分だけ類似性が低いという現象が現れる。例えば、用例として「部屋を予約したいんだけど」「I'd like to reserve the room」が登録されている場合、「部屋」と「蛍」の類似性は低いが、残りの部分「を予約したいんだけど」の類似性は高い(この例では一致している)。

そこで、この類似性の低い部分を誤りと判定することにした。これにより、「I'd like to reserve...」 (...は誤りがあると判定され翻訳されなかった部分)が出力できるようになった。

6. おわりに

変換主導翻訳は多言語翻訳にも適用可能である。現在、日英、英日のほか、日韓、韓日、日独の翻訳に適用するとともに、日中翻訳の開発を実現した(図1、表1)。現在、翻訳品質の向上を目指し、翻訳例の追加を進めている。

図1:変換主導翻訳による多言語翻訳システム

表1:変換主導翻訳による翻訳率

	日英	英日	日韓	韓日	日独	日中
翻訳率(文単位)	78.5%	85.0%	94.5%	90.4%	75.5%	(開発中)
翻訳時間(平均)	0.4秒	0.3秒	0.3秒	0.4秒	0.6秒

今後は、正しく認識されたと判定された部分だけを翻訳する部分翻訳を一歩進め、本当はこのように発話されたはずだと推測する誤り修復を試みる予定である。

参考文献

[1]: 古瀬蔵,隅田英一郎,飯田仁: “経験的な知識を活用する変換主導型機械翻訳”, 情報処理学会論文誌, Vol.35, No.3, pp.414-425 (1994)
[2]: 脇田由実,河井淳,飯田仁: “意味的類似性を伺いた音声認識正解部分の特定法と正解部分のみを翻訳する音声翻訳手法”, 自然言語処理, Vol.5, No.4, pp.111-125 (1998)
[3]: 山本和英,隅田英一郎: “決定木学習による日本語対話文の格要素省略補完”, 自然言語処理, Vol.6, No.1, pp.3-28 (1999)

	a.	ほぼ瞬時に翻訳される必要がある
	b.	文法的に誤っている表現が多く含まれる
	c.	前提事項は言わないため断片的な表現が多い
	d.	音声認識結果には誤りが含まれることがある