言語的類似性を最大利用した直接翻訳方式

白 京姫+ 中岩 浩巳+ 白井 諭++

+ATR 音声言語コミュニケーション研究所, 京都府
++NTTアドバンステクノロジ
E-mail: +{kyonghee.paik,hiromi.nakaiwa}@atr.co.jp, ++shirai@nlp.ntt-at.co.jp


あらまし

 

本研究では言語的類似性を最大限利用した直接翻訳方式について考察する。 そのなかでも、よく類似していると言われる日本語と韓国語の直接翻訳を試みる。 この方法は、多数の変換ルールや対訳コーパスを必要としないので、 システムの構築が容易である。 本研究では単言語コーパス及び対訳辞書の規模に対する機械翻訳性能を測り、 その可能性を検討する。



キーワード

日本語、韓国語、機械翻訳、直接翻訳方式、単言語コーパス、対訳辞書、言語的類似性



Direct Machine Translation Using Linguistic Similarities

Kyonghee Paik+, Hiromi Nakaiwa+, and Satoshi SHIRAI++

+ATR Spoken Language Translation Laboratories, 2-2-2, Hikaridai, Seika-cho, Soraku-gun, Kyoto 619-0288 Japan
++12-1 Ekimaehoncho, Kawasaki-ku, Kawasaki-shi, Kanagawa Pref. 210-0007 Japan
E-mail: +{kyonghee.paik,hiromi.nakaiwa}@atr.co.jp, ++shirai@nlp.ntt-at.co.jp


Abstract

Conventional approaches to machine translation require many linguistic resources either as transfer rules or parallel corpora. However, we are attempting to measure how little knowledge can be used for machine translation between similar languages, starting off with only a transfer dictionary and a target language corpus. The proposed method of machine translation exploits the linguistic similarities to achieve acceptable translation with low cost. We introduce Japanese to Korean machine translation as a case study.



Key Words

Japaese, Korean, machine translation, monolingual corpus, transfer lexicon

[ 電子情報通信学会技術研究報告, pp.??-?? (2003.8). ]
[ Technical Report of IEICE, pp.??-?? (August, 2003). ]



INDEX

     1. まえがき
2. 最小限の資源と機械翻訳
3. 言語の類似点を生かす機械翻訳
  3.1 日本語と韓国語
  3.2 語順
  3.3 日本語と韓国語の語彙の特性
4. 翻訳処理の構成
  4.1 処理の構成
  4.2 翻訳例
5. 実験
  5.1 試行実験
  5.2 翻訳結果
  5.3 考察
  5.4 実験2
  5.5 考察
6. まとめ
  文献
  [付録]



1. まえがき

近年インタネット技術の目覚しい進歩によりグローバルな情報共有が可能になっている。 しかし、英語以外の言語は英語ほどあまり開発が進められてない。 それらの言語においてはその言語で書かれた情報にアクセスし利用することはまだ困難である。 実際に英語以外の言語で書かれている情報を読んで理解する人口はそんなに多くない。 例えば、モンゴル語の母語話者のなかで、 日本語の情報を読み取れる人口は英語から読み取れる人口に比べるとはるかに少ないと思われる。 もし、日本語で書かれた情報が英語経由でなく、モンゴル語に直接翻訳できるとしたら、 その情報はよりアクセスしやすくなるに違いない。 本研究の最終的な目的は 英語以外の言語で書かれた情報をより容易にアクセスするために必要なものである。

そういう意味では日本語、韓国語においても状況は変らない。 但し、英語以外の機械翻訳、例えば、日韓、韓日の機械翻訳の体制は 様々な面で英日または日英の環境とは異なることである。 英日、日英の環境は言語資源、人的資源及び金銭的な面での環境が整っているが、 その他の言語においては必ずしもそうとは限らない。 日本語と韓国語の機械翻訳の場合もそんなに恵まれてない環境にあるが、 今までの研究はかなりのレベルまで達したとも言える。 その高い精度の結果は言うまでもなく両言語の類似点に起因するものである。

日本語と韓国語は非常に類似するが、 それを積極的に活かした日韓あるいは韓日の機械翻訳はあまり行われていない。 従来の機械翻訳では数多くの変換ルールや対訳コーパスを必要とし、 類似言語間の機械翻訳では結果的に実現が容易であったと考えられる。 これに対し、我々は両言語の類似点をまず最初に考慮する。 即ち、日本語と韓国語の対では、漢字の大半がそのまま両言語において使われる点、 語順が似ている点、単語の使い方に関わる文化的な発想も類似している点など様々な類似点がある。 翻訳する言語対がこのように類似していると、機械翻訳がやり易くなるのは当然である。




2. 最小限の資源と機械翻訳

本研究は言語の特徴を活かし、 より少ない人力と資源を使った機械翻訳に焦点を当てた実験的な研究である。 機械翻訳で必要となる最小限の資源と言えば、対訳辞書がまず考えられる。 本研究では既存の日・韓対訳辞書を利用するが、他の言語対の機械翻訳を考慮し、 第3言語を用いて作成した変換辞書を作成する方法も間単に紹介する。 対訳辞書作成に関しては様々な方法が提案されているが、 簡単にいうと共通の言語(大概の場合、英語)を軸にして, 作成したい言語の単語をリンクする方法が主である [6],[7],[9]。 原言語と英語の対訳辞書は他の対訳辞書より存在する可能性は非常に高い。 例えば、英語を媒介して日英辞書と韓英辞書を使用し日韓辞書を作成することができる。 また、本研究で用いられるもう一つの資源は単言語コーパスである。 パラレルコーパスに比べると単言語コーパスは収集が容易であることは言うまでもない。

このような対訳辞書と単言語コーパスだけで機械翻訳した場合に、 既存の日韓の機械翻訳システムには比べないほど精度が落るのは当然であろう。 しかし、この簡単な方法だけでも5割ぐらいの精度を出すことができるのであれば、 その人的・時間的コストの少なさゆえに、とても現実的、かつ有効な手段であると思われる。 これを初期性能として品質改善のために工夫を行うことにより、 役立つ技術に発展することが期待できる。




3. 言語の類似点を生かす機械翻訳

言語の類似点を利用した日韓機械翻訳システムを構築するためにはまず、 その類似な表現を最大抽出し、分類しなければならない。 本研究では文法的な類似の基準として、文献[4]に示されている分類 のうち、 語順に関する次の3つの類型情報に着目した。

(1)名詞の構文上の働きを規定する語は前置(pr)か後置(po)か
(2)形容詞(A)と名詞(N)の語順
(3)主語(S)、目的語(O)、述語(V)の語順

これらを、(1)をprとpo、(2)をANとNA、(3)をSOVやSVOなどと表記すると、 表1のようになる(注1)

本研究では文法的に類似する言語間の翻訳を対象として、 変換規則の量と翻訳精度の関係を検討する。 その一環として、本稿では、po-AN-SOVに該当する言語相互の翻訳を取り上げる。 具体的には日韓翻訳を対象とするが、 原則として日本語または韓国語に依存しない簡便な翻訳手法を検討する。

日本語、韓国語の両言語がどのような言語系統に属しているのかについては 現在までこれという定説はないが、 日本語と韓国語は文法的に類似した言語であることは広く知られている。 次節で両言語の諸特徴について詳しく述べる。

表1 語順に着目した言語の分類例
po AN SOVBashkir Bengali Buriat Burmese Gujarati Hungarian Huichol JapaneseKannada Konkow Korean Kurku Mongolian Ossetic Panjabi Piro Quechua Telugu Turkish Uzbek Vogul Yakut
SVOFinnish Guaarani Ojibwa
NA SOVBasque Chitimacha etc.
pr AN SOVAmharic
SVOChinese English Russian etc.
VSOChontal Squaamish
VOSTagalog
NA SOVPersian Tajik etc.
SVOFrench Thai Vietnamese etc.
VOSMalagasy
VSOArabic Hebrew Samoan etc.




3.1 日本語と韓国語

日本語と韓国語は様々な面で非常に類似している。 特に、語順が同じで、基本となる語順というのは主語、目的語、述語となっているが、 その語順はかなり自由である。 また、文法格が名詞の後にくる点においても同じである。 また、多くの漢字が両言語において使われているということは 機械翻訳において非常に有利であると言える。 以下、機械翻訳の観点からみた強調すべき両言語の類似点について詳しく分析する。




3.2 語順

英語と比べると、日本語と韓国語のの類似点は一目瞭然である。 以下のように日本語と韓国語の語順はまったく同じであると言える。 イタリックは韓国語の発音である。

(1)修飾語(形容詞、関係節等)と名詞との関係
[K:] 추운 아침
[K:] chuun achim
[J:] さむい あさ
[E:] a cold morning
(2)助詞、後置詞と名詞との関係
[K:] 나라-를-위해서
[K:] nara-lul-uyhaeseo
[J:] 国-の-ために
[E:] For (my, your) country
(3)主語、目的語、動詞の語順
[K:] 타로우-가 책-을 읽었다.
[K:] taro-ga chaek-ul ilgeossda
[J:] 太郎-が 本-を 読んだ。
[E:] Taroo read a book.

以上で示したように、語順がほぼ同じである。 語順と語彙選択など勿論例外もあるが、英語と日本語のように種類や数など多くはない。 この点については後節で詳しく述べることにする。




3.3 日本語と韓国語の語彙の特性

次に両言語の語彙の特性について考察してみよう。 日本と韓国は昔から中国の文化や言葉の影響を強く受けてきているため、 現在でも漢字や漢語の多くが共通している。 その変遷と詳しい内容は[2],[5],[6]を参照されたい。 また、[8]によると、 現代韓国語の語彙は固有の韓国語は35%、漢字・漢語起源のものが60%,外来語が5%からなっている。 その中でも漢字・漢語起源のものは中国からのもの(例:自然、天地)、 韓国で作られたもの(例:便紙 "letter"、福徳房 "real estate agency")、 また日本から逆輸入されたもの(例:飛行機、旅行)がある。 特に19世紀からは多くの漢語が日本から韓国、中国へ影響を及ぼすようになる。 「消防車」、「消化器」、「飛行機」、「旅行」など およそ漢字・漢語起源の10%が日本からのものである。 その後も多くの専門用語等が日本で作られ、韓国や中国に輸出され、 [5]によると、2,635語の内38%が日本で作られたものである。 また、韓国語の漢字語の約7割が日本語と共通しているともいわれている[10]

最近、日本語の「写真機」、「昇降機」などは「カメラ」、「エレベータ」など 外来語に交替しているので、これらの単語を機械翻訳する際には語彙選択に注意する必要がある。 [1]によると、日本語の語彙の54%が漢字・漢語由来のものであり、 6%が外来語、 40%が日本語固有のものであると報告されている。 これらの多くの漢字・漢語は日韓機械翻訳の時にかなり有効である。 次の例をみると、漢字語はそのまま出力しても正しいし、ハングルに直しても良いからである。

日英、英日の機会翻訳に厄介な性や数は、日韓、韓日においてまったく問題にならない。 例えば、次のような文を韓国語に訳すとそのまま訳しても問題ないが、 英語、フランス語に訳する時は、性、数に関する知識がないと正しく訳すことができない。

また、両言語とも敬語の体系があり、 これも他の言語の敬語システムに比べると、非常に類似している。 同じ文化圏に属しているので、大概の場合言葉に対する感覚や使い方が理解しやすいことから、 両言語の機械翻訳はやりやすいことが分かる。




4. 翻訳処理の構成

本節では、日韓翻訳の簡単な翻訳手法を提案し、翻訳処理過程と実際の翻訳の例を紹介する。




4.1 処理の構成

実現が容易な手法であるためには、必要とするデータは容易に入手できるものでなければならない。 ただし、変換辞書の構築は極めて大きな課題であるが、 詳細は別稿に譲り[6],[7],[9]、 ここでは変換辞書の存在を前提として、翻訳対象言語の類似性を前提とした処理の構成を検討する。

機械翻訳は、一般に、原言語解析、言語変換、目的言語生成により行なわれる。 原言語解析の最初に行なわれる形態素解析では、 原言語表現に含まれる単語を見出す役割を担っている。 このため、単語辞書を参照して単語の可能性を総当たり的に探索して単語グラフを作成し、 別途作成しておいた単語の連接の可否を判定するための統計情報を用いて、 単語分割の妥当性を判定する方法が多く行なわれている。 これを類似言語間の翻訳に応用すると、次のような構成が考えられる。

(1)原言語表現を変換辞書と照合することにより、 単語候補とその訳語を単語グラフの形で取り出す。
(2)単語グラフの適当なリンクごとに目的言語コーパスを検索し、 出現度数を妥当性として集計する。
(3)出現度数の値が大きい順で出力する。

ただし、日韓翻訳では、上記の構成のほかに次の2点が必要となる。

日本語の動詞や形容詞等は活用するので、この語形変化に対応することが必要である。 日本語の活用は正規文法で記述できることが知られているが、 本稿では茶筌[12]で代用する。 変換辞書との照合では単語候補が得られなかった部分を対象として、 それが茶筌の単語開始位置と一致していれば、(1)の結果に追加する。

韓国語は日本語と異なりわかち書きが必要となる。 (2)で目的言語コーパスを検索する際、 単語候補を結合した場合と単語候補の間に空白を狭んだ場合の2種類の検索を行ない、 出現度数が大きい方を選択する。

以上の方法は、変換辞書を別にすれば、 単言語コーパスは対訳コーパスに比べはるかに入手が容易であることから、 容易に実現できると考えられる。 なお、機械翻訳の原言語解析では、単語レベル、構文レベル、 意味レベル等での多義性解消も目的の1つに挙げられるが、 ここでは文法的類似を前提として、この問題には立ち入らない。

次節では、上記の方法による日韓翻訳の試行実験について述べる。




4.2 翻訳例

下記はATRの日韓旅行会話集から取り出した文である。 Jは日本語の入力文を表す。 Kは日本語の入力文を予め翻訳した訳文である。 ここでは、Kを正訳文として見做す。 対訳辞書だけで翻訳された文は(1)から(7)までで、 対訳辞書引き後、コーパス上の頻度数の順で並べた。

(1)(139 . "가장 저렴/싱글/는 어/얼마입니다 하는가.")
(2)[K:] kajang jeoryeom/singgeul/nun eo/eolma-ibnida haneunga.
(3)(139 . "가장 저렴/싱글/는 어/얼마입니다는가.")
(4)[K:] kajang jeoryeom/singgeul/nun eo/eolma-ibnida-nunga.
(5)(137 . "가장 저렴/싱글/는 어/얼마입니다 모기.")
(6)[K:] kajang jeoryeom/singgeul/nun eo/eolma-ibnida mogi.
(7)(136 . "가장 저렴/싱글/는 어/얼마입니다 하는가/?")
(8)[K:] kajang jeoryeom/singgeul/nun eo/eolma-ibnida haneunga/?
(9)(136 . "가장 저렴/싱글/는 어/얼마입니다는가/?")
(10)[K:] kajang jeoryeom/singgeul/nun eo/eolma-ibnida-nunga/?

まず、次のように対訳辞書を引き始める。

(1) "一"からはじめ、語になりうるものを全部引き出す。:"일-il"、"하나-hana"、 "같음-katteum"、 "제일-jeil"ののような韓国語の対訳が選ばれる。
(2) "一番"を取り、同じようにそれに当たる韓国語の対訳を探す。
(3) "安い"を"安"から引き始める。
(4) "シングル"は "シ"、"シン"、"シング"のような組み合わせは日本語にはないので、 "シングル"にまとめて韓国語を探した結果、"싱글-singgeul"と訳すことができる。

このような辞書引き結果は[付録]に示してある。




5. 実験

本節では日韓対訳辞書とコーパスを利用した試行実験と、 その後整備した対訳辞書と大きくしたコーパスを利用した実験について述べる。




5.1 試行実験

利用した日韓変換辞書の規模は約35,000語であり(注2)、 日本語1語に対し1個以上の韓国語表現が対応付づられている。 また、韓国語コーパスは約20,000文(注3)である。 コーパスは旅行会話に関するものである。




5.2 翻訳結果

旅行会話文から無作為に100文を取り出し、どれだけ正しい訳に近いか評価した。 評価はType A, Type B, Type C, Type D, Type Eの5段階評価で、 その中でコミュニケーション可能なのはType A, Type B, Type Cと見做す。

試行実験結果は以下のようである。

  Type A    Type B    Type C     Type D    Type E     Total   
632122921100

表2 試行実験




5.3 考察

翻訳の中で"/"が挿入された箇所は、韓国語コーパスを用いて単語連接の可否を判定する際に、 その前後の単語がコーパスの中に存在しなかったため、 空白を入れるべきかどうかの判定ができなかった箇所を示す。

これは予想した通り、助詞の問題や動詞の語尾変換の問題に起因する。 これは対訳辞書だけを用いたことにより方式的限界であるといえる。 この問題を克服するためには、助詞と活用語に対し、 他のルール等を用いる必要があることを意味する。 ここでの問題は、"安い"が「形容詞 ("저렴" adj)」となってしまったのである。 これは対訳辞書上、形容詞の処理が辞書上の形容名詞になっていて、 本来形容詞につく語尾がついてないため、 「"저렴/싱글"(安さ/シングル)」のような不自然な訳になっている。 これに対しては「저렴한」("安い")を辞書に登録することにより、 文末の語尾変化以外は良い訳になることが期待できる。




5.4 実験2

試行実験の結果により明かになった問題を克服するため、 辞書およびコーパスに下記の改良を施し、翻訳精度の向上を試みた。 以下に実験2で用いた辞書およびコーパスの改良を示す。 本改良は、韓国語母語話者または韓国語知識だけを利用して行った。

(1)助詞と活用語に問題を克服するため、辞書に登録されていなかった韓国語の助詞をすべて登録 (子音および母音後の適切な助詞選択を狙う。)
(2)以前は未登録であった現在形と過去形の活用形を対訳辞書に登録
(3)文末で疑問形だけが別に訳されるという問題を克服するため、正しい疑問形が出力できるように調整
(4)試行実験の5.3節の139の文のような問題を回避するため、 コーパス照合結果に基づき、分かち書きをするように改良
(5)対訳辞書を見直し (全5万6千見出し)
(6)目的言語コーパスを拡充(のべ15万6千文、異なり10万6千文)

実験は100文を対象に2回行った。 また、結果の評価は試行実験と同じ基準により行った。 評価の結果は表2の通りである。

  Type A    Type B     Type C    Type D    Type E      Total   
Test A2418103216100
Test B3611121625100

表3 実験2




5.5 考察

試行実験後調整した対訳辞書と韓国語コーパスを用いて実験が行われた結果、試行実験に比べると、 コミュニケーション可能な訳文の割合が平均50%から55.5%に向上するとともに、 理解不可能な文は29%から24%に減少した。 特に、Type Aは6%から30%のように顕著に改善されている。

平均2割が未登録の為、訳文が出なかったかまたは途中で切れた場合であった。 そのなかでも活用形が二つ以上つながっている文は翻訳できないものもあるが、 多くの場合は対訳辞書に登録することで2割近く翻訳できるようになる。 さらなる未登録語の登録により、平均約76%の文が理解可能な文として翻訳することが予想される。




6. まとめ

本研究では、類似言語間の翻訳において、 翻訳知識の開発コストと翻訳品質の関係を定量的に示すことを目的として開始した。 特に、(1)名詞に後置詞が付加される、(2)形容詞が名詞に先行する、 (3)主語-目的語-動詞の語順をとる、という特徴を持つ言語間の翻訳を対象とし、 第1ステップとして、変換規則を使わない日韓翻訳実験を開始した。 第2ステップとしては対訳辞書と目標言語を調整及び整備しそれと翻訳との関係を検討した。 また、この方法により受容可能な翻訳がどれくらい得られるか 翻訳失敗の原因がどのような言語現象によるか、等を定量的に分析した。

実際、初めから変換ルールを構築し翻訳に取り組もうとするとかなりの開発コストを要する。 しかし、辞書作成が終わった段階であれば、 本研究で取り上げたような翻訳機構を実現するのは極めて容易である。

今後の課題としては、対訳辞書改良およびコーパスの整備をしながら、 両言語の翻訳の失敗の原因である言語現象、 例えば、数量表現および数量表現の修飾語(注4), 助詞の省略(注5)、 動詞の共起関係(注6)、 または慣用表現の問題等、詳しく分析し精度の向上に向けて改良していきたい。




文献

[1]
A. E. Backhouse. The Japanese Language: An Introduction. Oxford University Press, Oxford, 1993.

[2]
WonJae Chang. A study on the use of nihonkango in the Korean language in the late 19th century: focusing on forms of kango which were the same in Japan and Korea. Japanese Linguistics, 8:76-95, 2000. (in Japanese).

[3]
O Furuse, Sobashima Y, T. Takezawa, and N. Uratani. Bilingual corpus for speech translation. In AAAI-94 Workshop on Integration of Natural Language and Speech Processing, pages 84-91, 1994.

[4]
Joseph H. Greenberg, editor. Universals of Human Language. Stanford University, 1978.

[5]
Manseup Lee. Chinese character vocabularies shared by Japanese and Korean. Nihongogaku, 3(8), 1984. (in Japanese).

[6]
Kyonghee Paik, Francis Bond, and Satoshi Shirai. Using multiple pivots to align Korean and Japanese lexical resources. In Workshop on Language Resources in Asia, NLPRS-2001, pages 63-70, Tokyo, 2001.

[7]
Satoshi Shirai and Kazuhide Yamamoto. Linking English words in two bilingual dictionaries to generate another language pair dictionary. In ICCPOL-2001, pages 174-179, Seoul, 2001.

[8]
Ho-Min Sohn. The Korean Language. Cambridge Language Surveys. Cambridge University Press, 1999.

[9]
Kumiko Tanaka and Kyoji Umemura. Construction of a bilingual dictionary intermediated by a third language. In 15th International Conference on Computational Linguistics: COLING-94, pages 297-303, Kyoto, 1994. (http: //xxx.lanl.gov/abs/cmp-lg/9410020).

[10]
Kiruyon Watanabe and Takao Suzuki. Chousengo no susume [A recommendation for Korean]. Koudansha, 1981.

[11]
Kazuhide Yamamoto. Keisankishori no tameno kankokugo gengo taikei to keitaiso shori. Journal of Natural Language Processing, 7(4):25-62, 2000.

[12]
Matsumoto Yuji, Kitauchi, Yamasita, Hirano, Matsuda, and Asahara. Nihongo Keitaiso Kaiseki System: Chasen, version 2.2.1 manual edition, 2000. url=http://chasen.aist-nara.ac.jp.



[付録]

  一     가  
  맨     일    하  
  같  
  제  















  …  







?





Footnote
(注1) 参考のためpo-AN-SOVは全言語列挙した。 またKoreanは文献[4]には記述がないので我々が追加した。 (Return))
(注2) 文献[3]の実験に使用された日韓変換辞書を拡張した。 拡張に当たっては文献[11]に基づいて韓国語の品詞を付与した。 (Return))
(注3) 文献[3]のコーパスの一部に韓国語訳を付与した。 (Return))
(注4) 「このぺんをもうひとつください。」の場合、「もうひとつ」は韓国語に訳すと 「하나 더」"one more"のように修飾語の位置が変る。 (Return))
(注5) 主に、「の」の訳が韓国語では省略されるか、別の語「인」で訳される場合がある。 (Return))
(注6) 「罪を犯す」の「犯す」は韓国語では 「범하다」[K:]beom-hada "commit"であるが 「罪を犯す」の場合は「짓다」[K:]jis-da "make"の方がより自然である。 このような場合、今までは辞書に両方登録し、コーパスでどちらかを選ぶようにしている。 しかし、この方法では対訳辞書とコーパスだけを用いるので、 旅行会話のようなコーパス上あまり出現しない表現は正しい翻訳結果を得ることが困難である。 (Return)