機械翻訳システムを開発する上で対象とする言語間の対訳辞書を実現することが必須である。 通常これを人手に頼るため,時間的人的コストが問題となる。 そこで我々は,既存の言語資源の再構成による対訳辞書の構築を試みた。 具体的には,韓日対訳辞書の生成を目的として,韓国語単語に対する英訳語の集合を韓英辞書から取り出し, これと類似度の高い英訳語の集合を持つ日本語単語を日英辞書に見出し,この韓国語単語と日本語単語を対訳語として結び付けた。 ここで,類似度はそれぞれの英訳語集合の一致する割合に基いて定義した。 韓英辞書から無作為に抽出した韓国語単語1,000語を用いた試行実験によると, うち365語に対し日英辞書の日本語単語への結び付けに成功し,類似度が0.8以上のものでは72%の対訳の正解率が得られた。
変換辞書 辞書生成 共通言語 訳語類似性
In developing a machine translation system, one of the difficult tasks is how to build a transfer dictionary. It has been built by human labor from scratch in most cases, but it is very ineffective from the viewpoint of cost and time. To avoid this problem, we generate a Korean to Japanese dictionary, taking advantage of existing linguistic resources, which is a Japanese to English dictionary and a Korean to English dictionary for the present goal. First, we extract some sets of English words corresponding to Korean words from a Korean to English dictionary. Second, we search for Japanese words having English equivalents which are similar to Korean counterparts in meaning. Finally, we link the Korean words to Japanese ones. The degree of similarity is determined according to how many translated words are shared between Korean and Japanese. We test 1,000 Korean words extracted at random and get 365 appropriate Japanese words. The result shows 72% are accurate for degree of similarity 0.8 and above.
bilingual dictionary, dictionary generation, intermediate language, similarity of translation
| 1 はじめに | |
| 2 従来の手法 | |
| 3 我々の手法 | |
| 4 試行実験 | |
| 5 考察 | |
| 6 おわりに | |
| 謝辞 | |
| 参考文献 |
機械翻訳システムの開発に際しては対象とする言語対に応じた原言語と目的言語の対訳辞書を作成する必要があるが, それには人的,時間的に多大なコストを要する。 特に,一方の言語があまり馴染みがないとき,すなわち,使用者が比較的少数のときは,次の問題も避けて通れない。 両言語に通じた開発要員を確保するのが困難である。 参考資料として利用可能な人間用の対訳辞書すら存在しないことも考えられる。 多言語翻訳はこのような条件下での実現可能性を議論することも必要である。
しかし,原言語と目的言語を対象とする対訳辞書が存在しなくても,第三の言語,特に英語について, 原言語と英語の対訳辞書,および,目的言語と英語の対訳辞書が存在する可能性は高い。 すなわち,英語を介した対訳辞書の生成が現実的に有効であると考えられる1。 このような資料を有効利用することにより,任意の言語間の対訳辞書を生成する手法の確立が期待される。
第三の言語を介して原言語と目的言語の対訳辞書を生成する手法が田中らにより提案されている [田中94,田中98]。 しかし,報告では「既存の辞書の語彙の見直しや補填に役立つ」という効果にとどまっている。 一方,GETA CLIPSは複数の英訳辞書を組み合わせることにより多言語対訳辞書を構築している [Lafourcade97,Boitet01]。 これは人間による辞書構築に対する作業支援を前提としたものである。 我々は,田中らの手法には基本的な要素技術はほぼ網羅的に提案されているが, それらの適用には改良すべき点があると考え,工学的に利用可能な方法への再構築を試みることにした。
以下では,第三の言語を英語と想定し,原言語から英語への対訳辞書, 目的言語から英語への対訳辞書を用いて原言語と目的言語の対訳辞書を生成する方法について検討する。 また,手法の汎用性を保証するため,原言語または目的言語の語彙情報を利用しないこととする。 訳語対の妥当性の検証が容易でないことを踏まえ,訳語対の抽出率よりも, 抽出された訳語対の正解率を確保する方法の実現を目指す。 具体的な適用として,韓英辞書と日英辞書を用いた韓日辞書生成の試行実験について述べる。
第三の言語を介して原言語と目的言語の対訳辞書を生成する手法が田中らにより提案されている [田中94,田中98]。 彼らの方法の概略は次の通りで,英語を媒介として日仏辞書の生成を試みている。
この結果,「現存の辞書と比較して,結果の対訳辞書の品質を確かめ, 既存の辞書の語彙の見直しや補填に役立つことがわかった」と報告している。
我々は,日本語と韓国語を対象に自動的な対訳辞書の生成を考えた場合,田中らの方法には次の問題があると考えた。
田中らの手法は,基本的に対訳語の抽出率を重視し,汎用的な手法の実現を目指したと思われるが, 報告されている範囲では十分な効果をあげていない。 そこで我々は,田中らの方法を見直すことにより,工学的に利用可能な手法の確立を目指すことにする。
手法の検討に当り,我々は次の前提を設けた。なお,媒介として使用する言語を「照合言語」と呼び,英語に限定する。
(1)は必須条件である。 (2)は必須条件とは言えないかも知れないが,あまりなじみのない言語への適用を目指すことから, 本検討では必須条件に準じて考えることにする。 これにより手法の汎用性を格段に向上させることができる。 (3)は任意条件であるが,原言語と目的言語の性質には依存しないし, また,英語が人間同士のコミュニケーションにおいて事実上の共通言語として機能していることから, これを加えても手法の汎用性が失われることはない。 これに対して,(4)は現実的に可能であるが,手法の 汎用性に問題を生じる場合も考えられるので, (1)(2)(3)と分けて議論する必要がある。 ただし,本稿では(3) と(4)は提案にとどめる。
以上の前提の上で,韓日辞書の生成に焦点を絞って,次の方法を試みることにする。
まず,2節の理由により,調和辞書を用いないこととする。 日本語と英語では言語的な性質が大きく異なっており, 日本人用の和英辞書と英和辞書ではその編集方針が大きく異なっていると考えられる。 また,韓国語と英語についても同様のことが言える。 そこで第1ステップとしては,自然な韓国語に対して自然な日本語を与えるという目的で,韓英辞書と日英辞書だけを用いる。
韓日の単語対応を判定する方法としては,田中らの「1回逆引き法」を利用する。 すなわち,韓英辞書から韓国語単語に対する英訳語集合を取り出し,また,和英辞書から日本語単語に対する英訳語集合を取り出し, この双方の英訳語集合のうち共通語が多いものを対訳関係にあると判定する。
韓英辞書として“Yahoo! Korea”が提供しているオンライン辞書[Yahoo]を利用した。 この辞書の規模は序文3によると約10万語である。 また,日英辞書として“学習研究社”の“ニューアンカー和英辞典”[山岸91]を使用した。 この辞書の規模は見出し語21,170語である。
評価を容易にするため,韓日辞典[小学館93]から無作為に韓国語単語1,000語を抽出し, 評価対象の単語集合とした。 この1,000語について韓英辞書を検索し,検索結果に含まれる英訳語を単純に取り出して英訳語集合とした。 使用した英韓辞書では語義の区分が明示されているが,今回の実験ではそのうち大区分を考慮した。 また,日英辞書については,語義の区分は考慮せず,見出し語ごとに単純に英訳語集合を取り出した。 これらの英訳語集合のうち類似度の高いものを抽出し,その英訳語集合を与える韓国語と日本語を対訳対として抽出した。 ここで,類似度は次のように定義した。なお,英訳語の一致,不一致の判定は単純な文字列完全一致により行なった。
| AとBで共通する英訳語数 × 2 | ||
| Aの英訳語数 + Bの英訳語数 | ||
| A : 韓英辞書による韓国語単語に対する英訳語集合 | ||
| B : 日英辞書による日本語単語に対する英訳語集合 | ||
正誤の判定は類似度0.5以上のものを対象として,翻訳家に依頼した。韓日の訳語対としては925件が得られ, うち409件が正解と判定された。 韓国語単語の異なりごとに集計した結果を表1と表2に示す。 表において「正否混在」は類似度または一致数が最上位同点の集合に正解と失敗が混在した場合である。
| 類似度 | 抽出数 | 正解数 | (正解率) | 正否混在 | 失敗数 | 一致数2以上の正解率 | |
| 1.0 | 89 | 66 | (74.1%) | 11 | 12 | 82.6% | (19/ 23) |
| 〜 0.9 | -- | -- | -- | -- | -- | ||
| 〜 0.8 | 20 | 13 | (65.0%) | 2 | 5 | ||
| 〜 0.7 | 1 | 0 | ( 0.0%) | 0 | 1 | 0.0% | ( 0/ 1) |
| 〜 0.6 | 118 | 64 | (54.2%) | 15 | 39 | 70.3% | (19/ 27) |
| 〜 0.5 | 137 | 64 | (46.8%) | 28 | 45 | 57.1% | (28/ 49) |
| 計 | 365 | 207 | (56.7%) | 56 | 102 | 66.0% | (66/100) |
| 一致数 | 抽出数 | 正解数 | (正解率) | 正否混在 | 失敗数 |
| 5 | 1 | 1 | (100.0%) | 0 | 0 |
| 4 | 1 | 1 | (100.0%) | 0 | 0 |
| 3 | 25 | 15 | ( 60.0%) | 5 | 5 |
| 2 | 97 | 66 | ( 68.0%) | 11 | 20 |
| 1 | 241 | 124 | ( 51.4%) | 40 | 77 |
| 計 | 365 | 207 | ( 56.7%) | 56 | 102 |
単に類似度を見ただけでは正誤判定は確実ではない。 そこで,英訳語が一致した数の多いものを優先した後,類似度を調べることとした。 これにより,(参考例)のように若干の順位変動が発生し,概して最上位の正解率が向上する。
| [韓英辞書または日英辞書の見出し語] | [対応する英訳語] | ||||
| 一致数 | 類似度 | 正否 | K: (ma-seu-theo) |
master|proprietor | |
| J1: | 2 | 0.57 | ◯ | マスター | manager|owner|proprietor|master|learn |
| J2: | 1 | 0.67 | × | 身につける | master |
| J3: | 1 | 0.67 | × | 一芸 | master |
| J4: | 1 | 0.50 | △ | 旦那 | master|hubby |
| J5: | 1 | 0.50 | △ | 親方 | master|boss |
| J6: | 1 | 0.50 | × | 熟達 | master|become proficient in |
次に,類似度が同点の場合の扱いが問題となる。 田中らは3言語間の単語の対応関係をグラフ化することにより多義性の排除を行なっている[田中98]。 その分類を参考にして,原言語,照合言語,目的言語の対応関係と正解率の関係を分析した。 その結果,英訳語集合の一致の具合,韓日の対応付けに使用されなかった英訳語の有無, 得られた日本語が1個か複数個かにより,次の5つに分類することにした。各分類に該当する件数を表3に示す。
| 型 | 分類 | 訳語対の数 | 備考 一致数2以上の正解率 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 該当数 | 正解数 | (正解率) | 正否混在 | 失敗数 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| (a) |
|
89 | 66 | (74.1%) | 11 | 12 | 82.6% | (19/ 23) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| (b) |
|
199 | 127 | (63.8%) | 16 | 56 | 63.4% | (64/101) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| (c) |
|
53 | 12 | (22.6%) | 18 | 23 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| (d) |
|
24 | 2 | ( 8.3%) | 11 | 11 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| (e) |
|
635 | 0 | ( 0.0%) | 0 | 635 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(a)韓英,日英の英訳語集合が完全に一致する場合。 (例1と例2)
得られた日本語の候補が単一であるか複数個あるかに関わらず,抽出された訳語対の正解率は高いといえる。 このうち,英訳語集合が1個だけの妥当性は低めであるが, 英単語の多義性の多寡4を考慮することにより,誤りを排除できる可能性が高い。
| 一致数 | 類似度 | 正否 | K: (teu-ra-ma) |
drama|play | |
| J1: | 2 | 1.00 | ○ | 芝居 | play|drama |
| J2: | 2 | 1.00 | ○ | 劇 | drama|play |
| J3: | 2 | 1.00 | ○ | 戯曲 | drama|play |
| J4: | 2 | 1.00 | ○ | 演劇 | drama|play |
| J5: | 2 | 1.00 | ○ | ドラマ | drama|play |
| J6: | 1 | 0.67 | × | 遊ばせる | play |
| J7: | 1 | 0.67 | × | 弾く | play |
| J8: | 1 | 0.67 | × | 演奏する | play |
| J9: | 1 | 0.67 | × | 羽を伸ばす | play |
| Ja: | 1 | 0.67 | × | ごっこ | play |
| Jb: | 1 | 0.50 | × | 遊戯 | play|game |
| Jc: | 1 | 0.50 | × | 演じる | play|perform |
| 一致数 | 類似度 | 正否 | K: (pi-yak) |
jump|leap | |
| J1: | 2 | 1.00 | × | ジャンプする | jump|leap |
| J2: | 2 | 0.80 | × | 跳ぶ | jump|leap|hop |
| J3: | 2 | 0.67 | ○ | 飛躍 | rapid|great|jump|leap |
| J4: | 1 | 0.67 | × | 跳躍する | jump |
| J5: | 1 | 0.50 | × | 飛び込む | jump into|jump |
| J6: | 1 | 0.50 | × | 飛びかかる | leap at|leap |
| J7: | 1 | 0.50 | ○ | 跳躍 | jumping|jump |
| J8: | 1 | 0.50 | △ | ジャンプ | jump|ski jump |
”。)
(b)英訳語が1語以上一致し,得られる日本語が原則として1語に絞られる場合 5。(例3と例4)
英訳語が2語以上一致するとき抽出された訳語対の正解率はかなり高いが,1語のときは疑わしい。 類似度の閾値により(例えば,閾値を0.8以上),正解率を高めることは可能である。 しかし,韓英辞書や日英辞書の記述に従って語義ごとに分割して英訳語集合を作成したり, 英訳語の記載順序を考慮したりする方が,正解率の向上には効果があるかも知れない。
| 一致数 | 類似度 | 正否 | K: (kwan-jeom) |
point of view|viewpoint|standpoint|angle | |
| J1: | 3 | 0.86 | ○ | 見方 | point of view|viewpoint|angle |
| J2: | 3 | 0.86 | ○ | 観点 | point of view|viewpoint|angle |
| J3: | 3 | 0.67 | △ | 角度 | angle|point of view |
| J4: | 2 | 0.67 | ○ | 視点 | point of view|viewpoint |
| J5: | 2 | 0.67 | ○ | 見地 | standpoint|point of view |
| J6: | 2 | 0.50 | ○ | 立場 | position|stand|standpoint|point of view |
”。)
| 一致数 | 類似度 | 正否 | K: (kko-bu-ri-da) |
stoop|blow|bend|crook|curve|inflect | |
| J1: | 3 | 0.60 | × | カーブ | curve|bend|curve|curveball |
| J2: | 2 | 0.50 | ○ | 屈める | bend|stoop |
(c)英訳語が1語一致するが,それを指す日本語単語が複数ある場合。(例5と例6)
韓英,日英の双方に未対応の英訳語があれば,それらの同義関係を考慮することにより,訳語対の正解率が向上する可能性がある。 韓英から得られる英訳語が1語だけのときは,得られた複数の日本語単語は同義関係にある場合が多い。 英単語の多義性の多寡を考慮するのが有効かも知れない。
| 一致数 | 類似度 | 正否 | K: (sal-buth-i) |
ones kith and kin|relative|kinsfolk | |
| J1: | 1 | 0.50 | ○ | 身内 | relative |
| J2: | 1 | 0.50 | ○ | 身寄り | relative |
| 一致数 | 類似度 | 正否 | K: (pab-wang) |
tathagata|buddha | |
| J1: | 1 | 0.50 | × | 仏の | buddha-like|buddha |
| J2: | 1 | 0.50 | ○ | 仏 | the buddha|buddha |
”。)
(d)韓英の英訳語が2語以上あり,それぞれに1対1で対応する日本語単語がある場合。(例7と例8)
利用した辞書の情報だけでは妥当性の判定等は不可能であると思われる。 例7はすべて誤り,例8は正否混在であるが,すべて正解の場合もあった。 逆方向の辞書の利用について検討したい。
| 一致数 | 類似度 | 正否 | K: (kam-bang) |
cell|ward | |
| J1: | 1 | 0.67 | × | 病棟 | ward |
| J2: | 1 | 0.67 | × | 細胞 | cell |
| J3: | 1 | 0.50 | × | 電池 | battery|cell |
”。)
| 一致数 | 類似度 | 正否 | K: (peom-gwa) |
fault|wrong|wrongdoing | |
| J1: | 1 | 0.50 | ○ | 落度 | fault |
| J2: | 1 | 0.50 | × | 至らぬ | wrong |
”。)
(e)韓英で与えられる英訳語を含む日英の英訳語が見つからない場合。(例9と例10)
利用した辞書に記載されている情報の範囲では抽出は困難である。 ただし,(例9)のような例があるので,(c)と同様に,英訳語の同義性を考慮した英訳語の対応付け行なうことにより, 訳語対の抽出率を改善できる可能性がある。
| 一致数 | 類似度 | 正否 | K: (ka-eop) |
family occupation|ones trade | |
| J : | --- | --- | --- | (対応なし) | |
| 参考 (J:) | 家業 | family business|job | |||
”。)
| 一致数 | 類似度 | 正否 | K: (yeom) |
small stony island|rocky islet | |
| J : | --- | --- | --- | (対応なし) |
このほか,全体を通して誤りとなったものを概観すると,韓英辞書と日英辞書の規模の違いに起因すると考えられるものが散見された。 問題点を間単にまとめると,(1)日英辞書の見出し語数が少ないため得られた韓日対訳対が少なくなったのではないかという点と, (2)日英辞書に記載されている訳語情報の不足に起因するのではないかという点である。 今回の実験で用いた辞書の見出し語数は,韓英辞書が10万語に対し日英辞書が2.1万語であり,日英辞書の規模がかなり小さい。 また,辞書の規模が小さいと,見出し語数が少ないだけでなく,各単語の訳語情報が絞り込んで記載されている可能性が高い。 本稿のような実験への利用を考えた場合は,1見出し語あたりの訳語が数多く記載されている方が有利ではないかと思われる。 このあたりについても,可能な範囲で条件を変えながら検討する必要がある。
本稿では,対訳辞書構築のコスト削減を狙いとして,既存の辞書を利用した新たな対訳辞書の生成を検討した。 具体的な適用として,英語を照合言語として用いることにより,原言語と目的言語の対訳対を高い正解率で自動抽出する方法を報告した。 具体的には韓英辞書と日英辞書を用いて韓日の対訳対の抽出を試みた。 “Yahoo! Korea”が提供しているオンラインの韓英辞書から無作為に抽出した韓国語単語1,000語を用いた試行実験によると, うち365語に対し“学習研究社”の“アンカー和英辞典”の日本語単語への結び付けに成功し, 類似度が0.8以上のものでは72%の対訳の正解率が得られた。
本稿の実験では,韓英辞書と日英辞書を文字列処理により英訳語を切り出し,文字列一致により類似性を評価した。 すなわち,韓国語および日本語の何らの言語的な情報を使用していない。 従って,本稿の考察結果は,少なくとも対象言語が日本語または韓国語に類似していれば, 英訳辞書を利用して対訳辞書を生成する場合に適用可能であると考えられる。 また,準備の都合上,英語の言語的な情報も使用していないため,英語の言語的な情報の導入による改善が期待される。
今後は,次のような観点の導入により,訳語対の抽出精度の向上を目指す予定である。 まず,参照する対訳辞書の訳語の記載順序や語義の区分のように,表面的に容易に参照できる情報を利用する。 3節で述べた条件(3)として,照合言語である英語の言語的情報,例えば, 英語における同義関係にある語への置換,英単語の多義性を考慮に入れることとしたい。 同じく,3節で述べた条件(4)として,日本語または韓国語のどのような情報が正解率向上に有効であるかを検討したい。 5節の最後に述べたように,規模の異なる英訳辞書を使用した実験結果を比較することにより, 辞書の規模が正解率に及ぼす影響についても検討したい。また,今回の検討では対象外としたが, 英韓辞書や英日辞書の効果的な利用についても検討したいと考えている。
謝辞 実験結果の評価に多大なご協力を頂いた翻訳家の小谷昌彦氏に感謝する。
”の語釈の続きに記載されていた。 (参照元へ)