カタカナ表記述語の日英機械翻訳

松尾 義博    小林 正裕+    白井 諭

NTTコミュニケーション料学研究所    電気通信大学+



[ 情報処理学会第55回全国大会,Vol.2 , pp.66-67 (1997.9). ]
[ In Proceedings of 55th Annual Meeting of IPSJ, Vol.2, pp.66-67 (September, 1997). ]



Japanese-to-English Translation of 'katakana' Predicates
Yoshihiro Matsuo, Masahiro Kobayashi+ and Satoshi Shirai
NTT Communication Science Laboratories    Uinversity or Electro-Communications+



INDEX

     1 はじめに
2 カタカナ表記述語の特徴
  2.1 タイプI: 単純動詞/形容詞
  2.2 タイプII: ing型
  2.3 タイプIII: 名詞
  2.4 タイプIV: 動詞+副詞
  2.5 タイプV: 名詞+動詞
  2.6 タイプVI: その他
3 変換ルールとその効果
4 おわりに
  参考文献



1 はじめに

日英機械翻訳において、カタカナ表記の外来語をどうやって取り扱うかは大きな問題である。 カタカナ外来語の問題点は、新語が多いために辞書登録が事実上不可能なことである。 そのため、カタカナ表記からの英語表記の 自動推定[1][2]や、 英語表記からカタカナへの自動変換[3][4]などが 提案されている。 また、英語辞書と英語解析を用いることにより、 高い精度で英語へ翻訳する手法[5]も提案されている。

しかし、これらの手法では、カタカナ語そのものを英語にすることを目的にしており、 翻訳されたカタカナ語を如何に全体訳文中に合成するかについてはあまり考慮されていなかった。 カタカナ語が名詞であれば、そのまま英語名詞句として埋め込むととにより、 ある程度の訳か得られることが多いが、 述語として使われた場合には、何らかの構造変換が必要となる。

本稿では、カタカナ表記述語の構造を分析し、英語への変換ルールを検討する。 また、日英機械翻訳への適用について報告する。




2 カタカナ表記述語の特徴

実際にカタカナ述語かどのような構造を持っているかを分類するために、 日本経済新聞90日分(147,907文)中のカタカナ表記語について調査を行なった。 結果を表1に示す。 調査の結果、カタカナ語の総数は144,309で、約1文に1つのカタカナ語が合まれている。 カタカナ述語(動詞と形容動詞)の総数は、2,091で全体の約1.5%に相当する。 その他の大部分は名詞である。

表1: 新聞中のカタカナ述語数
語数異なり
カタカナ+する1,758204
(日本語)35040
(外来語)1,408164
カタカナ+だ333110
(日本語)5822
(外来語)27588
カタカナ述語の合計2,091314
カタカナ語総数144,30915,155

日本語も一部カタカナ表記されている(例: ヤケドする)が、 以下の調査では、外来語のもの(動詞164種、形容動詞88種)を対象にする。 外来語のうち、出現頻度の上位語を表2に示す。 調査では、学研電子英和辞書(語数: 約5万語)を用い、同辞書の品詞分類に従って調査した。

表2: 頻度上位語
出現回数
スタートする280
チェックする80
ストップする69
リードする68
カバーする66
ユニークだ49
エスカレートする34

分類は、カタカナ語を英語並びとして見た場合の品詞列によって行ない、 I〜VIの6分類を得た(表3)。

表3: カタカナ述語の型分類
動詞形容動詞合計
I.単純動詞/形容詞 10285187
II.ing型 10-10
III.名詞 14-14
IV.動詞+副詞 18-18
V.名詞+動詞 6-6
VI.その他 14317
合計 16488252




2.1 タイプI: 単純動詞/形容詞

「キャッチする」や「ダーティーだ」のように対応する英語が単語であり、 品詞が動詞または形容詞のものである。 調査対象の252語のうち187語(74%)が、この種であった。




2.2 タイプII: ing型

「シールディングする」や「コーティングする」などのように、 カタカナ表記か「-iング」であり、英語の原型が動詞であるものである。 コーパス中に10語出現した。




2.3 タイプIII: 名詞

「スピーチする」や「シミュレーションする」などのように、名詞に「する」がついたものである。 そのままでは英語にすることはできず、“make a speech”のように何らかの動詞を付加するか、 “simulate”のように動詞派生語を用いる必要がある。




2.4 タイプIV: 動詞+副詞

「フォローアップする」や「チェックインする」などのように、動詞と副詞の連続である。 英語にするには、“I follow it up”のように群動詞として扱う方法か考えられる。 また“follow-up”や“check-in”は一語の名詞としても辞書記載されているため、 タイプIIIと同様に何らかの動詞を補う方法も考えられる。




2.5 タイプV: 名詞+動詞

「バトンタッチする」「モデルチェンジする」などのように、名詞と動詞が連続したものである。 前の名詞が後ろの動詞の格要素になっているものが多いが、そのまま英語にするのは困難である。




2.6 タイプVI: その他

「アンケートする」などの非英語や、 「ベースアップする」などのI〜Vの分類に含まれない品詞並びの語である。




3 変換ルールとその効果

前節の分類のうち、比較的簡単な規則で英語に変換できると思われる 「タイプI: 単純動詞/形容詞」と「タイプII: ing型」について、 表4の変換規則を作成し、翻訳正解率を調査した。 調査では、カタカナ述語を含む単文を作成し、 本規則で翻訳した時に正しい意味に訳せる割合を求めた。 作成した単文は新聞記事から抽出した文から修飾句を除いて簡単にした文である。 英語辞書を用いればカタカナ表記から英語綴りをほぼ正確に得られることが 示されているので[5]、 調査では正しい英語綴りが得られているものとして検討する。

表4: 変換ルール
カタカナの条件変換処理
(自動詞)+する[ガ格]→SUBJとする
(他動詞)+する[ガ格]→SUBJ、[ヲ格]→OBJとする
(ing)+する原型動詞と同じ扱いとする
(形容詞)+だ[ガ格]→SUBJとする

結果は、タイプIとIIの197語中、170語(86%)が正しく訳せることがわかった。 この語数は、カタカナ外来語述語の総数252語のうちの67%にあたる。 翻訳に失敗した27語の分類は、以下のとおりである(件数は表5)。

他動詞なのにラ格なし    英語では他動詞であるが、日本語にヲ格がなく、翻訳できなかったもの。 正しく翻訳するには何らかのゼロ代名詞補完処理が必要である。
前置詞選択の誤り    「〜をアピールする」 → 「appeal for 〜」などのように、 決まった前置詞を訳出する必要があるもの。 品詞のみの情報を用いての機械的な翻訳は困難であり、 正しく翻訳するには格パタン記述が必要である。
意味が異なる    原文とは異なる意味の訳文になるか、全く意味か通じないもの。

表5: 翻訳失敗の分類
翻訳失敗の原因件数
他動詞なのにヲ格なし3
前置詞選択の誤り4
意味が異なる20
合計27




4 おわりに

従来未知語となり、翻訳不能となるととが多かったカタカナ述語の構造の分類を行ない、 そのうち67%が簡単な変換ルールと英語辞書の情報のみで翻訳できることを示した。 本翻訳規則はNTTの日英機械翻訳実験システムALT-J/E[6]に 組み込まれている。




参考文献

[1]
野美山, “カタカナ外来語の表記の揺れの解消”, 41回情処全大, 3-191 (1990)

[2]
Knight, K. and Graehl, J., “Machine Transliteration”, ACL97, (1997)

[3]
宮内, “カタカナ表記からの英単語検索シスナムの実現”, 自然言語処理, 97-17 (1993)

[4]
堀内, 山崎, “英単語のアルファベット表記から仮名表記への変換”, 自然言語処理, 79-1 (1990)

[5]
松尾, 畑山, 池原, “英語辞書と英文法を用いたカタカナ表記語の翻訳”, 53回情処全大, 2-65 (1996)

[6]
Ikehara, S., Shirai, S., Yokoo, A. and Nakaiwa, H., “Toward an MT System without Pre-Editing -Effects of New Methods in ALT-J/E-”, MT Summit III, (1991)