言語表現体系の違いに着目した日英機械翻訳機能試験項目の構成

Criteria for Evaluating the Linguistic Quality of Japanese to English Machine Translations

池原 悟* 白井 諭* 小倉 健太郎*
Satoru Ikehara Satoshi Shirai Kentarou Ogura


*NTTコミュニケーション科学研究所
NTT Communication Science Laboratories, Yokosuka 238-03, Japan.


1993年5月31日 受理


Keywords:

Japanese to English machine translation, criteria of evaluation, system of Japanese expressions, differences between Japanese and English.


Summary

This paper describes the design of a set of 6200 Japanese-English sentence pairs for testing Japanese to English MT systems. Japanese expressions are organized into 600 test items with consideration for the characteristics of both Japanese and English, an average of 10 sentence pairs were then made for each item.

In machine translation, translations between two very different languages (e.g. Japanese and English) are more difficult than between two similiar languages (e.g. Japanese and Korean). This is believed to be due to differences in morphology and in how things are conceived in different language groups. Therefore, we have focused our attention beyond morphological differences to cover differences in perception and concepts.

The process of constructing Japanese texts is examined at 5 levels (part of speech, phrase, expression, sentence and text). Based on these 5 levels and considering the differences between the two languages, about 600 test items were chosen to test the basic functions of Japanese to English machine translation systems. Finally examples of these test items were extracted from various documents and publications and combined with specially constructed sentences to make the test set of 6200 sentence pairs.



[ 人工知能学会誌, Vol.9, No.4, pp.93-103 (1994.7). ]
[ Journal of Japanese Society for Artificial Intelligence, Vol.9, No.4, pp.93-103 (July, 1994). ]



INDEX

     1. まえがき
2. 日本語表現分類の考え方
  2.1 日本語表現の基本構造
  2.2 日本語表現の階層
3. 表現階層の構造
  3.1 日本語品詞体系(レベル1)
  3.2 日本語表現要素体系(レベル2)
  3.3 日本語表現体系(レベル3)
3.4 日本文体系(レベル4)
4. 言語の違いに基づく試験項目
  4.1 単語語義と表記の違い
  4.2 話者との関係の表現
  4.3 膠着言語と屈折言語
  4.4 発想と文型
  4.5 対象認識と描写法
5. 機能試験項目と試験方法
  5.1 機能試験項目
  5.2 試験文の作成
  5.3 試験の方法
6. むすび
  謝辞
  ◇参考文献◇



1. まえがき

機械翻訳システムの翻訳能力を評価するには, 評価項目や評価基準など, 評価の体系を持つことが必要である. 従来, 訳文品質評価の基準として, 了解度(intelligibility)と正確さ(informativeness)の観点から 9段階に評価する方法[ALPAC 66]や 理解容易性と忠実度の観点から5段階に評価する方法[長尾85], 前者を拡張した10点満点法[池原92], TOEFLの試験を応用した試み[Tomita 92] のほか, 誤りの性質と内容に重みづけをして減点していく8点法, 12点法[DARPA 92]などが提案され使用されている. また, 最近ハードウェアとソフトウェアを含むシステム全体を総合的に評価する観点から 評価項目をまとめる試み[JEIDA 92]が始められている. これに対して, 言語学的観点から見ると, 一定の内容の文の言換えなどによって日本語の言語表現と翻訳能力の関係を評価する 方法[成田88]が提案されているが, 日本語表現の翻訳能力を総合的に評価するための試験項目や 試験文セット(ベンチマーク)に関する提案はまだない.

原言語表現と機械翻訳の能力の関係を網羅的に試験するには, 原言語の性質と表現の種類, および原言語と目的言語の相違点を整理して試験項目を体系化し, それに基づく試験文集を編集することが必要である[池原90].

従来, 言語学の立場からは, 品詞論を中心とする多種多様な日本語の文法が提案されてきたが, 表現の種類と表現内容の関係や表現の構成規則などを構文論として体系化する試みは少ない. 日本語の発想法や表現構造については, むしろ日本語教育の立場から説明が行われる例があるが, 扱われる日本語の文の構造は比較的簡単なものに 限られる[江副87]傾向にある. 一方, 計算言語学の立場からは,書替ルールなどの形式で日本語の表現を構成する規則を 記述する試みが行われてきた[久野73]. この規則を応用して試験文を生成する方法も考えられるが, 記述できる表現は日本語表現全体から見ればごく一部に限られること, 記述できたものは原則として処理の可能性が保証されることなどのため, 機械翻訳の翻訳能力を知るための機能試験に応用するには適さなかった.

また, 日本語と英語の違いについては, 対照言語学の研究や翻訳家による 考察[安西83,森田81]があり, 形態的な違いと発想法の違いの関係などさまざまな相違点が指摘されている. 翻訳家の指摘は人手翻訳の場合を前提にしているため, そのまま機械翻訳に応用するのは難しいが, 多くの重要な視点を含んでいる.

本稿では, 言語を「対象」と「話者の認識」と「表現」の関係で説明した 言語過程説(時枝文法)[三浦75,時枝41]に基づき, 日本語表現の形成過程に着目して日本語表現の種類を体系的に 分類する*1と同時に, 従来, 翻訳家などから指摘されてきた日英両言語の発想法の違いを考慮に入れて, 日英機械翻訳システムの機能試験項目を抽出し, 網羅的な試験文セットを編集する方法について述べる.




2. 日本語表現分類の考え方




2.1 日本語表現の基本構造

日本語は, 膝着言語に分類される言語であり, 小さな単位要素が次々と付着して表現を構成していくという特徴を持つ. 言語過程説によれば, 表現を構成する単位は次の2種類に大別される[三浦75].

これらの単位要素が結合し, 表現構造を構成していく過程には一定の手順がある. 三浦は, 「日本語とは, 対象が存在する世界を取り上げ, それとその外側の世界との関係に対する話者の判断を付加することにより, 世界を多重化して表現する言語であることを指摘し, それを客体的表現と主体的表現が入れ子になった構造」として説明した.

三浦の指摘に従い, ここでも, 日本語の基本構造を入れ子構造で捉える. さらに, 「現代語では, 係助詞だけでなく…(中略)…陳述副詞の類いと併せて, 係り結び論を見直すべきである」という水谷の指摘[水谷83]や, 認知過程からのアプローチによる辞の入れ子に関する 提案[氏家87]を考慮して, 詞と辞による入れ子構造を見直す*2.

客体的表現が主体的表現を伴って入れ子を構成していくようすを図1に示す.

日本文: 昨日公園に行くと約束した。

日本文: 本を決して読みはしない。

図1 日本語表現の基本的構造(入れ子構造)




2.2 日本語表現の階層

言語の表現過程は, 「対象」, 「認識」, 「表現」の3要素の関係から説明することができる. 対象は, 実体, 属性, 関係の3要素から構成される. 対象のあり方が話者の認識に反映し, 得られた認職が表現に結びつけられる. 話者の認識が表現に結びつけられるとき, 言語の約束(広い意味での文法)が用いられる. 言語の約束で最も基本となるのは概念化された実体, 属性, 関係とそれを表現する単語(詞)との対応関係, ならびに概念化された対象に対する話者自身(主体)のあり方と 単語(辞)との関係に関するものである. 前者に対しては客体的表現の言語が選択され, 後者においてそれに主体的表現の言葉が付加される.

このようにして, 概念化された実体および主体と単語との結びつきが形成されると, 次にそれらの相互関係が構造化され, 認識された構造と表現構造との対応づけが行われる. この過程で, 単語と単語が日本語の統語規則に従って構造化され, 文が形成される.

単語から文が形成される過程は, さらに三つの段階に分けることができる. すなわち, 客体的表現と主体的表現とが対になって1組の表現要素が生成される段階, それらが組み合わされて句や節を構成する段階, さらにそれらから文が形成される段階である.

こうして形成された文がさらに組み合わされることによって, 一定のまとまりのある段落以上の単位が構成される.

以上のプロセスに着目して, ここでは日本語の表現体系を図2に示すような5段階の階層に分け, 機械翻訳の基本的な翻訳機能の試験項目を抽出するため, 4段目までの分類を詳細化する.


レベル1:日本語品詞体系(単語構成レベル)
日本語の単語を表現対象と話者の見方, 捉え方に着目して分類したもの。

レベル2:日本語表現要素体系(表現要素結成レベル)
単語を組み合わせて表現を構成して行くための統語規則を体系化したもの。
客体的表現と主体的表現が入れ子になることに着目し, 入れ子の種類を構造の種類と考えて分類する。

レベル3:日本語表現体系(文要素構成レベル)
日本語を句や節などの意味のまとまる単位に分けて分類したもの。
機械翻訳の基本機能の試験項目になりやすい。

レベル4:日本文休系(文種別構成レベル)
陳述・疑問・感嘆など, 1文の意味に着目して文を分類したもの。

レベル5:日本語文章構造体系(文章論レベル)
文が組み合わせられて文章となるとさの文間の関係を 体系化したもの。

図2 日本語表現の階層的構成




3. 表現階層の構造




3.1 日本語品詞体系(レベル1)

言語過程説の考え方に従って, 単語をまず「詞」と「辞」とに分ける.

「詞」には, 一つの事象を表現するうえで, ”須である語と, △修Δ任覆じ譴2種類がある. ,良須である語は, 表現対象が実体か属性かによって「体言(名詞)」と「用言」とに分け, さらに用言については属性が動的属性か静的属性かに応じて「動詞」と「形容詞」に分ける. △良須でない語は, 実体に属性を付加する語を「連体詞」, 属性に属性を付加して立体的に表現する語を「副詞」として分類する.

「辞」には, 対象に対する話者の判断を表す「助動詞」, 話者による実体の捉え方を表す「助詞」のほかに, 話者の主観を強調するための「陳述副詞」, 話者による事象間の関係認識の表現である「接続詞」, 話者の感情や意思のみの表現である「感動詞」を含む. 全体の分類体系を図3に示す.


          ┌───┐                      ┌──┐                  ┌────┐
      ┌─┤  詞  ├─┬─事象表現─┬──┤体言├─┬─話者との関係┤代 名 詞│
      │  └───┘  │  に必須で  │    └──┘  │  関係を示す  └────┘
      │┌概念化の過┐│  ある      │┌実体を概念┐│              ┌────┐
      ││程を経て対││            │└化する言葉┘└─話者とは関係┤ 名  詞 │
      ││象を表す  ││            │                  しない      └────┘
┌─┐││=客体的表││            │    ┌──┐                  ┌────┐
│日││└  現の言葉┘│            └──┤用言├─┬─動的属性の─┤ 動  詞 │
│本││              │                  └──┘  │  概念化      └────┘
│語││              │                            │              ┌────┐
│品├┤              │                            └─静的属性の─┤ 形容詞 │
│詞││              │                                概念化      └────┘
│体││              │                                            ┌────┐
│系││              └─事象表現に──┬──実体に属性を付加する─┤ 連体詞 │
└─┘│                  必須でない    │                          └────┘
      │                                │                          ┌────┐
      │                                └──属性に属性を付加する─┤ 副  詞 │
      │                                                            └────┘
      │  ┌───┐                                                ┌────┐
      └─┤  辞  ├─┬─対象世界に対する話者の判断────────┤ 助動詞 │
          └───┘  │                                            └────┘
                      │                                            ┌────┐
                      ├─実体に対する話者の考え方─────────┤ 助  詞 │
                      │                                            └────┘
                      │                                            ┌────┐
                      ├─話者の主観を強調する───────────┤陳述副詞│
                      │                                            └────┘
                      │                                            ┌────┐
                      ├─話者による事象間の関係認識────────┤ 接続詞 │
                      │                                            └────┘
                      │                                            ┌────┐
                      └─話者の感情、意思のみの表現────────┤ 感動詞 │
                                                                    └────┘

図3 日本語品詞体系(レベル1:単語構成レベル)

この分類法は, 品詞を文構成上の機能や役割で分類するのではなく, 対象の種類とその捉え方で分類している点に特徴があり, ―祥茲痢鳩鼠篤飴譟匹鯊粟を実体化した名詞(静詞)+助動詞「だ」とする点, ⊆身の「られる」, 希望の「たい」などは動的属性を変える用言型の接尾辞とする点, “準体助詞”の「の」を名詞(抽象名詞)とする点, などで学校文法などと異なる.




3.2 日本語表現要素体系(レベル2)

表現の形成の第1段階では, 対象の性質に応じて, それを表すための単語が選択され, 次にそれが表現すべき対象間の関係構造に合わせて組み立てられる. 単語選択の過程とその組立の過程は以下の二つの 表現要素*3によって説明できる.

表現素は, 文構成上の機能的役割に対応させることにより, 述語, 補語, 副用語, 接続語, 孤立語の五つに分ける. 構造素は, 表現素の関係構造が持つ意味に対応させることにより, 修飾構造, 順序構造, 慣用構造, 照応構造に分ける. 全体の分類体系を図4(4-1, 4-2)に示す.


 ┌───┐
 │表現素│‥‥客体的表現, 客体的表現+主体的表現
 └┬──┘
   ├─述語‥‥叙述(客体的表規)+述定(主体的表現)+ 伝達(主体的表現)
   │    ├─叙述‥‥実体のあり方
   │    │    ├─行為:する, がる(情態につく), 使役(せる, させる)
   │    │    ├─現象:なる, 受け身・ 尊敬・ 利害(れる, られる)
   │    │    ├─存続:ある, 可能・ 自発(れる, られる)
   │    │    ├─情態:どう, らしい(事物につく ), 希望( たい), 様相
   │    │    └─事物:の, もの, こと, 伝達, 比況
   │    ├─述定‥‥話者の判断
   │    │    ├─肯定判断:だ, です
   │    │    ├─否定判断:ない, ぬ, まい
   │    │    ├─既定判断:た
   │    │    └─未定判断:う, らしい
   │    └─伝達‥‥話者の感情
   │          ├─話者方向:ぞ
   │          ├─相手方向:か,  さ, 命令
   │          └─不定方向:なあ
   ├─補語‥‥体言(客体的表現)+ 助詞(主体的表現)
   │    ├─体言‥‥叙述内容の補完:単一名詞, 複合語, 名詞句
   │    ├─副助詞‥‥実体に対する観念的前提の付加
   │    │        ぐらい, やら, か
   │    ├─格助詞‥‥実体のあり方の認識
   │    │        が, を, に, へ, と, から, より, で, まで
   │    ├─副助詞‥‥認識に対する観念的前提の付加
   │    │        は, まで, ぐらい
   │    ├─係助詞‥‥認織に対する陳述の要求
   │    │        は, も, さえ, でも, こそ, しか
   │    └─間投助詞‥‥認識内容の確定:さ, よ, ね
   ├─副用語‥‥叙述内容の詳細化
   │    ├─限定‥‥外延の制約:連体詞, 用言連体形, の
   │    ├─情態‥‥叙述の立体化:情態副詞, 用言の連用形
   │    ├─程度‥‥叙述の程度:程度副詞, 用言の連用形
   │    ├─陳述‥‥完結型陳述, 提示型陳述
   │    │        陳述副詞, 条件呼応接続詞
   │    └─感動詞:感嘆, 呼びかけ, 呼応
   ├─接続‥‥事象間の関係付け
   │    ├─同時型:並列, 添加, 選択
   │    ├─条件型:順接仮定, 逆接仮定, 用言の仮定形
   │    └─展開型:順接確定, 逆接確定, 用言の中止形
   └─孤立語‥‥呼びかけ, 応答, 掛け声

図4-1 表現要素(レベル2)の構成(その1:表現素)


 ┌───┐
 │構造素│‥‥表現素間の間係
 └┬──┘
   ├─修飾構造‥‥実体, 属性, 関係の結びつき
   │    │−体言−体言
   │    │    ├─限定:〜の〜, 〜に対する〜, 〜に関する〜
   │    │    ├─同格:〜の〜(〜であるところの〜)
   │    │    ├─並列:〜と〜, 〜や〜
   │    │    ├─列挙:〜も〜も, 〜と〜と
   │    │    ├─範囲:〜から〜まで(の)
   │    │    ├─添加:〜だけでなく〜も
   │    │    ├─例示:〜などの〜
   │    │    └─換言, 〜すなわち〜
   │    ├─用言−体言
   │    │    ├─第1種埋め込み:〜する〜, 〜な〜(必須格型)
   │    │    ├─第2種埋め込み:〜する〜, 〜な〜(所有格型)
   │    │    ├─第3種埋め込み:〜する〜, 〜な〜( 自由格型)
   │    │    ├─第4種理め込み:〜する〜, 〜な〜(捉え直し)
   │    │    ├─引用による限定:〜するとの〜
   │    │    └─内容による限定:〜するかの〜
   │    ├─副用語−体言
   │    │    ├─限定:この〜
   │    │    └─程度:ちょっと右〜
   │    ├─体言−用言
   │    │    ├─補語:〜が〜だ, 〜を〜する
   │    │    └─時数詞:明日〜する
   │    ├─用言−用言
   │    │    ├─接続:〜し〜する, 〜して〜する
   │    │    ├─情態 :〜に〜する
   │    │    ├─引用:〜すると〜する
   │    │    └─内容:〜するか〜する
   │    ├─副用語−用言
   │    │    ├─接続:そして〜する
   │    │    ├─情態:ようやく〜する
   │    │    ├─程度:すこし〜する
   │    │    ├─陳述:決して〜 しない, もし〜なら
   │    │    └─感動詞, さあ〜する
   │    └─副用語−副用語
   │            −程度:もっととたくさん
   ├─順序構造‥‥空間的, 時間的, 心理的視点の移動
   │    ├─表現素の順序‥‥‥対象の描写に伴う視点の動き, 相互限定作用
   │    ├─表現要素の順序‥‥事象の把握に伴う視点の動き, 表現の立体化, 倒置
   │    └─文の順序‥‥‥‥‥話題の展開に伴う視点の動き
   ├─慣用構造‥‥特殊的認識構造をもつもの
   │    ├─用言性慣用句    形式用言(抽象動詞)による捉えなおし
   │    ├─体言性慣用句‥‥故事, 比喩の固定化した表現
   │    └─型慣用文‥‥‥‥故事, 比喩の固定化した表現
   └─照応構造‥‥話者, 聞き手間での前提
         ├─指示‥‥代用
         │    ├─こそあど
         │    ├─代名詞
         │    └─換言
         └─省略
               ├─補語省略:主格, 目的格要素の省略
               ├─格省略:  格助詞の省略
               └─述部省略:動詞省略, 体言止め

図4-2 表現要素(レベル2)の構成(その2:構造素)




3.3 日本語表現体系(レベル3)

表現素と構造素が組み合わせられると, ある一定の意味を持つ表現の単位を構成するようになる. 文要素は1語以上の連鎖であり, 通常「句」と呼ばれるものである. このような表現の単位を前節の日本語表現要素体系と対応させることにより分類した例を 図5(5-0〜5-9)に示す.


                                             ┌───────┐
                                         ┌─┤述  語  表  現│‥‥‥‥図5-1
                                         │  └───────┘
                                         │  ┌───────┐
                                         ├─┤補  語  表  現│‥‥‥‥図5-2
                                         │  └───────┘
                     ┌───────┐  │  ┌───────┐
                 ┌─┤文 要 素 表 現├─┼─┤副  用  表  現│‥‥‥‥図5-3
                 │  └───────┘  │  └───────┘
                 │                      │  ┌───────┐
                 │                      ├─┤接  続  表  現│‥‥‥‥図5-4
                 │                      │  └───────┘
 ┌─────┐  │                      │  ┌───────┐
 │日本語表現├─┤                      └─┤孤 立 文 表 現│‥‥‥‥図5-5
 └─────┘  │                          └───────┘
                 │                          ┌───────┐
                 │                      ┌─┤ 修飾関係表現 │‥‥‥‥図5-6
                 │                      │  └───────┘
                 │                      │  ┌───────┐
                 │  ┌───────┐  ├─┤文要素順序表現│‥‥‥‥図5-7
                 └─┤文要素関係表現├─┤  └───────┘
                     └───────┘  │  ┌───────┐
                                         ├─┤慣  用  表  現│‥‥‥‥図5-8
                                         │  └───────┘
                                         │  ┌───────┐
                                         └─┤ 照応関係表現 │‥‥‥‥図5-9
                                             └───────┘

図5-0 日本語表現(レベル3)の体系(その0:見取り図)


 ┌────┐
 │述部表現│
 └─┬──┘
     ├─単語述語
     │    ├─動詞述語
     │    │    ├─一般動詞述語:山を歩く。算数ができる。
     │    │    ├─可能動詞述語:音が聞こえる。私は泳げる。
     │    │    └─転生動詞述語:木の葉が赤らむ。水がぬるむ。
     │    ├─形容詞述語:柿の実は赤い。湯がぬるい。このシステムは速い。
     │    ├─だ型述語
     │    │    ├─静詞型述語:花がきれいだ。町はにぎやかだ。
     │    │    └─名詞型述語
     │    │          ├─A=B型述語:主人公は女だ。それは明白だ。
     │    │          └─A≠B型述語:〜の予定だ。
     │    └─体言述語
     │          ├─サ変名詞述語:〜する計画。〜を担当。〜を使用。
     │          └─一般名詞述語:建築は大手。
     ├─複合型述語
     │    ├─機能動詞結合型述語:影響をうける。写っている。寒くなる。赤くなる。
     │    │                      冷やしていく。入れておく。計ってみる。
     │    ├─動詞畳み込み型述語:話し合う。書きなおす。負けとる。行き来する。
     │    │                      歩きやすい。取り組む。
     │    ├─複合動詞述語:若返る。手渡す。一味違う。多過ぎる。3回転する。物語る。
     │    ├─並列動詞述語:行ったり来たりする。
     │    ├─分離動詞述語:バスに乗って〜へ行く。歩いて行く。
     │    ├─複合形容詞述語:真白い。薄暗い。数多い。捨て難い。油っこい。
     │    └─複合名詞述語:栄養豊富だ。研究開発する。本格進出する。渦巻く。
     ├─接続型述語
     │    ├─連用中止型述部:本を読み, 字を習う。
     │    ├─名詞型接続述部:〜した結果〜。面影を胸に〜する。
     │    ├─副詞型名詞述語:〜を開発中に〜。
     │    ├─助詞型述語
     │    │    ├─接続助詞型述語:そんなこと言わなくてもよいのに。
     │    │    ├─副助詞型述語:彼ばかりだ。行くのみだ。やめるまでだ。
     │    │    └─終助詞型述語:言わないことか。腹を立てるな。行くぞ。美しいとも。
     │    └─連語接続型述語:〜しなければならない。
     ├─入れ子構造述語
     │    ├─様相型述語
     │    │    ├─単純様相述語:(1)自発, 希望。(2)推量, 否定。(3)断定。
     │    │    └─複合様相述語:〜しなくてはならない。〜しにくい。〜にこしたことはない。
     │    │                      だろうか。〜になりかねない。〜な訳ではない。
     │    ├─時制型述語
     │    │    ├─単純時制述語:昨日食べた。彼は来るだろう。
     │    │    └─複合時制述語:〜したみたいだった。〜するようだ。
     │    └─アスペクト型述語:今食べている。毎日食べている。検討し終る。〜したことがある。
     ├─待遇表現述語
     │    ├─尊敬述語:ご覧になる。おいでになる。あなたがなさい。
     │    ├─謙譲述語:私が頂く。お断りいたす。申し上げる。
     │    └─丁寧述語:お茶でございます。行きます。
     ├─感情表現述語:嬉しい。悲しい。
     ├─φ型述語:AがB, CがDを担当する。面影を胸に〜する。
     └─伝聞型述語:彼が来るそうだ。

図5-1 日本語表現(レベル3)の体系(その1:述部表現)


 ┌────┐
 │補語表現│
 └─┬──┘
     ├─体言型補語
     │    ├─単純名詞補語
     │    │    ├─一般名詞補語:山が美しい。川が流れる。
     │    │    ├─転成名詞補語:なげきを聞く。行きがよい。喜びを言う。
     │    │    ├─固有名詞補語:国労は。山手線で。ECが。東京に。田中ヘ。
     │    │    ├─代名詞補語:それは。あれが。僕も。私も。おれが。
     │    │    └─形式名詞補語(形容あり):喜ぶことは。こんなはずは。ひどいめに。
     │    │                                  青いのはすっぱい。このかたが。
     │    ├─複合名詞補語
     │    │    ├─名詞連続複合語
     │    │    │    ├─一般名詞型補語:理論値は。小型軽量で。必要十分に。
     │    │    │    │                  政治解決。データ自動収集装置。
     │    │    │    ├─サ変名詞型補語:固定点。変化点。
     │    │    │    ├─転成名詞型補語:立ち話。通り魔。長わずらい。面長。
     │    │    │    ├─接辞型補語:元社長。駅前。数日前。十分前。
     │    │    │    ├─固有名詞型補語:政治君。八戸市。ジュモン社。羽田空港。
     │    │    │    └─数詞型補語:3%の人口が。3割の水を。
     │    │    └─多文節複合型補語:午前9時発大阪行列車に。出雲上り3号で。
     │    ├─名詞句補語
     │    │    ├─「の」型名詞句
     │    │    │    ├─単純「の」型名詞句補語:身体の疲れを。木の枝に。
     │    │    │    ├─所有「の」型名詞句補語:私の本。今日の新聞。アメリカの大学。
     │    │    │    ├─同格「の」型名詞句補語:情報サービスのA社。
     │    │    │    ├─独立所有格「の」型名詞句補語:私のもの。君のもの。
     │    │    │    ├─連体「の」型名詞句補語:木の枝。大型の不況。田中著の本。
     │    │    │    │                          赤の広場。くろの紋付。金の卵。
     │    │    │    ├─前置詞変換「の」型名詞句補語:教師の資格。山の上。
     │    │    │    └─強結合「の」型名詞句補語:オスの牛。小さい川。
     │    │    ├─助詞結合型名詞句補語:AとBとC。彼の家の庭。彼の海の家。
     │    │    ├─連体詞結合型名詞句補語:この値。たまの休み。このPの値。たしたる事。
     │    │    │                    これらの花。ある本。
     │    │    ├─格助詞相当語名詞句補語:Aに対するB。
     │    │    ├─複合型名詞句
     │    │    │    ├─並列係り型名詞句補語:彼女のリボンとネッカチーフ。
     │    │    │    └─融合型複合名詞句補語:郵政, 林野など三公社五現業。ありのまゝの質。
     │    │    │                              A, B, Cの3つの特徴。ソ連, 米国などの大国。
     │    │    ├─並列名詞句
     │    │    │    ├─選択型名詞句補語:あれかこれかを。リンゴかバナナを。
     │    │    │    ├─並記型名詞句
     │    │    │    │        一般並記補語:山や海など, 後楽地は〜。〜のほか〜でも〜。
     │    │    │    │        並記縮約補語:大手メーカ, コダック社は〜。
     │    │    │    └─呼応型名詞句補語:〜から〜まで。AだけでなくBも。〜のほか〜でも。
     │    │    └─疑問詞型名詞句補語:どれ位の水の量。いくらの石油を。どれ位の人の数。
     │    └─数量表現
     │          ├─数詞表現:32, 650。5万2千。2,850千。3億2千万。
     │          ├─順序数表現:2番目。3枚目。8月21日。第10回。
     │          ├─数詞肋数詞表現:本3冊。3冊の本。本を3冊。3枚の紙。3m。
     │          ├─概数表現:約20本。2〜30件。10kg強。10人以下。
     │          ├─不定数量表現:多数の。多量の。いくつかのリンゴ。何個かのリンゴ。
     │          ├─疑問数量表現:何冊かの本。いくつかの本を。何個のリンゴ。
     │          └─特殊数量表現:コップ一杯の水。
     ├─副詞型補語:今日の朝。
     ├─格助詞型補語:敵と味方と戦う。
     ├─保助詞型補語:私には〜。山では〜。船でもよい。
     ├─副詞型補語:僕も行く。私こそ〜。大人さえ。私でも〜。A, Bなど。
     ├─中型補語:本を買って, _読んだ。薬を飲んだが, _効かなかった。
     └─記号/数式表現
           ├─記号表現:〈。(。−。△。+。
           └─数式表現:A+B。A/B。

図5-2 日本語表現(レベル3)の体系(その2:補語表現)


 ┌────┐
 │副用表現│
 └─┬──┘
     ├─実体形容型(連体詞型)
     │    ├─指示型表現:このプログラム。そのデータ。あの人。
     │    ├─限量連体型表現:すべての花。あらゆる人々。ほんの5分。たったl本。
     │    ├─用言転成型表現:ある日。去る10日。かかる問題。とんだ失敗。
     │    └─疑問形容型表現:どの。どこ。どちらの。どんな。
     ├─属性形容型
     │    ├─副詞型
     │    │    ├─単純副詞型
     │    │    │    ├─情態表現:どんどん。にっこり。とっくに。しばらく。やはり。
     │    │    │    └─程度表現:実に大きな。いくぶん。もっと。だいぶ。あまりにも。
     │    │    ├─用言副詞型
     │    │    │    ├─動詞型副用表現:本を買って読んだ。動いている。走って帰る。
     │    │    │    └─形容詞型副用表現:花が美しく咲く。朝早く起きる。
     │    │    ├─連用名詞型副詞的表現:今朝。先月末。一方。今一つ〜だ。〜が沢山ある。
     │    │    └─複合副詞型表現:〜である事自体〜。極端に急いで。これを受けて。
     │    │                        正直言って。第一段として。研究熱心に。
     │    └─副助詞型
     │          ├─名詞的副助詞表現:それぐらいが適当だ。10円しかない。一本づつが良い。
     │          │                    上京のおりに。
     │          └─疑問選択副助詞表現:何のことか分らん。気のせいか。
     ├─複合副助詞的表現:今日ぐらい困ったことほない。10日ほど滞在する。少しづつ進む。
     │                    これさえできない。
     └─辞形容型
           └─陳述表現:まだ〜。よく〜。どうか〜。まるで〜。多分〜。まさか〜。

図5-3 日本語表現(レベル3)の体系(その3:副用表現)


 ┌────┐
 │接続表現│
 └─┬──┘
     ├─助詞型接続(用言接続)
     │    ├─接続助詞型
     │    │    ├─条件型接続:もし〜ならば。行ったのに。〜しても。見たけれど。〜したが。
     │    │    ├─展開型接続:〜したので。〜したから。〜しつつ。〜ため。
     │    │    └─同時型接続:〜しながら。〜したまま。〜したり。AはBで, CはDだ。
     │    └─副助詞型接続:読めば読むほど面白くなる。
     ├─接続詞型
     │    ├─体言結合型接続:並びに。また。あるいは。
     │    ├─文要素結合型接続:   〃
     │    ├─句結合型接続:          〃
     │    └─文間結合型接続:だから。それで。そこで。しかも。しかし。ただし。ところが。
     ├─形式名詞接続:〜した結果〜。
     ├─連語型接続:〜にも拘らず〜。その間に〜。喜ぶどころか〜。
     └─運用中止型接続:山を下り, 町についた。

図5-4 日本語表現(レベル3)の体系(その4:接続表現)


 ┌─────┐
 │孤立文表現│
 └─┬───┘
     ├─呼びかけ表現:おい。君。どうぞ。ほら。こんにちわ。
     ├─応答ま現:はい。いいえ。 そうだ。それもそうだ。
     └─かけ声表現:それ。よいしょ。

図5-5 日本語表現(レベル3)の体系(その5:孤立文表現)


 ┌──────┐
 │修飾関係表現│
 └─┬────┘
     ├─単純修飾
     │    ├─実体修飾
     │    │    ├─用言係り型
     │    │    │    ├─形容詞係り型修飾:きれいな花。寒い冬。かすかな音。美しい山。
     │    │    │    └─動詞係り型修飾:吹く風。立つ岩。読む本。名誉ある行為。
     │    │    └─体言係り型
     │    │          ├─名詞係り型修飾:上り列車。東京行き列車。
     │    │          └─連体詞係り型修飾:この本。あの夏。わが国。たった一つ。
     │    └─属性修飾
     │          ├─動的属性係り型
     │          │    ├─形容詞係り型修飾:激しく吹く。静かに降る。
     │          │    └─副詞係り型修飾:ゆっくり歩く。はっきり話す。
     │          ├─静的属性係り型
     │          │    ├─形容詞係り型修飾:美しく咲く。きれいに咲く。大きくなる。
     │          │    └─副詞係り型修飾:すいすい飛ぶ。しばらく休む。少し大きい。
     │          └─副詞間修飾型:もっとゆっくり。ずっとはっきり。大変ゆうゆうと。
     ├─埋込み型修飾
     │    ├─第一種埋込み文型修飾:彼が書いた本。
     │    ├─第二種埋込み文型修飾:屋根の赤い家。Aを半径とする円。
     │    ├─第三種埋込み文型修飾:魚を焼くにおい。
     │    ├─第四種埋込み文型修飾:彼が行ったこと。見ることは理解すること。
     │    ├─引用型埋込み
     │    │    ├─と型引用埋込み修飾:〜との判談。空は深いと言う。
     │    │    ├─の型引用埋込み修飾:〜と言うのが良い。走るのが好き。
     │    │    └─疑問引用埋込み修飾:〜かの判断。どこに行くかを。〜かどうかは知らない。
     │    ├─名詞句修飾型埋込み:彼が読んだ物理の本。ここから見える山と川。
     │    ├─並列埋込み型修飾:彼が書いて, 彼女が読んだ本。髪が黒で眼が青い娘。
     │    └─副詞的埋込み修飾:〜することで〜。唱う代りに〜。〜を考えた末, 〜。
     ├─複合形容詞係り型修飾:むし暑い夏。塩からい水。晴れがましい入学式。
     └─例示係り型修飾;山のような津波。花のように美しい人。

図5-6 日本語表現(レベル3)の体系(その6:修飾関係表現)


 ┌───────┐
 │文要素順序表現│
 └─┬─────┘
     ├─二重主格文
     │    ├─格肋詞型二重主格文:食事は妻が担当する。
     │    └─副助詞型二重主格文:夏は海がにぎやかだ。象は鼻が長い。
     ├─主語なし文
     │    ├─自動詞型主語なし文:夏は海で泳ぐ。
     │    └─他動詞型主語なし文:図の結果を得た。
     └─比較構造
           ├─補語間比較
           │    ├─原級比較表現:〜と同じだ。正直であると同じだけ利口だ。
           │    ├─比較級比較表現:彼女より美しい。〜するより〜したい。〜に比べて大きい。
           │    └─最上級比較表現:一番高い山。最も美しい。
           └─用言間比較
                 ├─動詞比較表現:東京に行くより大阪に行きたい。
                 └─形容詞比較表現:美しいというよりきれいだ。

図5-7 日本語表現(レベル3)の体系(その7:文要素順序表現)


 ┌────┐
 │慣用表現│
 └─┬──┘
     ├─用言型慣用表現
     │    ├─慣用句型慣用表現:油を売る。空が深い。目がない。
     │    ├─強結合型慣用表現:背が高い。効果が大きい。
     │    └─機能動詞結合型慣用表現:実験を行う。批難をあびる。球をうける。
     ├─体言型慣用表現
     │    ├─熟語型慣用表現:不老不死。弱肉強食。一朝一夕。
     │    ├─名詞句型慣用表現:背の高さ。もの笑いの種。効率の良さ。
     │    └─多文節融合型慣用表現:やしの実。
     ├─格言型慣用表現:時は金なり。ローマは一日にしてならず。
     └─副詞型慣用表現:首の差で勝つ。

図5-8 日本語表現(レベル3)の体系(その8:慣用表現)


 ┌──────┐
 │照応関係表現│
 └─┬────┘
     ├─代名詞型照応
     │    ├─連体詞照応表現:これが理由です。あの人が。そのようなものを。
     │    ├─補語照応表現:これを式(2)と言う。
     │    └─接続照応表現:そんな理由で。それで。これで。
     ├─省略表現
     │    ├─主格要素省略表現:これを持って行く。行きは恐い。リボンをかける。
     │    └─補語要素省略表現:本を買って, 読む。
     └─呼応
           ├─陳述型呼応表現:〜しか〜ない。殆んど〜ない。誰も〜ない。時々〜のことがある。
           │                  あたかも〜のように。
           └─用言間呼応表現:前者は〜, 後者は〜。〜だけでなく〜も。〜とは言えなお〜だ。
                               〜が〜なのは〜が〜だからだ。

図5-9 日本語表現(レベル3)の体系(その9:照応関係表現)




3.4 日本文体系(レベル4)

レベル3の日本語表現を構成する文要素のうち, あ る一つの陳述辞によって統括された文要素が文であ る. 本来, 文はそれを統括する陳述辞の性質によって 分類すべきであるが, ここでは英文構造も考慮に入れ て, 図6のように分類する.


 ┌───────┐ 
 │日本文分類体系│ 
 └┬──────┘ 
   ├─平叙文 
   │    ├─動詞文 
   │    │    ├─単純動詞文:汽車が走る。海で泳ぐ。 
  │  │  ├─存在動詞文:手紙がある。 
  │  │  └─特殊動詞文:雨が降る。夢を見る。 
  │  ├─形容詞文:花は美しい。 
  │  ├─だ文 
  │  │  ├─静詞型だ文:山がきれいだ。 
  │  │  └─名詞型だ文:犯人は彼だ。この本は100円だ。 
  │  └─体言止め文 
  │     ├─サ変名詞止め文:政策を発表。内容を説明。 
  │     └─一般名詞止め文:それは私。 
  ├─疑問文 
  │  ├─Yes/No型疑問文:この車は速く走るか。 
  │  ├─疑問詞型疑問文:誰が話しているか。何に使うか。 
  │  └─選択型疑問文:ライオンと象はどちらが強いか。 
  ├─命令文 
  │  ├─主語無し命令文:データを測定せよ。私にやらせてくれ。 
  │  └─主語あり命令文:君は仕事をせよ。一郎は食事を作れ。 
  ├─受け身文 
  │  ├─単純受け身文:釣合が保たれる。車に当てられた。 
  │  ├─能動型受け身文:〜が生まれる。 
  │  └─被益型受け身文:彼に死なれる。 
  ├─使役文:使いに行かせる。 
  ├─受益文 
  │  ├─自発型受益文:彼が出席してくれる。 
  │  └─使役型受益文:彼に行ってもらう。 
  ├─感嘆文:まあ、美しい。面白いなあ。 
  ├─仮定法文:私にできようか。天気ならドライブしたのに。 
  ├─強調文:彼こそ偽善者だ。犬さえ恩を知っている。 
  ├─否定文:この夏は暑くない。雨は降らぬ。 
  └─勧誘文:食べよう。山に行こう。 

図6 日本文分類体系(レベル4)

以上, 5段階の日本語表現のうち, 第4のレベルまでについて, 分類項目を詳細化した.

第4のレベルでは, 文の種類で分類しているため, 個々の日本語表現項目は縮退しているのに対して, 第3のレベルでは, 日本語表現としてまとまった意味の単位がリストアップされている. そこで, 第3のレベルの表現分類項目に対応させて機能試験項目を設定すれば, 日本語側から見た試験項目の網羅性は保証される. 本論文では, 第3のレベルの表現項目をベースに次章で述べる日英言語間の相違点を加えて, 機能試験項目を決定する.




4. 言語の違いに基づく試験項目

機械翻訳の技術と能力を評価し, その問題点を分析するためには, 原言語の表現を網羅するだけでなく, 原言語と目的言語の発想の違いに着目した評価が必要と考えられる. 原言語の表現分類上は同一の項目に分類される項目でも, その内容によって, 目的言語側では異なった表現に訳し分けなければならない項目が多数存在する.

特に, 日本語と英語とは言語族が異なり, 発想の方法に大きな違いがあるため, 表現の仕組みや発達している表現の種類に大きな差が存在し, 日英両言話表現の対応関係は複雑である.

そこで, 本章では, 両言語の違いに着目し, 表現の対応を取るうえで重要となる項目を考察して, 試験項目とする.




4.1 単語語義と表記の違い

(1) 単語の持つ意味概念の違いと訳語の選択能力

単語の持つ語義は文化的背景を反映しており, 日本語と英語は必ずしも1対1に対応しない. 単語の意味による訳し分けは, 日英機械翻訳の最も重要な基本機能の一つである.

そこで, まず重要な動詞, 名詞などの意味による訳し分けを試験項目とする. 特に和語系の語では1語が持つ語義が多く, 形式名詞(抽象名詞)ではさまざまな使われ方をするため, タイプごとの試験項目を設ける. 格助詞, 接続助詞, 助動詞の「で」は, 表記が同じであるほか, 文中での使用頻度が高いため, 場合に分けて試験する.

(2) 表記上のゆらぎとその吸収能力(記述文の場合)

日本語は「字種が多い」, 「標準となる正書法が定まっていない」などのため, 言語解析を行ううえで, 表記のゆらぎが問題となる. そこで試験項目としては, 表記のゆらぎの顕著な, 漢字・仮名表記, 送り仮名, 片仮名書きされた外来語の例を取り上げる. また, 平仮名書きされた文字列には解釈の多義が発生しやすいという点も 言語解析能力の評価で重要であるので, 試験項目とする.




4.2 話者との関係の表現

日本語は主体の感情, 意思などを表すための言葉(主体的表現の語=助詞, 助動詞)が他の語と分離して発達しているのに対して, 英語は主体的表現と客体的表現が一語のなかに混在する傾向がある. また, 英語は主体的表現が文型(語順)とも関係していることがある. 主体, 客体の扱いに関する日英言語の主な違いは以下のとおりである.

 日本語は助詞・助動詞により, 主体的表現を構造上明確に区別することができる.
 日本語の屈折(語形変化)は文法的機能変化を示すが, 英語の屈折は法, 時制, 相, 人称を表す.
 英語の法, 時制, 疑問, 命令は主体的表現, 相, 態, 人称は客体的表現である.
 命令か否かは, 現実のあり方と話者の表現の差から判断すべきものである (主語の有無からの判断は絶対的でない).
 日本語は受身の形式で迷惑の意味が表現できる.

助詞と英語の前置詞は類似点はあるが対応関係にはない. また, 助詞で示される日本語の格と英語の格も必ずしも対応しない. そこで, 助詞のタイプと意味に応じた試験項目を設ける. 特に, 動作主以外の意味で使用される助詞「は」と「が」は, さまざまな英語構文への訳出を要求するので, 分類を細かくする.

また逆に, 英語の前置詞に対応する日本語について考えてみると, 英語の前置詞で表現される「上に」, 「前に」などの対象間の時間的, 空間的, 心理的関係の意味は, 日本語では客体化して表現されることが多い. この点も試験項目とする.

日本語の助動詞で英語の助動詞に直接対応させられるものは少なく, 日本語で使われた助動詞の意味は, 英語では屈折や, 構文変形を用いたり, 客体化して表現しなければならないことが多い. そこで, 助動詞と英語構文との関係を評価するため, 助動詞の意味に応じた試験項目を設ける.

なお, 日本語の助動詞は抽象動詞や使役や受身などの接尾辞などと組み合わせて 使用されることが多いため, これらを併せて試験項目とする.




4.3 膠着言語と屈折言語

英語は屈折言語であり, 屈折により語の意味を変える傾向を持つ. これに対して, 日本語は膠着言語であり, 接頭辞, 接尾辞が多く, 語が比較的自由に結合して複合語(複合名詞, 複合動詞)が限りなく形成される.

複合語の翻訳方法として, 文中に出現するものをすべて一語として辞書に登録するのは, 新語が次々と形成されることから, あらかじめ登録しておくことは不可能である. また, 同一の複合語も前後の関係によって訳し方の異なる場合がある. 複合語の種類の多さ, 実用文中での使用頻度の 高さ*4を考え, 複合語については細かい分類項目を設け, 試験項目とする.

特に, 複合動詞では, 名詞的要素(格要素), 副詞的要素などが結合した表現であり, これを英語に訳すには, 形容詞や副詞を組み合わせたり, 節や文にした翻訳が必要な場合が多いことなどに着目して, 試験項目を設定する.

また, 約2000種類もある接辞は使用頻度が高く, 使われ方によって訳し方も異なるため, それらの訳し分け機能についても重要な接辞の例を抽出して試験項目とする. なお, 「れる」, 「られる」などは動的属性を変化させる接尾辞であるが, 4.2節で述べたように助動詞・抽象動詞と併せて試験項目とする.




4.4 発想と文型

(1) 発想の差異(状況論理性と実体論理性)

日本語は状況中心に発想することが多いのに対して, 英語は実体中心に発想することが多い. すなわち, 日本語は「こと」, 英語は「もの」を中心に発想する傾向があり, それぞれ動詞, 名詞中心に文が展開される傾向を持つと いわれる[安西83]. 日本語の状況論理性と英語の実体論理性から見た特徴をまとめると以下のとおりである.

 日本語では連続する事象を用言の接続で表現するのに対し, 英語では事象を名詞句や名詞節化して表現する傾向を持つ.
 関係代名詞(「もの」的な発想の支柱といえる)に相当する品詞は, 日本語にない.
 日本語は「なる」塾の文が多く, 英語は「する」型の文が多い.
 英語は無生物主語が多用される.
 日本語は擬音語や擬態語が多く, 英語は抽象名詞が多い.
 使役表現は日本語では被使役者, 英語では使役者が強調される傾向を持つ.
 日本語は待遇表現が発達している(状況論理性の現れとみなせる).

上記の特徴のうち, , △肪緻椶垢襪, 日本語の文接続構造をそのまま英語の接続に対応させて翻訳すると, 冗長で不適切な英語になりやすい. 日本語の文接続を直訳するのではなく, 不定詞や動名詞を用いて名詞化したり, 分詞構文にして訳すなど, 動詞の数の少ない英語表現を生成する能力を試験する.

また, , いらは, 「ある」, 「なる」型の日本文などで, 対象間の関係を分析して主語を立て, 「する」型の文に訳す能力を試験する.

イ瞭団Г浪駭段犬埜加である. 日本語の形容詞, 副詞の語義の貧困さを補うものとも考えられ, 英語の形容詞, 副詞に縮退させ対応させる能力に関係するが, ここでは翻訳対象文を記述文に限定するため, 取り上げない. なお, Δ鉢Г砲弔い討4.2節と併せて試験する.

(2) 文型の発達

日本語は, 構文構造の自由度が大きく, 表現すべき内容の構造に強く依存して表現の構造が決められるのに対して, 英語はあらかじめ存在する文型にあてはめて表現の内容が組み立てられる傾向を持つ. 日英文構造上の特徴をまとめると以下のとおりである.

 日本語は文型が未発達でふろしき型の言語であるのに対して, 英語は文型が発達しており, スーツケース型の言語といえる.
 日本語は動的属性, 静的属性を固定的に捉え直して体言化する仕組みを持つ (連用形名詞).

このうち日本語の,瞭団Г, 助詞, 助動詞などの主体的表現に支えられたものであり, それに関連する翻訳機能は4.2節と同様の観点で試験する. △瞭団Г, 用言性の名詞の訳出法に関係しており, 状況論理型の日本語のなかで, 実体論理型の表現を支えている. これを英語に翻訳するには, 上記,箸狼佞, 用言化して翻訳することも必要であり, この点を試験の対象とする.




4.5 対象認識と描写法

(1) 対象描写法の違い(主語, 代名詞, 語法, 時制)

前節の状況論理性に関連して, 日本語は話者が表現対象に密着して描写が行われる傾向を持つのに対して, 英語は固定した視点から対象を立体化して表現することが多い. 日本語では話者の意識が主体的表現によって常に表現されているため, 主語となる話者は陽に表現されないことが多いのに対して, 英語では話者自身も対象化されて表現される.

 日本語には主語としての明確な概念はないが, 英語では主語は特権的で必須な要素である.
 日本語の代名詞は対象物と話者の関係のみを表現するのに対して, 英語は対象物そのものも表す.
 日本語の代名詞は話者を中心とする共感の輪を構成している.
 直接話法は状況論理型, 間接話法は実体論理型に対応し, 状況論理性中心の日本語には間接話法はない.
 日本語は話者の観念的自己分裂*5と時間的・空間的視点の移動が多いのに 対して, 英語は固定した視点から立体化されることが多い.
 日本語の時制は対象と話者との時間的関係を表し, 話者の視点は, 事象に密着して変化するのに対して, 英語の時制は, 発話時点から見た話者と事象との時間的関係を表す.

これらのうち, , イ枠想の違いとして, 4.4節(1)項に含め試験する. また, Δ4.2節の主体的表現翻訳機能のなかの時制の翻訳機能に含める.

△鉢の代名詞の問題では, 日本語内に現れた代名詞の翻訳の場合は, 比較的単語レベルでの対応が取りやすいため, 特別な試験項目とはしない. しかし, 文中に省略があったり, 文間依存の補完型翻訳が必要なときなど, 日本語では通常必要としない代名詞が英語側で必要であることが多い. この点は省略などの補完機能として試験する.

(2) 冠詞と所有代名詞の認識

英語では, 常に対象に対する単位観と個別性に基づく認識が付随しており, それが冠詞や所有代名詞によって表現される.

 冠詞は英語の単位観に基づいた対象の個別性を表す.
 文脈や段落は話者の認識に影響を与えているが, 冠詞の種類を決めるのは文脈や談話構造ではなく, 話者の認識である.
 定冠詞は対象の特殊的個別性, 不定冠詞は対象の一般的個別性を表し, 同一の対象でも認識の違いに応じて定冠詞または不定冠詞が選択される.
 英語では話者の人生を構成する要素ともいうべき家族, 友人, 身体の部分, 作品などを示すとき, その所有者を明示するため所有代名詞が使用されることが多い.

日本語では, このような冠詞と所有代名詞に相当する認識を陽に持たない場合が多いため, 生成は容易ではない. しかし, 前後の文脈から決定できる場合は多く, 1文の範囲内の前後関係で判断できる場合も少なくない. これらの表現の生成能力はシステムの技術と能力を判定するための重要な手掛りであるので, 試験項目とする.




5. 機能試験項目と試験方法




5.1 機能試験項目

3章で述べた日本語表現に4章で述べた日英言語対比の観点を加え, 日英機械翻訳機能の試験項目をまとめる. ここでは試験項目を以下の範囲に限定する.

 記述文を構成する表現の範囲を対象とし, 会話文に特有の表現は対象外とする.
 文の種類としては, 図6における平叙文, 命令文, 受身文, 使役文, 受益文, 疑問文を対象とし, 感嘆文, 強調文, 仮定法文の特有の表現は対象としない.

具体的には, 約8万文の日英対訳コーパスを中心に機能試験項目の網羅性を調査し, 約600の試験項目をまとめた. 試験項目の上位分類の部分リストを図7に示す.


 機能試験項目  <備考>:(§n)は日英機械翻訳機能試験文リストの章番号を示す。

   表記の揺らぎ
    ・漢字/仮名表記の揺らぎ  ・送り仮名の揺らぎ  ・繰り返し記号
   語義の訳し分け
      同型単語の訳し分け
       ・動詞  ・名詞  ・形容詞  ・副詞  ・その他
      特殊単語の訳し分け
       ・「もの」 ・「こと」 ・形式名詞「の」 ・助詞「と」  ・「で」
       ・補助形容詞「よい(いい)」  ・「ない」
   主体的表現の訳し方
      助詞による取立ての訳し方
       ・「に」 ・「へ」 ・「から」 ・「まで」 ・「より」 ・「も」 ・各種取立て
      位置的関係と時間的関係の訳し方
       ・上下関係 ・前後関係 ・左、右関係 ・中、内、外の関係 ・間の関係 ・その他の関係
      様相的表現の訳し
       ・時制 ・状態、状況、様態 ・推量 ・意思 ・当然、必然 ・希望 ・許可、禁止
       ・義務 ・自発 ・可能表現 ・受け身 ・擬似受け身  ・使役・受益  ・被益
       ・伝聞 ・否定 ・命令  ・各種様相
   述部の訳し方[動詞類]
       ・一般動詞  ・「だ」文  ・体言述語  ・複合動詞  ・複合名詞の動詞的用法
       ・補助動詞  ・共起名詞着目型  ・用言性慣用句   ・その他動詞
   複合語に着目した翻訳機能
      固有名詞表現の訳し方
       ・地名 ・地形名 ・行政区画名 ・人名 ・役職名 ・企業名 ・団体名
      日時・数量の訳し方
       ・日時(暦日、非暦日)  ・数量  ・各種数量
      複合語一般
       ・接頭接尾辞 ・用言性名詞着目型 ・機能語着目型  ・名詞修飾型
       ・名詞連続型 ・並列型複合語   ・その他
   修飾構造表現の翻訳機能
      形容詞的表現[体言−体言、用言−体言]の訳し方
       ・連体詞  ・決まり文句  ・連体詞型連語  ・各種名詞句  ・区間の形容
      名詞句一般の訳し方[体言−体言]
       ・助詞「の」 ・決まり文句 ・並立、並列 ・例示 ・用言性名詞 ・各種名詞句
      名詞節の訳し方[用言−体言]
       ・埋め込み文  ・並列埋め込み ・不定節  ・その他名詞句
      副詞的表現の訳し方[副用語−用言]
       ・副詞 ・連用形副詞 ・原因、理由、結果 ・決まり文句 ・連用型連語 ・副詞節
   慣用構造表現の訳し方[特殊構造、順序構造]
       ・天候、気象表現 ・「はが」構文 ・比較表現 ・引用、伝聞表現 ・呼応表現
       ・同格表現  ・列挙表現 ・順序表現 ・独立語 ・比喩 ・その他構文
   照応構造表現の訳し方
      指示表現の訳し方
      省略表現の訳し方
       ・文内補完型  ・文間補完型
   文接続表現の訳し方
    ・独立接続詞 ・条件接 ・原因/理由/手段/目的/結果  ・時間的関係接続
    ・同時型接続 ・用言性名詞接続 ・連用中止、体現止め接続  ・その他の文接続
   並列構文の訳し方
   長文の訳し方
   疑問文の訳し方
      疑問詞型疑問
      肯定否定型疑問

図7 日英機械翻訳における機能試験項目




5.2 試験文の作成

上記の各試験項目は, 部分的で局所的な表現を対応させることができるが, このような部分的表現では翻訳できないことが多く, また, 単独で翻訳しても現実の文中で翻訳できなければ意味をなさない. そこで, それぞれ文に埋め込まれた表現の部分として評価するものとし, 試験項目ごとに複数の試験文を用意する. 試験文が複雑になると, 着目するポイント以外の理由で翻訳に失敗することが増加するので, 評価すべき項目は試験文1文当り1項目とし, 試験文は必要以上に複雑化しない.

次に, 試験文の数については, ランダムに抽出した標本でほぼ信頼できる (誤差2〜3割の範囲)生起頻度は5〜10回であることを考慮し, 一つの試験項目に約10件の試験文を 対応させることとした*6. 具体的には, 機能試験項目の網羅性の検討で使用した日本語の部分的な表現に対して その前後の表現を文脈を変えないように単純化して合計6200文の試験文集を作成した. なお, 標本の集まりにくかった項目については新たな文例(全体の約2割)を 作成して*7付加した. 試験対象の表現に使用した資料と試験文に使用した表現の数を表1に示す. また, 試験文の例を図8に示す.

表1 表現抽出に使用した資料と試験文に採用した日本語表現の数

 ‘経産業新聞(情報,産業,AI欄)‥‥‥‥‥‥約350件
 ▲愁侫肇Ε┘∪澤彌顱淵肇薀劵奪システム)‥‥約350件
 ハードウエア装置設計書‥‥‥‥‥‥‥‥‥‥‥約200件
 ぃ裡硲縫縫紂璽后癖垢写し)‥‥‥‥‥‥‥‥‥約500件
 ス盥賛科書(物理, 生物)‥‥‥‥‥‥‥‥‥‥約200件
 γ羈慷科教科書‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥約300件
 Ф飢文κ庫―顱邸邸邸邸邸邸邸邸邸邸邸邸邸邸邸徒鵤毅娃扱
 ┳惺傘冓庫,隆霑叩邸邸邸邸邸邸邸邸邸邸邸邸邸徒鵤横娃扱
 IPAL和語系動詞使用例‥‥‥‥‥‥‥‥‥‥‥‥約200件
 和英辞書(各種)‥‥‥‥‥‥‥‥‥‥‥‥‥‥約400件
 外国人のための日本語例文‥‥‥‥‥‥‥‥‥‥約200件
 日本語基本1000文型‥‥‥‥‥‥‥‥‥‥‥約400件
 受験英語参考書(英語文法, 英作文)‥‥‥‥‥約250件
 電子協試験文‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥約 20件
 その他各種文献‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥約930件
 或靴燭忘鄒したもの‥‥‥‥‥‥‥‥‥‥‥約1, 200件
 ────────────────────────────
     合計               約6, 200件


 §1 表記の揺らぎ
 (1)添字/仮名表記の揺らぎ
   −−〔昌譟檗檗檗
   鍍金がはげる。「鍍金」
   メッキがはげる。「メッキ」
   私は胡麻を擦る。「胡麻」
   私はごまをする。「ごま」
   −−動詞−−−−
   鐘が鳴る。「鳴る」
   鐘がなる。「なる」
 §2 同型単語の訳し分け
 (1)動詞の訳し分け
   −−「行った」−−
   太郎は東京へ行った。
   花子はテニスを行った。
   彼は魚を釣りに行った。
   −−「出す」−−
   船頭が舟を出す。
   有志が雑誌を出した。
   彼は喜びを顔に出した。
   車がスピードを出した。
   彼は新聞に広告を出した。
   彼女は客に紅茶を出した。
   彼は展覧会に絵を出した。
 3.特殊単語の訳し分け
 3.1 「もの」の訳し分け
 (1)形容詞十もの(the+形容詞)の型
   この試験は入学試験と同一のものです。
   本システムは以下のものから構成される。
 (2)特定の名詞の代用表現の訳し方
    その道具と同様のものが要る。
    一部のビデオで音声の出ないものがある。
 (5)訳さない「もの」
 −−|噂磴北技觸侏茲襪發痢檗檗檗
   この文書は日米関係に関するものである。
   本章はシステム全体の特徴を示すものである。
 −−意訳の必要なもの−−−−
   この写真は兄弟が二人仲良く並んだものです。
   母親というものは自分の子供を弁護するものだ。
 3.5 各種「で」の訳し分け
 −−―動詞「だ」の連用中止−−−−
   彼の意見は問題でない。
 −−道具、手段、方法−−−−
   私はペンで字をかく。
 −−材料−−−−
   発条は鉄で作られる。
 −−ね融辧形態−−−−
   楽な気持でやってください。
 −−ッ碓漫Π嫐−−−−
   私は三百円で買いました。
 −−場所−−−−
   生徒は教室で勉強する。
 −−Ц彊、理由−−−−
   皆が寒さで苦しむ。

 −−┝臑里痢屬如覆蓮法廖檗檗檗
   家族で家を見に行った。
 −−噂、時間−−−−
   彼はあと三日で仕上げます。
 −−その他−−−−
   これは彼が自分でかいた絵だ。
   鯨の捕獲をを禁止することで合意した。
 7. 複合語一般の訳し方
 7.1 接頭接尾辞の訳し方
 (1)接頭辞の訳し方
 「大」
   私は大満足だった。
   彼は大手柄をたてた。
 (2)接尾辞の訳し方
 (3)接頭接尾双方をもつ複合語
 7.2 用言性名詞に着目した訳し方
 (1)連用形名詞複合語の訳し方
   価格引き上げは不評だ。
 (2)用言性名詞を修飾する表現の訳し方
   企業活動が活発だ。
   住宅販売は順調だ。
 (3)用言性名詞で修飾の訳し方
   彼は大満足人間だ。
   彼女は変化量を計った。
   生活環境が良くなった。
 (4)用言性名詞動詞の結合の訳し方
   両社は販売契約を結んだ。
   国会は移転計画を進める。
 7.4 機能語に着目した訳し方
 (1)動詞の格構造応用型機能語の訳し方
   道路掘削工事が始まった。
   パック入り牛乳は少し安い。
 (2)接辞機能語の訳し方
 −− 崟賤僉廖檗檗檗
   警察専用回線が切れた。
   非常時専用電話が鳴った。
 −−◆嵳僉廖檗檗檗
   このビルには婦人用トイレがない。
   航空機用電線の軍用規格が決まった。
 −−「間」−−−−
 7.5 名詞修飾型複合語の訳し方
   彼女は長期休暇をとる。
   円高状況が続いている。
   大型台風が接近している。
 7.6 名詞連続型複合語の訳し方
   冬は山岳事故多い。
   市場シェアが低い。
   最近小雨続きで寒い。
 7.7 並列・対比型複合語:その他
 −− 嵎体鸞佝罅廖檗檗檗
   カメラには大型中型小型がある。
   新処理対旧処理の関係を表に示す。
   これらは多数対多数型関係を持つ。

図8 機能試験文の例




5.3 試験の方法

(1) 評価の基準

翻訳結果の評価方法としては, 次の2通りを考える.

 着目機能のみの評価: 各試験文の着目している表現部分のみについて正誤を判定し集計する.
 1文単位の訳文評価: 着目する表現だけでなく, 1文ごとに訳文の正誤を判定する方法.

機能試験の性格から見れば,諒法が望ましいが, 翻訳可否は着目する表現だけでなくその周辺の表現との関係で決まるため, 着目する部分だけで評価するのは正確でない. しかし, 逆に周辺の表現は単純化されているため, 翻訳失敗は少ないことを考えれば, ,侶覯未廊△侶覯未搬腓く異ならないと予想されるから, 簡単のため△諒法で評価すればよいと 考えられる*8.

採点基準は, 試験文の構造が一部を除いて単純であることから, ◎, ○, △, ×程度の判定でよいと考えられる. ここでは, 4段階評価法を提案し, ALPACを拡張した10点満点法[池原92]との関係を表2に示す.

表2 日英翻訳文の品質評価基準
評価の観点 4段階評価法 10点満点評価法
評価判断基準 得点評価点の付与基準
































合格
英語として十分通用する。
(簡単な修正で印刷用に使用できる)
理解可能

(訳文だけで、原文の意味が正しく分かる)
10点 英語らしく明解で完全に理解できる。用語、語形、構文に誤ったところがない。
9点 もう少し英語らしい適切な言い方があるが、他は上記に同じ。
8点 明解でほぼ完全に理解できる。 しかし、あまり重要でない点で文法やスタイルに不適切さがあり、 おかしな言葉使いがあるが、訂正は容易。
7点 概して明瞭で理解できるが、スタイル、用語、構文が上記より若干貧弱。
6点 言いたいことか大体すぐ分かる。 しかし、スタイル、用語、表現選択のまずさ、翻訳もれの言葉、 文法的に誤った配置などがあり、包括的な理解が妨げられる。 ポストエディットのできる限界。



惜しい 5点 良く考えると概要はほぼ分かる。 用語のまずさ、奇怪な構文、訳し漏れの言葉があり、正確さを欠く。
× 上記以外 4点 分かるような気がするが、実際には分からぬとも言える。 仮装行列のような訳。用語、構文、表現が全般的におかしく、重要語の訳しもれがある。 以心伝心の感。
3点 全般的に理解不能。意味がないように見えるが、 よく考えてみると言いたいことについての仮説ができる。 部分的には分かるところがある。
2点 部分的にも全体的にも理解不能だが、言いたいことが匂う。
1点 殆ど絶望的だが、完全に無意味だとは言い切れない。
0点 完全に理解不能。 いくら考えても言っていることがさっぱり分からない。 (アポートや訳文出力の無いものはこのランク)
[備考] 経験によれば、採点のばらつさを押さえるには、まず6点以上か否かを判定し、 6点以上のものについては、8点以上か否かを判定、 その後、一点刻みの判定を行うのが適切と判断される。 また、採点者によるばらつきの評価の例では、 翻訳専門家3名が独立して採点した場合で、 評価点の分散、標準偏差共に0.5〜0.6程度に押さえられ、 人により平均点から1点以上の差がつくのはまれであったが、 この程度の差でも、6点近傍に集中する試験文では、 合格率に10%以上の大きな差を生じることかあるので、注意が必要である。

(2) 試験の条件

試験文に使用した単語は必ずしも通常の一般語とは限らず, 専門語も含まれているので試験の方法としては, 以下の3通りの方法が考えられる.

 完全ブラインドテスト: 試験文に合わせた準備をいっさい行わず, 翻訳し, 得られた結果を評価する.
 利用者辞書登録型ブラインドテスト: 1回機械翻訳して得られた未知語を利用者辞書に登録した後, 再度翻訳して, その結果を評価する. ただし, システムがあらかじめ所有している語を 改めて利用者辞書に登録することはしない. また, 未知語となった一般複合語(企業名, 団体名等の固有名詞と専門用語は除く)を 一語として登録してはいけない.
 ウインドウテスト: システム辞書, 利用者辞書, ルールなどの追加修正の後, 翻訳実験を行う.

,倭膿佑陵用者から見た翻訳システムの能力, △聾漆佑陵用者が引き出せる能力, は研究者・開発者から見た技術的限界能力といえる.




6. むすび

言語過程説の立場から, 対象に対する話者の認識が入れ子構造で段階的に構成される点に着目して, 日本語表現を5段階の階層的な表現体系に分類整理するとともに, 日本語と英語の発想法の違いから機械翻訳で考慮すべきポイントを加えて, 日英機械翻訳で試験すべき基本機能項目約600種を抽出整理した.

また, 試験項目の網羅性を検討するために使用した約2万文の標本文中から, 機能試験項目ごとに約10件の日本語表現を抽出し, 日英機械翻訳基本機能試験用の試験文集(約6200文)を編集した.

いくつかの翻訳システムの評価と問題分析に適用した経験によれば, 本試験文集の実現によって, 翻訳機能ごとに見た各システムの得手不得手を数量的に把握することが容易になり, システムの問願点の分析がしやすくなった.

本試験項目と試験文は日英機械翻訳の基本機能の試験を目的に編集したものであるため, 日英の言語現象の相違点を重点的に取り上げているが, 日本語表現の分類と体系化の観点からの網羅性も重視して作成しており, 日本語パーサの基本機能の試験用としての使用も期待できる.

なお, 本研究では, 基本的な翻訳機能を網羅的に試験することを狙いとしたが, 実際のドキュメントでは使われる表現のタイプや性質に偏りがあると考えられる. そこで, 今後は, 本機能試験項目のそれぞれの成績と, 新聞記事, 技術マニュアルなどの現実の文書の翻訳能力の対応関係についても研究していく 予定である*9.




謝辞

研究全般にわたって日頃ご指導いただいているコミュニケーション科学研究所河岡所長に深謝する. また, 本研究遂行にあたってご討論いただいた横尾, 中岩両主任研究員ほか翻訳研究グループの方々に感謝する.




◇参考文献◇

[ALPAC 66]
Automatic Language Processing Advisory Committee (ed.): Language and Machines: Computer in Translation and Linguistics: A Report by the Automatic Language Processing Advisory Committee (ALPAC), National Research Council Publication 1416 (1966).

[安西83]
安西徹雄: 英語の発想, 講談社現代新書 (1983).

[DARPA 92]
Report of the DARPA Machine Translation Program System Evaluation (July-Aug. 1992).

[江副87]
江副隆秀: 外国人に教える日本語文法入門,創拓社 (1987).

[池田89]
池田尚志: 助詞「が」の働きについて−認知的なレベ ルからの考察−, 信学論, Vol.J72-D-II, No.11 (1989).

[池原90]
池原 悟,小倉健太郎: 日英機械翻訳における機能試験項目の検討, 信学会 1990秋季全大, D-68 (1990).

[池原92]
池原 悟: 翻訳システムの評価法, MTワールド'92 (92.3.19).

[JEIDA 92]
JEIDA Methodology and Criteria on Machine Translation Evaluation, Japan Electronic Industry Devel opment Association (Nov. 2, 1992).

[久野73]
例えば, 久野すすむ: 日本文法研究, 大修館書店 (1973).

[三浦75]
三浦つとむ: 日本語の文法, 勁草書房 (1975).

[三浦76]
三浦つとむ: 日本語はどういう言語か, 講談社学術文庫 (1976).

[水谷83]
水谷静夫: 国文法素描, 「文法と意味I」1章, 朝倉書店 (1983).

[森田81]
森田良行: 日本語の発想, 冬樹社 (1981).

[長尾85]
長尾 眞: Muプロジェクトにおける日英翻訳結果の評価, 情処学会NL研, 85-NL-47-11 (1985).

[成田88]
成田 一: 機械翻訳における構造処理能力の評価, 情処学会NL研, 88-NL-69-1 (1988).

[時枝41]
時枝誠記: 国語学原論, 岩波書店 (1941).

[Tomita 92]
Tomita, M.: Application of the TOEFL Test to the Evaluation,BASIS for FUTURE DIRECTION, MT Evaluation Workshop (Nov. 2-3, 1992).

[氏家87]
氏家洋子: 認知過程の内容−シンタックスと語話状況より見た代名詞−, 国文学・解釈と鑑賞, Vol.52, No.2 (1987).
〔担当編集委員・査読者:松本裕治〕


著者紹介

池原 悟(正会員)
1967年大阪大学基礎工学部電気工学科卒業. 1969年同大学大学院修士課程修了. 同年, 日本電信電話公社に入社. 以来, 電気通信研究所において数式処理, トラヒック理論, 自然言語処理の研究に従事. 現在, NTTコミュニケーション科学研究所池原研究グループ・リーダ(主幹研究員). 工学博士. 1982年情報処理学会論文賞, 1993年情報処理学会研究賞受賞. 電子情報通信学会, 情報処理学会, 言語処理学会各会員.

白井 諭
1978年大阪大学工学部通信工学科卒業. 1980年同大学院博士前期課程修了. 同年, 日本電信電話公社入社. 現在, NTTコミュニケーション科学研究所主任研究員. 自然言語処理の研究に従事. 電子情報通信学会, 情報処理学会, 言語処理学会各会員.

小倉 健太郎(正会員)
1978年慶應義塾大学工学部管理工学科卒業. 1980年同大学院修士課程修了. 同年, 日本電信電話公社入社. 現在, NTTコミュニケーション科学研究所主任研究員. 機械翻訳の研究に従事. 電子情報通信学会, 情報処理学会, 言語処理学会, 計量国語学会各会員.





Footnote
*1 機械翻訳の機能試験項目を抽出する方法としては, 目的言語の表現生成を重視し, 英語の表現体系に立脚して試験項目を設定する方法も考えられる. その場合は, 英語教育用の多数の資料が使用できるが, 日本語から見れば偏った試験項目になる危険性がある. 本論文では, 実用日本文の翻訳に必要な機能試験項目を抽出する立場から, 日本語側の表現体系をベースに試験頂目を整理する. (Return)
*2 例えば, 「けっして〜ない. 」などの呼応関係は入れ子で説明できない (入れ子破りの)構造と見られていたが, これを図1の下に示すように, 詞と辞のレベルを分けることにより入れ子破りとはならないようにした. なお, 辞に関しては, 助詞「が」の認知過程からの考察[池田89]があるが, これも三浦文法の指摘に沿う説明である. (Return)
*3 関数とその引数の関係で見れば, 表現素が引数, 構造素は関数に相当する. (Return)
*4 例えば, 新聞記事文の統計データでは, 1文当り出現頻度は3.8件である. (Return)
*5 「観念的自己分裂」:三浦つとむが使用した言葉[三浦76]. 目の前にない対象を描くとき, 現実の話者のコピーともいうべき観念的な話者が現れて, その話者の目を通して対象があたかも目の前にあるように描写する. このような場合に観念的な話者の現れる現象を説明する言葉. (Return)
*6 試験項目は, 機械翻訳の試験としての重要性を考慮して細分化しているため, 試験文数は試験対象の重要性に応じて配分されることになる. (Return)
*7 文法書類, 国語辞書の語釈文などを参照するとともに, すでに得られた文例から類推するなどにより作成した. (Return)
*8 実際のシステムの評価実験に使用した経験で, 着目する表現以外の部分で翻訳に失敗する例もあるが, 試験項目ごとの成績には大きな差が現れ, 機能項目別に見たシステムの得手不得手が評価できる. (Return)
*9 試験文集についても使用経験によってさらに改良できれば幸いである. 試験文集の必要な方は著者宛にご請求されたい. (Return)