第1回LACE辞書委員会報告 13-Jun-1998

構文意味辞書の構築経過と今後の課題

NTTコミュニケーション科学研究所
白井諭



[ 第1回LACE辞書委員会, pp.1-16 (1998.6). ]
[ 1st Meeting on dictionary of LACE, pp.1-16 (June, 1998). ]



    
1 はじめに

対訳表現のルール化
日英機械翻訳の精度を向上

日本語語彙大系
意味体系
単語の用法に基づく意味属性の分類と体系化
単語体系
実用規模の単語に対する意味属性の付与
構文体系
格要素と述語の共起の記述と英語文型の付与

現状の到達点と問題点
結合価パターン対辞書
(構文意味辞書)
定型表現
広域構造変換
句表現



2 結合価パターン対の収集経過

石綿,荻野「日本語用言の結合価」
水谷,石綿,荻野,賀来,草薙,青山: 文法と意味I,朝倉書店,1983

「用言を『体言+格助詞』との結合関係でとらえ, 各々の型を体言の意味特徴と格助詞の種類によって記述した」

体言の意味特徴: 11分類
1,154用言に対する1,775文型を記述

課題:
対象用言数を増やす
名詞の分類を詳細化
対応する英語文型を記述



2.1 和英辞書からの収集

利用可能なデータ:
英和辞書: 日本語表現が説明的
和英辞書: 単語に対する訳語が中心
両者併用: 作業の手間

問題:
辞書は高頻度語の高頻度語義が対象

第1ステップとして:
和英辞書の見出し語を基準
対訳例文から日英の基本構造を抽出

結果:
5,600用言
10,000(一般)+3,000(慣用)パターン



2.2 日本語辞書からの収集

IPAL動詞辞書:
和語動詞861語(漢字異なりは約1,200語)
詳細な語義分類
各語義に1〜3例文を付与(計5,243文)

例文に十分通用する直訳的な英訳文を付与
1,532パターンを新規に抽出

問題点:
語義分類の適切性が不明
例文数が日英翻訳の観点では不足


IPAL形容詞辞書:
形容詞136語(漢字標記異なりは約200語)
IPAL動詞辞書より詳細な語義分類
各語義に1〜3例文を付与(計1,917文)

問題点: 直観的には細かすぎるのではないか



2.3 対訳用例からの収集

日本語例文の網羅的収集
英訳文の付与

IPAL辞書見出しを参照:
和語動詞(1,200語, 10,500文)
イ型形容詞(200語, 1,900文)

問題: 対訳例文の収集


現代国語例解辞典
(第一版1985, 第二版<二色刷>1997, 小学館)

複合和語動詞(2,000語, 収集済, 整理中)
ナ型形容詞(2,000語, 収集中)
漢語動詞(予定)
和語動詞補遺(予定)

英和辞書の訳語からの組み合わせ訳の収集



3 結合価パターン対の収集内容



3.1 基本文型の収集

日本語動詞の訳語選択
五文型, 格要素の日英対応の明らかなもの中心



3.2 拡張文型の収集

固定表現を伴う英語文型
パターンとしての対応付け



3.3 現在の収集対象

副詞相当を含む文型
(数量, 時間等, 助詞を伴わない格要素)
副詞により特徴づけられる文型
広義の様相が付加される文型
(述語語尾表現, 連体修飾可否)

問題:
1述語表現の限界
特殊構文(二重主格, 比較等)



4 結合価パターン対の記述内容

述語
格要素
付加情報等



4.1 述語

初期:
動詞−verb, 形容詞−be+adjective/be+noun

現在:
パターンとしての対応付け
名詞述語も取集対象
晴れだ → it be fine

問題:
that節や不定詞句をとる表現



4.2 格要素

特殊な格要素:
慣用表現
1格要素を固定的に扱う
→2格要素以上を固定的に扱いたい場合
機能動詞
動作を表す格を述語に変換
→格要素のまま訳した方がいい場合

格要素の条件記述:
初期
格要素の名詞条件はなるべく汎化
→パターン数増に伴う訳し分け不良
中期
細かいカテゴリを記述
→カテゴリ体系との不整合
現在
字面指定, 修飾語指定
→慣用表現との関係

格ラベル:
初期
深層格を意識した分類(動詞・形容詞別)
→格の働きが日英で異なる場合
→動詞・形容詞が日英で異なる場合
現在
動詞・形容詞の統一化
日本語で格の働きを判定
→用言意味属性指定のミスマッチの解消

必須格:
初期
日本語における必須格指定を狙う
→必須性の判定が主観的
現在
英語表現を特徴づけるもの

前置詞:
一般には名詞との関係で決まる
英語パターンとしての条件記述方法の改良



4.3 付加情報等

冠詞と数:
見直し中

N1が/N2〔学校〕へ/行く → N1 go to N1:無冠詞
特定の学校を指していれば冠詞が必要になる

N1が/N2を/集める → N1 collect N2:複数
N2は一般に複数でなければならない

様相表現:
見かけ上の時制が一致しない表現

N1が/うまく/いく → N1 will do
N1が/身の破滅と/成る → N1 would be the cause of ruin
お茶が/入りまし→the tea is ready

その他の条件:
連体修飾での使用可否
格要素ごとの連体修飾可否
付加可能な様相表現

その他の課題:
用例の付与
パターン対の意味の直観的理解
読みの付与
質[しつ|たち]が/悪い



5 結合価パターン対の作成支援

入力: 対訳表現対 = うまく訳せなかったもの

日英それぞれの構造分析
(作成済みパターン対の形式を参照)
格要素対応の発見
(対訳辞書の利用)
格要素の名詞の汎化
(カテゴリ木の表示 → 機械学習の応用)
走行試験
(他のパターンとの優先関係の調整)

辞書全体としての整合



6 その他の表現対の収集

定型的な表現
複数用言を含む表現
句表現



6.1 定型的な表現

連鎖共起表現(N-gram統計処理)
任意の文字列を長さ順/頻度順に抽出
強抑制: 部分列は一切カウントしない
弱抑制: ほかにも現れるならカウント
無抑制: 部分列であってもカウント

離散共起表現(連鎖共起表現の組み合わせ)
条件1: 構成要素はすべて異なる
条件2: 着目要素の出現は1回に限る
強抑制: 条件1と条件2を満たす
弱抑制: 条件1を満たす
無抑制: 単純に組み合わせを作成

置き換えによる離散共起の連鎖表現化
離散共起表現の間に現れる表現をグループ化

拡張離散表現による定型的表現の抽出



6.2 複数用言を含む表現

広域構造変換
歩いてXへ行く→walk to X
走ってXへ帰る→run back to X
Xに来てYになる→have lived
XスルのにYかかる→it takes Y to do X
XはYスル存在だ→X is [category X] that do Y

問題: 表現対の収集



6.3 句表現

自動前編集を目指す
決めうちは副作用

日本語内書き替え(難しい)
疑似的日本語への書き替え
助詞相当句を前置詞相当句に訳出
助動詞相当句を様相的表現に訳出



7 おわりに

対訳データの確保
単言語コーパスの利用

作例の利用と評価
新聞記事の自動的対応付け

タグ付きコーパスの構築