| 1 はじめに | ||
| 対訳表現のルール化 | ||
| 日英機械翻訳の精度を向上 | ||
| 日本語語彙大系 | ||
| 意味体系 | ||
| 単語の用法に基づく意味属性の分類と体系化 | ||
| 単語体系 | ||
| 実用規模の単語に対する意味属性の付与 | ||
| 構文体系 | ||
| 格要素と述語の共起の記述と英語文型の付与 | ||
| 現状の到達点と問題点 | ||
| 結合価パターン対辞書 | ||
| (構文意味辞書) | ||
| 定型表現 | ||
| 広域構造変換 | ||
| 句表現 | ||
| 2 結合価パターン対の収集経過 | ||
| 石綿,荻野「日本語用言の結合価」 | ||
| 水谷,石綿,荻野,賀来,草薙,青山: 文法と意味I,朝倉書店,1983 | ||
| 「用言を『体言+格助詞』との結合関係でとらえ, 各々の型を体言の意味特徴と格助詞の種類によって記述した」 | ||
| 体言の意味特徴: 11分類 | ||
| 1,154用言に対する1,775文型を記述 | ||
| 課題: | ||
| 対象用言数を増やす | ||
| 名詞の分類を詳細化 | ||
| 対応する英語文型を記述 | ||
| 2.1 和英辞書からの収集 | ||
| 利用可能なデータ: | ||
| 英和辞書: 日本語表現が説明的 | ||
| 和英辞書: 単語に対する訳語が中心 | ||
| 両者併用: 作業の手間 | ||
| 問題: | ||
| 辞書は高頻度語の高頻度語義が対象 | ||
| 第1ステップとして: | ||
| 和英辞書の見出し語を基準 | ||
| 対訳例文から日英の基本構造を抽出 | ||
| 結果: | ||
| 5,600用言 | ||
| 10,000(一般)+3,000(慣用)パターン | ||
| 2.2 日本語辞書からの収集 | ||
| IPAL動詞辞書: | ||
| 和語動詞861語(漢字異なりは約1,200語) | ||
| 詳細な語義分類 | ||
| 各語義に1〜3例文を付与(計5,243文) | ||
| 例文に十分通用する直訳的な英訳文を付与 | ||
| 1,532パターンを新規に抽出 | ||
| 問題点: | ||
| 語義分類の適切性が不明 | ||
| 例文数が日英翻訳の観点では不足 | ||
| IPAL形容詞辞書: | ||
| 形容詞136語(漢字標記異なりは約200語) | ||
| IPAL動詞辞書より詳細な語義分類 | ||
| 各語義に1〜3例文を付与(計1,917文) | ||
| 問題点: 直観的には細かすぎるのではないか | ||
| 2.3 対訳用例からの収集 | ||
| 日本語例文の網羅的収集 | ||
| 英訳文の付与 | ||
| IPAL辞書見出しを参照: | ||
| 和語動詞(1,200語, 10,500文) | ||
| イ型形容詞(200語, 1,900文) | ||
| 問題: 対訳例文の収集 | ||
| 現代国語例解辞典 | ||
| (第一版1985, 第二版<二色刷>1997, 小学館) | ||
| 複合和語動詞(2,000語, 収集済, 整理中) | ||
| ナ型形容詞(2,000語, 収集中) | ||
| 漢語動詞(予定) | ||
| 和語動詞補遺(予定) | ||
| 英和辞書の訳語からの組み合わせ訳の収集 | ||
| 3 結合価パターン対の収集内容 | ||
| 3.1 基本文型の収集 | ||
| 日本語動詞の訳語選択 | ||
| 五文型, 格要素の日英対応の明らかなもの中心 | ||
| 3.2 拡張文型の収集 | ||
| 固定表現を伴う英語文型 | ||
| パターンとしての対応付け | ||
| 3.3 現在の収集対象 | ||
| 副詞相当を含む文型 | ||
| (数量, 時間等, 助詞を伴わない格要素) | ||
| 副詞により特徴づけられる文型 | ||
| 広義の様相が付加される文型 | ||
| (述語語尾表現, 連体修飾可否) | ||
| 問題: | ||
| 1述語表現の限界 | ||
| 特殊構文(二重主格, 比較等) | ||
| 4 結合価パターン対の記述内容 | ||
| 述語 | ||
| 格要素 | ||
| 付加情報等 | ||
| 4.1 述語 | ||
| 初期: | ||
| 動詞−verb, 形容詞−be+adjective/be+noun | ||
| 現在: | ||
| パターンとしての対応付け | ||
| 名詞述語も取集対象 | ||
| 晴れだ → it be fine | ||
| 問題: | ||
| that節や不定詞句をとる表現 | ||
| 4.2 格要素 | ||
| 特殊な格要素: | ||
| 慣用表現 | ||
| 1格要素を固定的に扱う | ||
| →2格要素以上を固定的に扱いたい場合 | ||
| 機能動詞 | ||
| 動作を表す格を述語に変換 | ||
| →格要素のまま訳した方がいい場合 | ||
| 格要素の条件記述: | ||
| 初期 | ||
| 格要素の名詞条件はなるべく汎化 | ||
| →パターン数増に伴う訳し分け不良 | ||
| 中期 | ||
| 細かいカテゴリを記述 | ||
| →カテゴリ体系との不整合 | ||
| 現在 | ||
| 字面指定, 修飾語指定 | ||
| →慣用表現との関係 | ||
| 格ラベル: | ||
| 初期 | ||
| 深層格を意識した分類(動詞・形容詞別) | ||
| →格の働きが日英で異なる場合 | ||
| →動詞・形容詞が日英で異なる場合 | ||
| 現在 | ||
| 動詞・形容詞の統一化 | ||
| 日本語で格の働きを判定 | ||
| →用言意味属性指定のミスマッチの解消 | ||
| 必須格: | ||
| 初期 | ||
| 日本語における必須格指定を狙う | ||
| →必須性の判定が主観的 | ||
| 現在 | ||
| 英語表現を特徴づけるもの | ||
| 前置詞: | ||
| 一般には名詞との関係で決まる | ||
| 英語パターンとしての条件記述方法の改良 | ||
| 4.3 付加情報等 | ||
| 冠詞と数: | ||
| 見直し中 | ||
| N1が/N2〔学校〕へ/行く → N1 go to N1:無冠詞 | ||
| 特定の学校を指していれば冠詞が必要になる | ||
| N1が/N2を/集める → N1 collect N2:複数 | ||
| N2は一般に複数でなければならない | ||
| 様相表現: | ||
| 見かけ上の時制が一致しない表現 | ||
| N1が/うまく/いく → N1 will do | ||
| N1が/身の破滅と/成る → N1 would be the cause of ruin | ||
| お茶が/入りました→the tea is ready | ||
| その他の条件: | ||
| 連体修飾での使用可否 | ||
| 格要素ごとの連体修飾可否 | ||
| 付加可能な様相表現 | ||
| その他の課題: | ||
| 用例の付与 | ||
| パターン対の意味の直観的理解 | ||
| 読みの付与 | ||
| 質[しつ|たち]が/悪い | ||
| 5 結合価パターン対の作成支援 | ||
| 入力: 対訳表現対 = うまく訳せなかったもの | ||
| 日英それぞれの構造分析 | ||
| (作成済みパターン対の形式を参照) | ||
| 格要素対応の発見 | ||
| (対訳辞書の利用) | ||
| 格要素の名詞の汎化 | ||
| (カテゴリ木の表示 → 機械学習の応用) | ||
| 走行試験 | ||
| (他のパターンとの優先関係の調整) | ||
| 辞書全体としての整合 | ||
| 6 その他の表現対の収集 | ||
| 定型的な表現 | ||
| 複数用言を含む表現 | ||
| 句表現 | ||
| 6.1 定型的な表現 | ||
| 連鎖共起表現(N-gram統計処理) | ||
| 任意の文字列を長さ順/頻度順に抽出 | ||
| 強抑制: 部分列は一切カウントしない | ||
| 弱抑制: ほかにも現れるならカウント | ||
| 無抑制: 部分列であってもカウント | ||
| 離散共起表現(連鎖共起表現の組み合わせ) | ||
| 条件1: 構成要素はすべて異なる | ||
| 条件2: 着目要素の出現は1回に限る | ||
| 強抑制: 条件1と条件2を満たす | ||
| 弱抑制: 条件1を満たす | ||
| 無抑制: 単純に組み合わせを作成 | ||
| 置き換えによる離散共起の連鎖表現化 | ||
| 離散共起表現の間に現れる表現をグループ化 | ||
| 拡張離散表現による定型的表現の抽出 | ||
| 6.2 複数用言を含む表現 | ||
| 広域構造変換 | ||
| 歩いてXへ行く→walk to X | ||
| 走ってXへ帰る→run back to X | ||
| Xに来てYになる→have lived | ||
| XスルのにYかかる→it takes Y to do X | ||
| XはYスル存在だ→X is [category X] that do Y | ||
| 問題: 表現対の収集 | ||
| 6.3 句表現 | ||
| 自動前編集を目指す | ||
| 決めうちは副作用 | ||
| 日本語内書き替え(難しい) | ||
| 疑似的日本語への書き替え | ||
| 助詞相当句を前置詞相当句に訳出 | ||
| 助動詞相当句を様相的表現に訳出 | ||
| 7 おわりに | ||
| 対訳データの確保 | ||
| 単言語コーパスの利用 | ||
| 作例の利用と評価 | ||
| 新聞記事の自動的対応付け | ||
| タグ付きコーパスの構築 | ||