日本語語彙大系の思想的背景

白井 諭
池原 悟
宮崎 正弘


[ 第2回「言語・認識・表現」研究会 (大津市), No.2, pp.左83-86. ]
[ In Proceedings of 2nd Meeting of Language, Cognition and Expression, pp.83-86:left (August, 1997). ]



目次

日本語語彙大系への道のり   ‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥ 83

日英機械翻訳のための意味属性体系   ‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥ 87
(電子情報通信学会技術研究報告NLC97−12〔言語理解とコミュニケーション〕(1997)所収)

日英機械翻訳のための単語辞書   ‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥ 95
(電子情報通信学会技術研究報告NLC97−13〔言語理解とコミュニケーション〕(1997)所収)

日英機械翻訳のための構文辞書   ‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥ 103
(電子情報通信学会技術研究報告NLC97−14〔言語理解とコミュニケーション〕(1997)所収)




日本語語彙大系への道のり

第2回LACE研究会
1997年8月27日
白井諭,池原悟,宮崎正弘

これまでの日英機械翻訳研究のいわば集大成として, 日英翻訳システムで使用している機械用辞書のうち, 意味(語義)に関する部分を岩波書店から出版する運びになりました。 内容的には見直すべきも残されており,今後も改良を続ける必要性を感じています。 しかし,言語処理という動機から出発した辞書を多くの方に見ていただき, さらなる発展を目指すための区切りを付けた次第です。

このような機械辞書を作るに至った経緯について簡単に紹介させていただきます。

1980年3月 日本語処理の研究グループ発足(池原,宮崎,森崎)
(日本電信電話公社 横須賀電気通信研究所 データ通信研究部 データ通信方式研究室)
1980年度
日本語処理に関する論文のサーベイ,言語処理資源の取得(池原,宮崎,森崎|白井)
池原(電総研関係),宮崎(京大関係ほか),森崎(九大関係),白井(文献整理)
新明解国語辞典の電子データの移植(開始=1980年秋)
長尾研の分かち書きプログラムの移植(開始=1981年初)
主として,言語処理をキャッチアップするための基礎知識の獲得を目指す。 合理主義に分類される方法論による研究が主流であったが, 経験主義的に研究を進めているグループがあることを知る。 ただし,経験主義には泥臭さのみを強く感じ,その意義を認識するには至らなかった。
1981年度
漢字かな変換システム(日本文音声出力を想定;形態素解析の実現) (池原,宮崎,後藤,白井)
長単位語・文節切り(白井)+複合語分割(宮崎)+辞書整備(後藤)
地名・人名・企業名・時事用語などの充実(市販の電子データの取り込み)
自然言語処理ツール等の整備(森崎)
漢字かな変換システムの構築を開始する。 新聞記事を対象としたことにより, 小規模の辞書ではトイモデル以上は望みえないことを実感する。 ただし,固有名詞を入れたことにより予想した以上に同形語処理が課題となる。 当時主流であった合理主義的方法論に疑問を感じ始める。
1982年度
日本文音声出力実験システム(池原,宮崎,後藤,大山,白井)
=漢字かな変換(宮崎,白井)+辞書整備(大山)+アクセント付与(後藤) +音声合成(壁谷,箱田)
1982年11月社外向けに展示,好評を博し,マスコミ各社に取り上げられる。
キーワード抽出システム(森崎|中園)
自然言語処理ツール等の整備(森崎)
日経新聞3カ月分(890万字)を漢字かな変換し,システムと辞書の改良を実施する。 自由文入力を受け付けることを決める。 この改良を通して経験主義の意義を体得する。 すなわち,大規模な辞書の重要性や, 個別の言語現象を丹念にルール化していくことの必要性を実感する。
1983年度
日本文音声出力システムの実用化(宮崎,大山)
三鷹地区のマルチメディア実験に参加, 新聞朗読・商品案内などに向け改良を進める。
キーワード抽出システム(森崎,中園)
誤字検出システム(白井,池原)
形態素解析誤りを逆用することにより誤字を検出し, 文字使用統計により訂正する。
日英翻訳システムの予備検討開始(森崎|林)
1983年夏「現代言語学批判」に出会う。 以降,三浦つとむ流言語過程説に傾倒する。 大規模辞書の必要性(質量変化の法則),経験主義の重要性(二重否定の法則)と, 合理主義の些未さを再確認する。 三浦言語学を日本語処理へ適用するためのシステム作りの模索を開始する。
1984年度
日本文音声出力システムの実用化(宮崎,大山)
ドキュメントリーダシステムと合わせ, 1987年VoiceTwin(新聞社用校正支援システム)として商品化する。
日本語索引自動生成システムの実用化(中園,白井)
主体的表現に着目して長単位語の重要性を定性的に判定することにより 高速化を達成する。
ドキュメントリーダシステム(白井,池原)
誤字検出システムをOCRの認識誤りに適用する (VoiceTwinの誤字検出の原形となる)。
日英翻訳システム(R0)(宮崎,林|奥)
結合価パターン対変換基本処理を実現 (日本文音声出力実験システムの日本語解析を流用) 要素合成の不備を例外処理で補う世の中の機械翻訳に対し, 意味を失わない表現単位を変換の基本とする機械翻訳の方式を模索し, 表現単位として結合価パターン対を仮定する。 三浦文法がヒントになった名詞抽出法を考案し, 日本語索引自動生成システムの実用化にこぎつける。
1985年度

4月から NTT
9月から
情報通信処理研究所
知能処理研究部
自然言語処理研究室
日英翻訳システム(R1)(宮崎,岡本,白井,横尾,林,奥|河合,石崎)
日本文解析・日英変換・英文生成の各処理の本格的試作を開始する。 意味属性体系の構築を開始する (初期は500程度,その後2,800ノードの木構造を実現)。 和英中辞典からの結合価パターン対を収集する (1986年度未には一般10,000件と慣用3,000件)。
この年以降,機械翻訳の研究が独立したグループになる
単語の意味的用法を網羅的に記述した辞書(意味辞書)の構築を開始する。 単語辞書には日英翻訳に必要な各種の属性の追加記述も進める。 構文辞書(結合価パターン対)は実フィールドでの使用を前提に フルスケールでの収集を目標とする。 三浦言語学に基づく理論武装を開始する。
1986年度
日英翻訳システム(R1/R2)(宮崎,岡本,白井,横尾,林,奥,河合,石崎)
R1で実現できなかった機能を整理し,R2としての機能強化を開始する。
英日翻訳システム(下村,片桐,小原,大山,小原|菊井)
計算言語学を全面批判し,三浦言語学に基づく新しい機械翻訳方式として論文投稿する (言語における話者の認識と多段翻訳方式)。 紆余曲折を経て査読コメントをクリアし,1987年未,情報処理学会論文誌に掲載される。 合理主義を志向するメンバとの意見調整に手間取ることが多くなる。
1987年度

8月から
情報通信処理研究所
自然言語処理研究部
日英翻訳システム(R2)(池原,宮崎,白井,横尾|中岩)
翻訳処理の開発環境の整備に取りかかる。 結果的に少人数でのシステム維持を可能にした。
英日翻訳システム(下村,片桐,小原,大山,小原,菊井|荻窪)
多言語情報検索システム(東田,林,奥,河合,石崎)
経験主義と合理主義の立場の違いから,翻訳システムの評価をめぐり意見が対立する。 研究リソースの集約を図るため, 経験主義の立場をとるメンバ中心に日英翻訳の研究に一本化する。
1988年度
日英翻訳システム(R2E)(池原,宮崎,白井,横尾,中岩,菊井,荻窪|巌寺)
新聞記事見出し翻訳支援システムの構築を試みる。 時事用語・専門語の取り込みを開始する。
特定用途向けシステムの実現も視野に入れながら研究を進める。 電子協の機械翻訳コンテストに向けてシステムを改良する。 (最終的には参加せず。 その後,報告書との比較では他社よりも高精度を達成していた。)
1989年度
日英翻訳システム(R2E)(池原,宮崎=〜9月,白井,横尾,中岩)
交換機設計書の翻訳支援システムの構築を試みる。 テクニカルライトと組み合わせると翻訳率が向上した。
特定用途向けのシステムの実現を継続する。 基礎研究への路線変更を打診されるが,実用志向路線を堅持する。 結果的にこの2年間のシステム改良は90年度の社外展示成功の伏線となった。
1990年度

(2月から)
情報通信処理研究所
メッセージシステム研究部
日英翻訳システム(R2E)(池原,白井,横尾,小倉,中岩,内野|松尾)
機能試験文(500文)による性能向上に着手する。
社外デモ展示を開始する(自由入力も実施する)
水谷東女大教授,長尾京大教授,成田阪大助教授らにデモを行なう。 やがて研究遂行の追い風につながる。 人工知能学会デモ(1990年7月;村上亜大教授の紹介)以降, NTTコレクション(社外向け展示会),同関西版, コミュニケーション東京(一般展示)など, 大規模な展示会への出展要請に応じる。
1991年度

7月から
情報通信網研究所
知識処理研究部
日英翻訳システム(R2E)(池原,白井,横尾,小倉,中岩,内野,松尾)
電子メール型日英翻訳システムの実験運用を開始する。
日本語辞書の公開要請(1991年9月頃,京大・長尾教授より)  ★社外デモ出展要請続く
基本処理の大幅な改良と各種新機能の検討を開始する。 辞書の開発体制を強化する。 文の中で単語の品詞を定義する必要性から, 三浦文法に基づく係り受け解析の検討を開始する。 実用化に向けた実験システム作りを再開する。 機能試験文(3,700文)を対象にした改良を重点化する。
1992年度
日英翻訳システム(R2E)(池原,白井,横尾,小倉,中岩,内野,松尾|Bond)
機能試験文(3,700文)に基づく改良を一区切りする。 (合格率:90未22%→91未29%→92末60%)
基本処理の改良と新機能の実現を継続する。 機能試験文対象のチューンアップを重点的に進める。 係り受け解析方式の確立をめざし,例文の分析を進めた結果, 名詞と名詞の関係(特に並列),名詞と述語の関係(結合価パターン対), 述語と述語の関係(接続)を重点課題に設定する。
1993年度
日英翻訳システム(R2E) (池原,白井,横尾,小倉,中岩,内野,松尾,Bond|山田)
国際調達文を対象とする日英翻訳支援システムの構築を試みる。
情報処理学会研究賞受賞 (日英機械翻訳のための意味解析辞書;池原,宮崎,横尾)
南不二男の従属節分類の考え方を応用することにより接続関係の解析の手がかりを得る。 既存の辞書項目を参考にすることにより新語への属性付与を支援する処理を実現する (手作業の2倍以上の効率化)。 結合価パターン対の適用性を拡張するための処理の枠組み改良を開始する。
1994年度

コミュニケーション科学研究所 (研究部なし)
日英翻訳システム(R3) (池原,白井,横尾,小倉,中岩,内野,松尾,Bond,山田|高橋)
自動書き替え処理(自動プリエディト)が機能的には完成し, 以後ルールの充実へ進む。 大量の言語データを分析する手段としてn−gram法の改良を開始する (池原,白井)。
結合価パターン対の追加収集を開始する(IPAL動詞辞書の例文を利用する)。 収集経過を踏まえ結合価パターン対の必要量を見積もる (一般20,000件,慣用5,000件,和語動詞のパターン対が大幅に不足)。 従属節の相互関係の解析法をまとめる。 引き続き個別の現象の整理を開始する。
1995年度
日英翻訳システム(R3) (池原,藤波,白井,横尾,小倉,中岩,内野,松尾,Bond,山田,高橋)
ルール型翻訳の改良(解析系:白井,横尾,松尾,内野; 変換生成系:小倉,中岩,Bond,山田,高橋)
市況速報記事翻訳システムの検討(藤波,白井)。
日本科学技術情報センター賞(学術賞)受賞 (意味解析型機械翻訳システムの研究;池原,宮崎,白井,横尾)
人工知能学会論文賞受賞 (言語表現体系の違いに着目した日英械械翻訳機能試験項目の構成; 池原,白井,小倉)
内省により和語動詞例文を網羅的に収集する。 商用の新聞記事データベースを利用して, 大規模な対訳例文集の作成に向けた検討を開始する。 結合価パターン対の作成支援処理の構築を開始する。 テンプレート型日英翻訳を実現する (市況速報記事では40%〜80%の文に適用される)。
1996年度

7月から
コミュニケーション科学研究所
知識処理研究部
日英翻訳システム(R3) (大山,藤波,白井,横尾,小倉,中岩,内野,松尾,Bond,山田,高橋|田中)
ルール型翻訳の改良 (解析系:白井,横尾,松尾,田中;変換生成系:小倉,中岩,Bond,山田)
用例利用型翻訳の検討・新聞記事対訳用例集の構築(白井,高橋)
市況速報記事翻訳システムの検討(大山,藤波,白井,内野)
日本語語彙大系の出版に向けて始動      ★LACE第1回開催(1996年10月4〜5日)
内省により和語形容詞例文を網羅的に収集する。 長文分割,括弧処理等,訳文品質向上に繋がる項目の予備的な検討を開始する。 形態素解析の改良に区切りを付ける(99.8%/語)。 語彙大系出版に伴う各種見直しから現状の問題を振り返る。 用例利用型翻訳の実証的研究を開始する。
1997年度
日英翻訳システム(R3)(大山,藤波=〜6月,白井,横尾=〜7月,小倉, 古瀬=7月〜,中岩,内野,松尾,Bond,高橋,田中|足立,麻野間,畑山)
ルール型翻訳の改良(解析系:白井,松尾,田中,畑山; 変換生成系:小倉,中岩,Bond,麻野間)
用例利用型翻訳の試作・新聞記事対訳用例集の構築(古瀬,高橋,足立)
市況速報翻訳システムの実現(大山,横尾,内野)
日本語語彙大系の出版(1997年9月予定)  ★LACE第2回開催(1997年8月26〜28日)
内省により複合和語動詞例文の網羅的に収集する。 対訳例文からの結合価パターン対の収集を加速する。 英和辞書からの結合価パターン対の取り込みの検討を開始する。