シソーラスで調べる
− 『日本語語彙大系』の概要と用法 −

池原悟 宮崎正弘 白井諭 横尾昭男



[ 日本語学, pp.33-43 (1997.11). ]
[ Nihongogaku, pp.33-43 (November, 1997). ]

(注:掲載記事は縦書き)



INDEX

     1 はじめに
2 どんな考えで作られているか
  [1] 単語の意味分類の考え方
  [2] 単語の意味分類の基準と精度
  [3] 動詞文型に対応する英語パターンの収録
  [4] 語彙の網羅性と情報の信頼性
3 どんな構造をしているか
4 どんな情報が収録されているか
  [1] 意味体系
  [2] 「単語体系」
  [3]「構文体系」
    (a) 一般表現文型パターン対
    (b) 慣用表現文型パターン対
5 どんな使い方ができるか
  [1] 日本語表現の言葉の意味を調べる場合
  [2] 日本文(動詞の用例)を作成する場合
  [3] 類語検索で使用する場合
  [4] 教育や翻訳の現場で使用する場合
  [5] 国語学・言語学の研究で使用する場合
6 おわりに
  参考文献



1 はじめに

シソーラス(thesaurus)は、元来、ことばや知識の宝庫を意味することばであるが、 一八五一年に、イギリスのロジェ(Samuel. R. Roge)が単語の意味分類辞書を作成し、 これをシソーラスと呼んで以来、 語や句を意味によって分類し、配列した辞書をシソーラスと呼ぶようになった。 日本語では、分類語彙表、類語辞典などと呼ばれている。

日本語のシソーラス(荻野・一九八七)としては、 単語の同義語や類義語を分類整理し、階層的な木構造にまとめたものとして、 『分類語彙表』(国語研究所・一九六四)や 『角川類語新辞典』(大野、浜西・一九八一)がある。 計算機による情報処理の分野でも、シソーラスは大変重要で、 新聞記事検索などの情報検索の分野では、さまざまなシソーラスが作成され、 検索用のキーワードを調べるのに用いられている。 また、最近では、言語の意味解析での重要性が認識され、 概念辞書(EDR 1990)が作成されたほか、 オントロジ(Ontology)と称し、言葉のより詳細な情報を収録した辞書作成の提案が行われている。

これらの動きに加えて、この九月、 岩波書店より『日本語語彙大系』(池原他・一九九七)と称する 大規模な日本語のシソーラスが出版された。 この辞書は、NTTが日英機械翻訳システムを実現するため、 過去一〇年以上にわたって作成してきた計算機用の意味辞書 (池原他・一九九三)を 人間用に編集したもので、規模が大きいだけでなく、 その内容は、世界的に見ても従来のシソーラスにない多くの特徴を持っている。 また、この辞書は、レキシコグラフィ(lexicography)の観点からも、 人間が使いやすいようなさまざまな工夫が行われており、今後、多方面での応用が期待される。 そこで、本稿では、『日本語語彙大系』がどのような辞書であり、 どのような使い方ができるかについて紹介する。




2 どんな考えで作られているか

[1] 単語の意味分類の考え方

『日本語語彙大系』の特徴として、まず第一に挙げられるのは、 この辞書は、従来の類似の辞書と異なり、単語を語義によって分類するのでけなく、 意味的な用法によって分類している点である。

計算機処理では、単語が複数の語義を持つこと、 また語義によって用法も異なることが最大の問題である。 この問題を解決するため、この辞書は、実際の日本語表現で使用された単語の多義を その単語の意味的な用法を調べることにより解決することをねらって作成されている。

従来、単語の意味を扱う方法として、「意味素」「意味素性」「意味標識」などの考えがあるが、 これらは語義を構成要素によって規定することをねらったものであり、 そのまま現実の言語表現に適用することは適当でない。

実際の言語表現では、同じ対象を表すにも、見方、とらえ方によって異なった単語が使用される。 例えば、妻が夫を表現するとき、夫婦の関係で見れば「夫」となり、家の関係で見れば「主人」、 恋人の関係で見れば「彼」、一人の人間と見れば「山田太郎」などとなる。 逆に、同じ単語が使われたとしても、その表す意味はさまざまである。 例えば、「学校」は「教育を受けるところ」という基本語義を持つが、 現実の表現では、「学校」の持つ「場所」としての側面や、 「施設」や「組織」としての側面が取り上げられたりする。

このように話者が単語によって取り上げた対象概念の持つさまざまな側面は、 言い換えれば、使用された単語の「意味的用法」と言うことができる。

本辞書では、 単語の持つこのような「意味的用法」を「単語意味属性」として整理し体系化している。 したがって、単語がその語義を超えてさまざまな用法を持つことを考えれば、 単語は通常の辞書で定義された語義の範囲を超えた「単語意味属性」を持つことになる。 また、単語の「意味的用法」は、その単語の語義から派生するから、 文中で実際に使用された単語の「里語意昧属性」が分かれば、 その単語がどの語義で使用されたかを判断することができる。

[2] 単語の意味分類の基準と精度

本辞書の第二の特徴は、「単語意味属性」の分類の基準と精度にある。 従来の「意味標識」などによる単語の意味分類では、分類の基準が明確でないまま、 通常、三〇〜五〇種類の分類が行われていた。 また、この程度の分類では、単語の多義を解消することは困難であることが知られていたが、 どれだけ深く分類すればよいかについては未知のままであった。

一般に、単語の意味分類に必要な分類の精度は、用途によって異なる。 例えば、最近、IPA(IPA 1987)によって 日本語の単語の意味の詳細な分類が行われているが、 日本語と英語の意味的対応関係を決めるためには、さらに詳細な意味分類が必要となる。

『日本語語彙大系』では、この点を考慮して、 日英機械翻訳で用言(動詞、形容詞など)の訳語を決定するのに必要な範囲での 単語の意味分類が行われている。 日本語と英語の用言の意味的対応関係は大変複雑であるが、 日本語の用言を英語に翻訳するとき、訳語は、 その用言の格要素として使用される名詞の意味の関係から ほぼ決定できる(水谷他・一九八三)。 このことに着目し、本辞書では、名詞の意味属性を約二〇〇〇通り以上に分類すれば、 用言の訳語はほぼ決定できることを 実験的に確かめた(池原他・一九九三)上で、 約三〇〇〇種の意味属性からなる単語意味属性体系を作成している。

このように、本辞書では、日英の単語の意味的対応関係 を決めるのに必要な意味分類の精度を調べ、それに基づ いて、従来にない詳細な意味属性体系を作成している。

[3] 動詞文型に対応する英語パターンの収録

第三の特徴は、収録された文型パターン対が非常に精密なことである。 前項で単語の意味的用法の分類の基準け、 日本語動詞と英語表現との意味的対応関係を規定できる精度であることを述べた。 本辞書では、この考えに基づき、実際に、日本語用言の約六〇〇〇語の意味を分析し、 日本語文型とそれに対応する英語文型を約一四〇〇〇件の文型パターン対にまとめている。

このように、文型パターン対は非常に精密で、 日本語の用言の持つ微妙な意味の違いがパターン化され、 対応する英語表現の違いとしてまとめられている点は、従来の辞書にない大きな特徴である。

[4] 語彙の網羅性と情報の信頼性

第四の特徴としては、語彙の網羅性と収録情報の信頼性が挙げられる。 計算機では、辞書に登録されていない単語の意味や用法を文脈から把握することは 大変困難であるので、語彙の網羅性が大変重要である。 また、収録情報の簡単な誤りも、計算機では重大な誤りとなることがある。 このような点から、この辞書では、国語辞典にあるような一般語のほかに、 人名、地名、組織名などの固有名詞も数多く収録されているほか、 日英機械翻訳システムに組み込んだ翻訳実験によって、 収録情報相互の関連性がチェックされている。

収録対象語は、新聞記事などの現代国語の記述文に通常使用される語で、 収録語数は、一般語約一〇万語、固有名詞など二〇万語の合計三〇万語である。 翻訳用の機械辞書に収録されていた一部の専門用語、訳しことば、 古語および機械処理で必要な語は、『日本語語彙大系』には収録されていない。 また、翻訳実験では、各種の試験文の翻訳実験を通して、 収録情報の妥当性の確認が行われている。




3 どんな構造をしているか

『日本語語彙大系』は、表1に示すように、全五巻から構成されるが、 その内容は、図1に示すように、日本語単語の「意味的用法」をまとめた「意味体系」と、 単語とその意味的用法の関係をまとめた「単語体系」、 用言を中心とする文型の持つ意味を整理した「構文体系」の三つの部分が基本となっている。

〈表1〉『日本語語彙大系』の構成
第1巻 意味体系 概論 編集の背景、方針、方法などを記載、 また、各種辞書内容の分析データなどを収録
意味体系 3種(3,000項目)の意味属性体系を図示
意味属性別単語表 各単語意味属性を持つ単語のリストを収録
第2〜4巻 単語体系 日本語単語(30万語)の意味的用法を単語意味属性を用いて定義
第5巻 構文体系 構文体系 日本語用言(6,000語)の用法(慣用的用法を含め合計14,000種)を 結合価パターン対の形式で収録
構文索引 日本語の名詞または英語の単語で、その語の使われたパターン対を検索

この構造は、「実体」「関係」「属性」から構成される客体の世界を 「名詞」と「用言」を通して表現する言語表現の枠組みに対応させたものとなっている。

なお、人間用の辞書としての用途を考え、 第一巻に、単語意味属性別に単語を収録した「意味属性別単語表」、 第五巻に、慣用文型に含まれる名詞に着目して、 日本語名詞から慣用文型を検索するための「日本語名詞索引」、 一般文型、慣用文型とペアになっている英語文型を 文型に使われた英語単語から検索するための「英語索引」を掲載しているが、 これらの情報は、いずれも上記三種の基本情報から編集されたものである。 また、第一巻には、「概論」として、この辞書の編集の方針や情報収録の基準、 方法などが詳細に記述されているほか、語数分類などの詳細な統計量がまとめられている。

〈図1〉『日本語語彙大系』の基本構成
  
  
意味体系(第1巻)

一般名詞意味属性=2,700種
固有名詞意味属性=130種
用言意味属性=30種
┌→



└→
単語体系(第2〜4巻)

登録見出し語=30万語

  構文体系(第5巻) 

一般文型=11,000種
慣用文型=3,000種




4 どんな情報が収録されているか

前章で述べた『日本語語彙大系』の三つの基本部分に収録された情報の概要を紹介する。

[1] 意味体系

一般名詞、固有名詞、用言の意味的な用法が以下の三種類の「意味属性体系」として 木構造の形式にまとめられている。

(a)  「一般名詞意味属性体系」(一二段 約二七〇〇ノード)「is−a関係」(包含関係)、 「has−a関係」(全体−部分の関係)に着目して、 単語の意味的用法を木構造の形式にまとめたもの。
(b) 「固有名詞意味属性体系」(九段 約一三〇ノード)「一般名詞意味属性」のうち、 固有名詞に該当する部分をより詳細化したもの。
(c) 「用言意味属性体系」(四段 約三〇ノード)用言の持つ本来の意味と それが文中で使われたときの働きに着目して用法を分類したもの。

図2に、「一般名詞意味属性体系」の上位三段目までの構 造を示す。各ノードの番号は、意味属性の通し番号である。

〈図2〉「一般名詞意味属性体系」の一部

[2] 「単語体系」

「単語辞書」は、固有名詞を含む日本語単語約三〇万語の意味的な用法を 「単語意味属性」を用いて定義したものである。 通常、一つの単語は複数の意妹を持ち、さまざまな使われ方をすることを考え、 各単語には、考えられるだけの種類の意味属性が付与されている。

一般名詞には「一般名詞意味属性」が対応し、 固有名詞には「一般名詞意味属性」と「固有名詞意味属性」の双方が対応する。 しかし、「固有名詞意味属性」と「一般名詞意味属性」には対応関係があるので、 本辞書では、図3に示すように、固有名詞には「固有名詞意味属性」のみを付与することにより ページ数を圧縮している。 「一般名詞意味属性」を知るには、別に掲載された対応表を検索すればよい。

〈図3〉 単語体系の例
かき,牡蠣[名]545貝 842魚介類
,かき(かき)[名]854果物 674果樹
(かぎ)[名]950作業具(接続) 949作業具(開閉) 967機械部品
アスパラガス[名]677作物 678草花・野草 841野菜
明日香(あすか)[固]23村 70名(女)

[3]「構文体系」

日本語の用言の意味を以下の二種類の文型(結合価パターン)の形に整理したもので、 各文型パターンには、その文型の意味に対応する英語の文型パターンが併せて掲載されている。

(a) 一般表現文型パターン対

「一般表現文型」は、用言の持つ一般的で汎用的な文型をパターン化したもので、 図4に示すように、用言の字面と一つ以上の格要素から規定される。 例えば、図4の動詞「掛ける」の(2)のパターンでは、格要素が三つ使われているが、 これらの格要累の主名詞(N1,N2,N3)は、 引き続き示されるような単語意味属性を持つ語でなければならない。

〈図4〉一般表現文型パターン対の例
掛ける
(2)   20属性変化(動作)
    N1が N2を N3に/へ掛ける  N1 apply N2 to N3
[N1(3主体 962機械) N2(2314物理現象) N3(533具体物)]

(13)   23身体動作(動作)
N1が N2を 掛ける  N1 play N2
[N1(3主体) N2("レコード" 970通信機器 972応用電子機器 1053創作物(音)]

なお、文型パターン対は、通常、述語となる用言ごとに作成されるが、 名詞が述語になる場合がある。 そのような場合は、名詞を述語とするパターン対が収録されている。 例えば、「名詞+だ(です)」型の日本語の述語名詞は、通常は英語の名詞補語に訳出されるが、 「今日は晴れだ。」のように述語名詞が英語の名詞補語には訳出できない場合は、 "It is fine today."に相当するパターンが収録されている。




(b) 慣用表現文型パターン対

「慣用表現文型」は、図5に示すように、一般表現文型と同様な文型パターン対であるが、 一つ以上の格要素が直接名詞の字面で規定される点が一般表現文型と異なる。 例えば、図5の例の(22)のパターンでは名詞「保険」が、 (40)のパターンでは名詞「鎌」の使用が指定されている。

〈図5〉慣用表現文型パターン対の例
掛ける
(22)   24利用(状態)
    N1が N2に 保険を 掛ける  N1 insure N2
[N1(3主体) N2(*)]

(40)   32思考動作(動作)
N1が N2に 鎌を 掛ける  N1 pump N2
[N1(3主体) N2(3主体)]

「構文体系」には、約六〇〇〇語の日本語用言に対して、 このような文型パターンが合計一四〇〇〇件(一般パターン一一〇〇〇件、 慣用パターン三〇〇〇)収録されている。 用言当たりのパターン数が多いのは、和語系の用言である。 最もパターン数の多い動詞は 「する」で、 一般文型と慣用文型を合わせて三一九件のパターンが登録されている。 「ある」「なる」の動詞ではそれぞれ三一九件、二〇三件、 前述の動詞「掛ける」では、ちょうど一〇〇件のパターンが登録されている。




5 どんな使い方ができるか

『日本語語彙大系』では、日本語の文型(構文体系)とそれに使用される単語(単語体系)は、 「単語意味属性体系」(意味体系)を介して結合されている。 したがって、ある単語が与えられたとき、 その語が「構文体系」で定義された日本語文型の構成要素として使用できるか否かは、 「単語体系」と「意味体系」を併用して決定することができる。

以下では、これらの関係を用いた幾つかの利用の方法を紹介する。

[1] 日本語表現の言葉の意味を調べる場合

実際の日本語表現で使用された名詞と動詞の意味(意味的用法)を調べることを考える。 まず、与えられた日本文の動詞とそれに支配された格要素の組を取り出す。 動詞を見出し語にして「構文体系」を調べると、一般に複数の文型が得られる。 「意味体系」と「車語体系」を検索して、 文型で定義されている格要素の主名詞の意味属性と 実際に使用された文中の名詞の意味属性の関係を調べ、 前者の配下に後者が属せば、それが実際に使われた文型である。

このようにして、与えられた表現に適用できる文型が求められた時点で、 それに関係した名詞と動詞の意味は決定される。 また、同時に日本文に対応する英語の文型も決定される。

[2] 日本文(動詞の用例)を作成する場合

動詞が与えられたとき、適切な名詞と助詞を補って、意味のある例文を作成することを考える。 まず、与えられた動詞を持つ文型は、「構文体系」から一つ以上得られるから、 そのうちのどれかの文型に着目する。

その文型で規定された格要素の意味属性をキーにして「意味体系」を調べ、 その意味属性の配下に存在するどれかの意味属性名を抽出する。 抽出された属性名に対して、「単語意味属性別単語表」を調べ、その属性名に属す単語を選べば、 与えられた動詞に対して日本語として意味のある文例が作成できる。

[3] 類語検索で使用する場合

「意味体系」と「単語体系」の情報を組み合わせて使用すれば、 意味的に用法の似た単語を検索することができる。 この機能は忘れた単語を思い出すなどの発想の支援として役立つと期待される。

例えば、文章を書いているときや情報検索において 検索の範囲を指定するための適切なキーワードが思い浮かばないようなとき、 とりあえず思いついた単語の意味属性を調べ、 得られた意味属性からその意味属性を持つ単語をたどることによって 適切な単語を抽出することが期待できる。

[4] 教育や翻訳の現場で使用する場合

「構文体系」には、従来の和英辞書に例のないような 微妙で詳細な訳し分けの情報がパターン化されて収録されており、 日本語と英語の用言の用法を調べるための学習辞典としての活用が期待される。

例えば、外国人に対する日本語教育では、 日本語動詞の複雑な意味を英語と対比して教えるのに便利である。 また、英語教育や日英、英日の翻訳の現場では、動詞の適切な訳し方を検索することができ、 「英語索引」を使用すれば、英語動詞の適切な日本語への訳し方を調べることができる。

[5] 国語学・言語学の研究で使用する場合

国語学や言語学等の分野においても、従来の単語や表現の形態論的な統計に加えて、 日本語の意味解析の観点からの計量的分析等への応用が期待される。




6 おわりに

計算機に言語を教えるのは、人間に外国語を教えるのに似ている。 人間にとっても、知らない言葉は単なる記号でしかなく、 厳密な意味や用法の定義を知らないと、それを使うことは困難である。 『日本語語彙大系』は、計算機に日本語の用法を教えることを目標に開発された辞書であるが、 われわれ人間にもことばのさまざまな用法を教えてくれる。

ことばの意味的な用法を細かく分類整理した辞書は、 従来のシソーラス、国語辞書、和英辞書などと異なった新しいジャンルの辞書とも言える。 今後、本稿では予想のつかなかったような新しい用法が開拓されていくことを期待する。




参考文献

IPA (一九八七)『計算機用日本語基本動詞辞書IPAL(Basic Verbs) 解説編&辞書編』IPA情報処理振興事業協会技術センタ)


池原悟・宮崎正弘・横尾昭男(一九九三)「日英機械翻訳のための意味解析用の知識とその分解能」(『情報処理学会論文誌』三四巻 八号 一六九二−一七〇四頁)


池原悟・宮崎正弘・白井諭・横尾昭男・中岩浩巳・小倉健太郎・大山芳史・林良彦(一九九七)『日本語語彙大系(全五巻)』(岩波書店)


EDR(一九九〇)『概念辞書(第三版)』(EDR Technical Report, TR-020, 日本電子化辞書研究所)


大野晋・浜西正人 (一九八一) 『角川類語新辞典』 (角川書店)


荻野綱男(一九八七)「シソーラス作成の問題点」(『日本語学』明治書院 一六巻 五号 六四−七一頁)


国立国語研究所(一九六四)『分類語彙表』(秀英出版)


水谷静夫・石綿敏雄・荻野孝野・賀来直子・草薙裕・青山文啓(一九八三) 「文法と意味I」 (『朝倉日本語新講座3』朝倉書店)



いけはら・さとる 鳥取大学教授/ みやぎき・まさひろ 新潟大学教授/ しらい・さとし NTTコミュニケーション科学研究所主幹研究員/ よこお・あきお ATR音声翻訳通信研究所第四研究室長