研究紹介

学会で表彰された論文を中心にいくつかの研究を紹介します。他の研究も知りたい方は研究発表もご覧ください。

日本語言語理解ベンチマークの構築

言語理解・生成モデルの学習、評価、分析のために、英語を中心として言語理解・生成ベンチマークの整備・公開が進んでいます。しかし、日本語のデータセット、ベンチマークはほとんどありません。この状況を打破するため、日本語版GLUE (JGLUE) [Kurihara+ 2022]を構築しました。GLUEは、複数の言語理解タスクをまとめたベンチマークで、自然言語モデルの網羅的な評価ができます。JGLUEにより、日本語でもモデルの評価を網羅的に行うことができるようになり、これは日本語の自然言語処理における大きな進展と言えます。

右図は、JGLUEにあるタスクの1つであるJSQuADです。JSQuADは、質問文と1段落のペアが与えられたとき、段落内から答えを抜き出すタスクです。

現在はJGLUEの改良([栗原+ 2023][植松+ 2024])、難易度の高いデータセットの追加を進めています。

図. JSQuADの例

語義曖昧性と読みづらさ [吉田+ 2023]

文には読みやすいものと読みづらいものがあり、その原因のひとつに文中の単語の曖昧性があります。曖昧性には、文の構造や読点の位置による構造的曖昧性と、多義語の解釈による語義曖昧性があります。後者について「甘い」を例にすると「味覚としての甘さ」と「“厳しい” の対義語としての甘さ」など、文脈により語の表す意味は異なります。本研究では語義曖昧性が多く、読みづらい文の検出を目指します。

まず、2文に含まれる同じ単語の語義が一致するかを判定する WiC (Word in Context) データセットの日本語版である JWiCを構築します。言語形式とその意味の関係を背景知識 (フレーム) との関係で捉えた日本語フレームネットを使用してデータセットを構築します。

次に、構築したデータセットで訓練したモデルを使用して読みづらい文を検出します。図のように、読みづらさを検出したい文中の語をデータセット内の異なる語義の例文群と比較し、複数の語義の例文と「同じ意味」と判定されれば曖昧、 1 つのみと同じであれば曖昧でないとすることで、検出を実現します。

本研究は言語処理学会第29回年次大会 (NLP2023) で優秀賞を受賞しました。

図. 語義曖昧性検出の例

日本語TruthfulQAの構築

近年の大規模言語モデルの発展により、質問応答や機械翻訳などをはじめとして社会に大きな影響を及ぼしています。英語においてはLLMの出力の真実性や偏見について様々なベンチマークが存在しており、安全面などの検証方法が数多く提案されていますが、日本語においては現状これらのベンチマークが存在しません。そこで、本研究では日本語の真実性ベンチマーク(JTruthfulQA)を構築しました

JTruthfulQAは迷信などの俗説を取り扱った非事実ジャンル10カテゴリ、日本固有の難しい知識を取り扱った知識ジャンル8カテゴリの計18カテゴリにおける604問のベンチマークです。

JTruthfulQAを用いてLLMを評価したところ、非事実ジャンルではGPT-4が人間の正答率を上回る結果を示しました。

本研究は言語処理学会第30回年次大会 (NLP2024) で委員特別賞,スポンサー賞を受賞しました。

図. JTruthfulQAの例

プロンプトの丁寧さと大規模言語モデルの性能

人間は、礼儀正しい要求に対して協力的になりやすく、目標達成にも繋がりやすいとされています。逆に、失礼な言葉遣いは不快感や敵意を生み出し、それによる対応の質も下がる可能性があります。この研究では、そうした丁寧さが大規模な言語モデルの性能にどのような影響を与えるかを検証しています。英語、中国語、日本語の言語理解能力を基準に評価を行いました。その結果、失礼な表現を使うと性能が落ちることが多い一方で、極端に礼儀正しすぎる言葉遣いが必ずしも良い結果につながるわけではないことが明らかになりました。これは、大規模言語モデルが人間の行動をある程度反映していることを示しています。

本研究は言語処理学会第30回年次大会 (NLP2024) でスポンサー賞を受賞しました。

図. 研究課題のイメージ