ニュース

2025年度

2026/3/13: 言語処理学会第32回年次大会(NLP2026) 表彰
以下の論文がNLP2026において表彰されました。

若手奨励賞
- 青木洸士郎, 河原大輔. クロスコーダーを用いた脳と言語モデルにおける内部表現の特徴量比較.
- 五十里渚, 福田創, 高山隼矢, 綿岡晃輝, 河原大輔. JMT-Safety: 日本語マルチターン対話における安全性評価ベンチマーク.
委員特別賞
- 榎本倫太郎, 栗田修平, 河原大輔. アンサンブル蒸留と学習ベース集計を用いた数学的推論プロセスの検証と性能分析.
- 杉浦一瑳, 栗田修平, 小田悠介, 河原大輔, 岡部寿男, 岡崎直観. WAON: 視覚言語モデルのための大規模かつ高品質な日本語画像・テキスト対データセット.

2026/3/9: EACL2026 発表
3/24-29に開催されるEACL 2026で以下の研究発表をします。
- Yusuke Nakamura, Hirokazu Kiyomaru, Chaoran Liu, Shuhei Kurita, and Daisuke Kawahara. Demystifying Mixed Outcomes of Self-Training: Pre-training Analyses on Non-Toy LLMs. (Findings)
- Hirokazu Kiyomaru, Yusuke Oda, Takashi Kodama, Chaoran Liu, and Daisuke Kawahara. Scaling Data-Constrained Language Models with Synthetic Data. (Findings)
- Sebastian Zwirner, Wentao Hu, Koshiro Aoki, and Daisuke Kawahara. Evaluating the Impact of SAE-based Language Steering on LLM Performance. (SRW)
2026/3/9: 言語処理学会第32回年次大会(NLP2026) 発表
3/9-13に開催されるNLP2026で以下の研究発表をします。
- 五十里渚, 福田創, 高山隼矢, 綿岡晃輝, 河原大輔. JMT-Safety: 日本語マルチターン対話における安全性評価ベンチマーク.
- 渡邉一功, 水本智也, 周藤唯, 河原大輔. 応答内容・順序に着目した音声対話ベンチマークの構築.
- 藤田一颯, 織田宥楽, Sebastian Zwirner, 河原大輔. JaCarEval: 日本語車載対話に対するLLM 評価器のメタ評価フレームワーク.
- 笹川慶人, 栗田修平, 河原大輔. マルチモーダルLLM の縦書きテキスト読み取り能力の評価.
- 青木洸士郎, 河原大輔. クロスコーダーを用いた脳と言語モデルにおける内部表現の特徴量比較.
- 榎本倫太郎, 栗田修平, 河原大輔. アンサンブル蒸留と学習ベース集計を用いた数学的推論プロセスの検証と性能分析.
- 杣谷星音, 河原大輔. 大規模言語モデルの手順型応答を対象としたファクトチェックフレームワークの構築.
- 福田創, 河原大輔. 尤度を用いた進化戦略によるLLMの最適化.
- Sebastian Zwirner, Wentao Hu, Koshiro Aoki, Daisuke Kawahara. Improving SAE-based Language Steering with Prompting in Large Language Models.
- 小野聡, 河原大輔. 大規模言語モデルに対するプロービングによる複合動詞の意味理解の分析.
- 中尾圭佑, 栗田修平, 河原大輔. オープンなVLMを活用した日本語マルチモーダル指示データセットの構築.
- 小川隼斗, 河原大輔. GRPOを用いた日本語ラップの歌詞生成モデルの構築.
- 小川隼斗, 福地成彦, 李聖哲, 河原大輔. 指示認識テキスト埋め込みモデルの指示によるベクトル変位の分析.
- 源怜維, 小田悠介, 河原大輔. 大規模コーパスにおける要配慮個人情報検出の精度向上.
- 清丸寛一, 出口祥之, 政野美和, 源怜維, 堀尾海斗, 欅惇志, 中山功太, 橘秀幸, 欅リベカ, 河原大輔. LLM-jp FactCheck：学習コーパスに照らした真偽検証によるモデル応答の分析.
- 杉浦一瑳, 前田航希, 栗田修平, 小田悠介, 河原大輔, 岡崎直観. JAMMEval: 再アノテーションによる日本語VQA評価データセットの信頼性向上.
- 政野美和, 欅リベカ, 欅惇志, 清丸寛一, 中山功太, 堀尾海斗, 源怜維, 橘秀幸, 河原大輔. LLMの生成テキストの真偽検証のための日本語言説分解データセットの構築と評価.
- 杉浦一瑳, 栗田修平, 小田悠介, 河原大輔, 岡部寿男, 岡崎直観. WAON: 視覚言語モデルのための大規模かつ高品質な日本語画像・テキスト対データセット.
- 政野美和, 清丸寛一, 欅惇志, 堀尾海斗, 源怜維, 欅リベカ, 中山功太, 橘秀幸, 河原大輔. LLMの生成テキストの真偽検証のための日本語真偽判定データセットの構築.
2025/3/7: 第267回自然言語処理研究発表会
3/7,8に開催される第267回自然言語処理研究発表会で以下の研究発表をします。
- 屋藤翔麻, 清丸寛一, 小田悠介, 河原大輔. 官庁出版物コーパスを用いた日本語LLMの継続事前学習とその分析.
- 織田宥楽, 小川隼斗, 河原大輔. 韻と内容を制御した日本語ラップ歌詞の自動生成.
2025/3/6: 第50回社会言語科学会研究大会
3/6-8に開催される第50回社会言語科学会研究大会で以下の研究発表をします。
- 折田奈甫, 小川隼斗, 河原大輔. 非母語話者の日本語に対する言語モデルの差別的傾向.
2026/1/20: AAAI-26 発表
1/20-27に開催されるAAAI-26で以下の研究発表をします。
- Hao Wang, Eiki Murata, Lingfang Zhang, Ayako Sato, So Fukuda, Ziqi Yin, Wentao Hu, Keisuke Nakao, Yusuke Nakamura, Sebastian Zwirner, Yi-Chia Chen, Hiroyuki Otomo, Hiroki Ouchi, Daisuke Kawahara. VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction.
2025/12/20: IJCNLP-AACL 2025 SRW 発表
12/20に開催されるIJCNLP-AACL 2025 SRWで以下の研究発表をします。
- Koshiro Aoki, Daisuke Kawahara. Testing Simulation Theory in LLMs' Theory of Mind.
2025/10/4: EMNLP 2025 発表
11/4-9に開催されるEMNLP 2025 (Findings)で以下の研究発表をします。
- Kazuma Kobayashi, Zhen Wan, Fei Cheng, Yuma Tsuta, Xin Zhao, Junfeng Jiang, Jiahao Huang, Zhiyi Huang, Yusuke Oda, Rio Yokota, Yuki Arase, Daisuke Kawahara, Akiko Aizawa, and Sadao Kurohashi. Leveraging High-Resource English Corpora for Cross-lingual Domain Adaptation in Low-Resource Japanese Medicine via Continued Pre-training.
2025/10/4: UbiComp / ISWC 2025 Posters & Demos 発表
10/12-16に開催されるUbiComp / ISWC 2025 Posters & Demosで以下の研究発表をします。
- Ziqi Yin, Mingxin Zhang, Daisuke Kawahara. Harmony: A Human-Aware, Responsive, Modular Assistant with a Locally Deployed Large Language Model.
2025/10/1: 新メンバー配属
1名の学部生、1名の修士学生、1名の博士学生が新たに配属されました。
2025/9/21: 第265回自然言語処理研究発表会発表
9/21-22に開催される第265回自然言語処理研究発表会で以下の研究発表をします。
- 李聖哲, 大萩雅也, 李凌寒, 福地成彦, 柴田知秀, 河原大輔. JMTEB and JMTEB-lite: Japanese Massive Text Embedding Benchmark and Its Lightweight Version.
- 政野美和, 欅リベカ, 欅惇志, 清丸寛一, 中山功太, 堀尾海斗, 源怜維, 橘秀幸, 河原大輔. LLM の生成テキストの真偽検証のための日本語言説分解データセットの構築.
2025/9/17: NLP若手の会(YANS)第20回シンポジウム表彰
以下の論文がYANS第20回シンポジウムにおいて表彰されました。

奨励賞
- 青木洸士郎, 濵田偉月, 折田奈甫, 河原大輔, 酒井弘. 脳と言語モデルの共通概念と固有概念の抽出.
- 小川隼斗, 河原大輔. GRPOを用いた日本語ラップの歌詞生成モデルの構築.
スポンサー賞
- 源怜維, 小田悠介, 河原大輔. 要配慮個人情報判定器の比較・改善と誤り分析. (株式会社レトリバ賞)
- 政野美和, 欅リベカ, 欅惇志, 清丸寛一, 中山功太, 堀尾海斗, 源怜維, 橘秀幸, 河原大輔. LLMの生成テキストの真偽検証のための日本語言説分解データセットの構築. (ストックマーク株式会社賞)

2025/9/17: NLP若手の会(YANS)第20回シンポジウム発表
9/17-19に開催されるYANS第20回シンポジウムで以下の研究発表をします。
- 李聖哲, 大萩雅也, 李凌寒, 福地成彦, 柴田知秀, 河原大輔. 日本語テキスト埋め込みベンチマークJMTEBの軽量化の試み.
- 王昊, 村田栄樹, 張齢方, 佐藤郁子, 福田創, 尹子旗, 胡文滔, 中尾圭佑, 中村友亮, Zwirner Sebastian, 陳奕嘉, 大友寛之, 大内啓樹, 河原大輔. 旅行動画を用いた移動軌跡解析によるMLLMの地理・時間的推論能力の評価.
- 小川隼斗, 河原大輔. GRPOを用いた日本語ラップの歌詞生成モデルの構築.
- 源怜維, 小田悠介, 河原大輔. 要配慮個人情報判定器の比較・改善と誤り分析.
- 青木洸士郎, 濵田偉月, 折田奈甫, 河原大輔, 酒井弘. 脳と言語モデルの共通概念と固有概念の抽出.
- 中尾圭佑, 河原大輔. オープンな日本語マルチモーダル指示データセットの合成とそれを用いた日本語VLMの構築.
- 政野美和, 欅リベカ, 欅惇志, 清丸寛一, 中山功太, 堀尾海斗, 源怜維, 橘秀幸, 河原大輔. LLMの生成テキストの真偽検証のための日本語言説分解データセットの構築.
2025/9/2: 情報処理学会 2025年度山下記念研究賞受賞
以下の論文が情報処理学会において2025年度山下記念研究賞を受賞しました。
- 李聖哲, 大萩雅也, 塚越駿, 福地成彦, 柴田知秀, 河原大輔. 実在しないエンティティや出来事に関する合成文書を用いたRAGベンチマークの構築.
2025/8/18: 夏ゼミ合宿実施
8/16-18に軽井沢セミナーハウスにて夏ゼミ合宿を実施しました。
2025/7/27: ACL 2025 SRW 発表
7/27-8/1に開催されるACL 2025 SRWで以下の研究発表をします。
- So Fukuda, Hayato Ogawa, Kaito Horio, Daisuke Kawahara, Tomohide Shibata. Building Japanese Creativity Benchmarks and Applying them to Enhance LLM Creativity.
2025/5/27: 人工知能学会全国大会 (第39回) 発表
5/27-30に開催される人工知能学会全国大会 (第39回)で以下の研究発表をします。
- 千代丸怜央, 小川隼斗, 吉江修. コード生成タスクにおける仮説文書の埋め込みを用いたRAGの検証.
- 青木洸士郎, 高槻瞭大, 峰岸剛基. Mechanistic Interpretability：解釈可能性研究の新たな潮流.
- 張齢方, 河原大輔. 複数言語の逐次学習による多言語モデルの分類タスク性能の検証.
- 佐々木斗海, 小林俊介, 河原大輔. 文長制限を設けた問題文による早押しクイズ用Retrieverの学習.
- 織田宥楽, 小川隼斗, 河原大輔. 教師なし学習によるラップの形式の学習.
- 陳奕嘉, 河原大輔. 大規模言語モデルによる数学概念誤解分析.
2025/4/29: NAACL 2025 発表
4/29-5/4に開催されるNAACL 2025 (The Second Workshop on Ancient Language Processing, System Demonstrations)で以下の研究発表をします。
- Hayato Ogawa, Kaito Horio, Daisuke Kawahara. Detecting Honkadori based on Waka Embeddings. (The Second Workshop on Ancient Language Processing)
- Keito Sasagawa, Koki Maeda, Issa Sugiura, Shuhei Kurita, Naoaki Okazaki, Daisuke Kawahara. Constructing Multimodal Datasets from Scratch for Rapid Development of a Japanese Visual Language Model. (System Demonstrations)
2025/4/1: 新メンバー配属
8名の学部生が新たに配属されました。

2024年度

2025/3/13: 言語処理学会第31回年次大会(NLP2025) 表彰
以下の論文がNLP2025において表彰されました。

若手奨励賞
- Sebastian Zwirner, Wentao Hu, Koshiro Aoki, Daisuke Kawahara. Sparse Autoencoders as a Tool for Steering the Output Language of Large Language Models.
スポンサー賞
- 青木洸士郎, 河原大輔. 大規模言語モデルは他者の心をシミュレートしているか. (博報堂テクノロジーズ賞)
委員特別賞
- 笹川慶人, 前田航希, 杉浦一瑳, 栗田修平, 岡崎直観, 河原大輔. LLM-jp-3 VILA: 日本語マルチモーダルデータセット及び強力な日本語マルチモーダルモデルの構築.

2025/3/9: 第263回自然言語処理研究発表会表彰
以下の論文が第263回自然言語処理研究発表会において優秀研究賞として表彰されました。
- 李聖哲, 大萩雅也, 塚越駿, 福地成彦, 柴田知秀, 河原大輔. 実在しないエンティティや出来事に関する合成文書を用いたRAGベンチマークの構築.
2025/2/25: 言語処理学会第31回年次大会(NLP2025) 発表
3/10-14に開催されるNLP2025で以下の研究発表をします。
- 小川隼斗, 河原大輔. 和歌の埋め込みに基づく本歌取りの推定.
- 小川隼斗, 河原大輔, 相澤彰子. LLMの学術ドメイン適応のための合成データに基づく統合フレームワーク.
- 杉浦一瑳, 栗田修平, 小田悠介, 河原大輔, 岡崎直観. オープンLLMによる翻訳を活用した日本語CLIPの開発.
- 村田栄樹, 河原大輔. SvMoE: MoEルータの教師あり学習.
- 堀尾海斗, 福田創, 小川隼斗, 鈴江万碧, 織田宥楽, 河原大輔, 関根聡, 安藤まや. 日本語の包括的な指示追従性データセットの構築.
- 堀尾海斗, 河原大輔. 真面目LLMと不真面目LLMで推論能力は変わるか？
- Sebastian Zwirner, Wentao Hu, Koshiro Aoki, Daisuke Kawahara. Sparse Autoencoders as a Tool for Steering the Output Language of Large Language Models.
- 榎本倫太郎, 新妻巧朗, 栗田修平, 河原大輔. 大規模言語モデルにおける多段推論の依存構造と推論能力の関係検証.
- 小林俊介, 河原大輔. LLMによるクイズの自動生成と質問応答への応用.
- 山本貴之, 河原大輔. 多様な言い換え生成と自己学習手法の統合による大規模言語モデルへの新規知識の追加学習.
- 青木洸士郎, 河原大輔. 大規模言語モデルは他者の心をシミュレートしているか.
- 福田創, 小川隼斗, 堀尾海斗, 河原大輔, 柴田知秀. 日本語創造性ベンチマークの構築.
- 源怜維, 小田悠介, 河原大輔. 大規模言語モデルの事前学習用コーパスにおける要配慮個人情報の検出.
- 笹川慶人, 前田航希, 杉浦一瑳, 栗田修平, 岡崎直観, 河原大輔. LLM-jp-3 VILA: 日本語マルチモーダルデータセット及び強力な日本語マルチモーダルモデルの構築.
- 近藤瑞希, 河原大輔, 倉林利行. 関数単位の修正箇所特定によるリポジトリレベルのバグ修正.
- 尹子旗, 村田栄樹, 河原大輔. 連合学習におけるLoRAの統合数と精度の関係の検証.
- 植松拓也, 福田創, 河原大輔, 柴田知秀. Japanese MT-bench++: より自然なマルチターン対話設定の日本語大規模ベンチマーク.
- 鈴江万碧, 堀尾海斗, 折田奈甫, 河原大輔. 対話に対する共感のアノテーションと共感制御可能な対話モデルの構築.
- 石原祥太郎, 村田栄樹, 高橋寛武, 中間康文. 日本語ニュース記事要約支援に向けたドメイン特化事前学習済みモデルの構築と活用.
- 中村友亮, 堀尾海斗, 飯塚康太, 小田桐海翔, 吉藤尚生, 河原大輔. 高品質な合成データに基づくドメイン特化LLM開発フレームワーク. (JLR2025)
- 李聖哲, 大萩雅也, 塚越駿, 福地成彦, 柴田知秀, 河原大輔. 実在しないエンティティや出来事に関する合成文書を用いたRAGベンチマークの構築. (JLR2025)
2024/9/16: 夏ゼミ合宿実施
9/14-16に軽井沢セミナーハウスにて夏ゼミ合宿を実施しました。
2024/9/6: NLP若手の会(YANS)第19回シンポジウム表彰
以下の発表がYANS第19回シンポジウムにおいて奨励賞として表彰されました。
- 渡邉一功, 河原大輔. 学習過程における重みのマージによるモデル最適化.
- 堀尾海斗, 河原大輔. LLMは真面目・不真面目になれるか？
2024/8/28: NLP若手の会(YANS)第19回シンポジウム発表
9/4-6に開催されるYANS第19回シンポジウムで以下の研究発表をします。
- 福田創, 河原大輔. 物語生成タスクにおける埋め込みを用いたLLMの創造性評価.
- 渡邉一功, 河原大輔. 学習過程における重みのマージによるモデル最適化.
- 織田宥楽, 小川隼斗, 河原大輔. 人工知能ラッパーの実現に向けて.
- 小川隼斗, 河原大輔. 和歌埋め込みモデルの構築とそれを用いた本歌取りの分析.
- 植松拓也, 河原大輔, 柴田知秀. Japanese MT-bench++: より自然なマルチターン対話設定における大規模日本語ベンチマーク.
- 王昊, 河原大輔. 言語学習支援に向けた動画生成モデルの構築.
- 堀尾海斗, 河原大輔. LLMは真面目・不真面目になれるか？
2024/6/18: ALVR 2024 発表
8/15-16に開催されるALVR 2024で以下の研究発表をします。
- Hao Wang, Shuhei Kurita, Shuichiro Shimizu, Daisuke Kawahara. SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition.
2024/4/26: NAACL SRW 2024 発表
6/18に開催されるNAACL SRW 2024で以下の研究発表をします。
- Rintaro Enomoto, Arseny Tolmachev, Takuro Niitsuma, Shuhei Kurita, Daisuke Kawahara. Investigating Web Corpus Filtering Methods in Language Model Development.
- Mizuki Kondo, Daisuke Kawahara, Toshiyuki Kurabayashi. Improving Repository-level Code Search with Text Conversion.
- Hao Wang, Tetsuro Morimura, Ukyo Honda, Daisuke Kawahara. Reinforcement Learning for Edit-Based Non-Autoregressive Neural Machine Translation.
2024/4/23: *SEM 2024 発表
6/20-21に開催される*SEM 2024で以下の研究発表をします。
- Takuya Uematsu, Hao Wang, Daisuke Kawahara, Tomohide Shibata. A Benchmark Suite of Japanese Natural Questions.
2024/4/1: 新メンバー配属
6名の学部生、2名の修士学生が新たに配属されました。

2023年度

2024/3/14: 言語処理学会第30回年次大会(NLP2024) 表彰
以下の論文がNLP2024において表彰されました。

若手奨励賞
- 植松拓也, 王昊, 河原大輔, 柴田知秀. 日本語Natural QuestionsとBoolQの構築.
委員特別賞
- 中村友亮, 河原大輔. 日本語TruthfulQAの構築.
スポンサー賞
- 中村友亮, 河原大輔. 日本語TruthfulQAの構築. (日立賞)
- 尹子旗, 王昊, 堀尾海斗, 河原大輔, 関根聡. プロンプトの丁寧さと大規模言語モデルの性能の関係検証. (メルカリ賞)

2024/3/11: 2023年度言語処理学会論文賞
2023年度の言語処理学会論文賞がNLP2024において発表・表彰されました。

栗原健太郎、河原大輔，柴田知秀. JGLUE：日本語言語理解ベンチマーク. (最優秀論文賞)

大村和正、河原大輔，黒橋禎夫. 基本イベントに基づく常識推論データセットの構築と利用.

2024/3/4:言語処理学会第30回年次大会(NLP2024) 発表
3/11-15に開催されるNLP2024で以下の研究発表をします。

中村友亮, 河原大輔. 日本語TruthfulQAの構築.
清水博文, 河原大輔. 日本語Winogroundデータセットの自動構築.
尹子旗, 王昊, 堀尾海斗, 河原大輔, 関根聡. プロンプトの丁寧さと大規模言語モデルの性能の関係検証.
今井咲良, Giovanni Pasa, 小田博宗, 折田奈甫, 河原大輔. 意味的プロービングデータセットの構築と言語モデルの評価: イタリア語の倒置を例に.
近藤瑞希, 河原大輔, 倉林利行. テキスト変換によるリポジトリレベルのコード検索の改善.
村田栄樹, 大友寛之, 村上聡一朗, 本多右京, 舟久保弘明. 訴求軸を考慮したキーワードからの広告文生成.
村田栄樹, 河原大輔. TaCOMET: 時間を考慮したイベント常識生成モデル.
植松拓也, 王昊, 河原大輔, 柴田知秀. 日本語Natural QuestionsとBoolQの構築.
山内悠輔, 河原大輔. 手順のテキスト化による将棋解説文生成.
王昊, 栗田修平, 清水周一郎, 河原大輔. SlideAVSR: 視聴覚音声認識のための論文解説動画データセット.
関根聡, 安藤まや, 後藤美知子, 鈴木久美, 河原大輔, 井之上直也, 乾健太郎. ichikara-instruction LLMのための日本語インストラクションデータの作成.
Arseny Tolmachev, Masayoshi Hayashi, Takuro Niitsuma, Rintaro Enomoto, Hao Wang, Shuhei Kurita, Daisuke Kawahara, Kazuma Takaoka, Yoshitaka Uchida. Uzushio: A Distributed Huge Corpus Processor for the LLM Era.
岡野裕仁, 河原大輔, 野村理朗. 自由記述からセルフ・コンパッションを推定することは可能か? ―BERTによる心理学的構成概念の定量化―.
小林俊介, 河原大輔. 多様なクイズを自動生成する手法およびその検証.
笠原智仁, 村田栄樹, 河原大輔. 科学技術論文を対象とした根拠付き生成型要約システムの構築.
榎本倫太郎, Tolmachev Arseny, 新妻巧朗, 栗田修平, 河原大輔. 大規模言語モデル開発における日本語Web文書のフィルタリング手法の検証.
笹川慶人, 河原大輔. 環境依存情報を利用しない大規模言語モデルによるコンピュータータスク自動化手法.
伊藤俊太朗, 河原大輔. 知識志向 Mixture of LoRA Experts の構築.
太田聖三郎, 河原大輔, 野村理朗. おもしろい川柳の生成.

2024/2/20: LREC-COLING 2024 発表
5/20-25に開催されるLREC-COLING 2024で以下の研究発表をします。
- Eiki Murata and Daisuke Kawahara. Time-aware COMET: a Commonsense Knowledge Model with Temporal Knowledge.
2024/2/6: スキー・スノボ合宿実施
2/4-2/6に志賀高原にて、有志によるスキー・スノボ合宿を実施しました。

2023/10/23: IJCNLP-AACL 2023 Student Research Workshop 発表
11/1に開催されるIJCNLP-AACL 2023 Student Research Workshop で以下の研究発表をします。

Tomohito Kasahara and Daisuke Kawahara. Exploring Automatic Evaluation Methods based on a Decoder-based LLM for Text Generation.

2023/9/18: 夏ゼミ合宿実施
9/16-18に鴨川セミナーハウスにて夏ゼミ合宿を実施しました。

2023/8/21: NLP若手の会(YANS)第18回シンポジウム発表
8/30-31に開催されるYANS第18回シンポジウムで以下の研究発表をします。どちらもインターンにおける成果の発表となります。
- 王昊 (早大), 森村哲郎 (サイバーエージェント), 本多右京 (サイバーエージェント), 河原大輔 (早大). 非自己回帰言語モデルへの強化学習の適用.

村田栄樹 (日経新聞/早大), 石原祥太郎 (日経新聞). ドメイン別に訓練した要約モデルにおけるHallucinationの内在・外在要因分析.

2023/7/6: ACL2023 SRW 発表
7/10-12に開催されるACL2023 Student Research Workshop で以下の研究発表をします。

Sakura Imai, Daisuke Kawahara, Naho Orita and Hiromune Oda. Theoretical Linguistics Rivals Embeddings in Language Clustering for Multilingual Named Entity Recognition.

2023/6/26: BigBird日本語Pretrainedモデル公開
単語分割した日本語コーパスでBigBirdをpretrainingした以下のモデルをHuggingface Modelsに公開しました。

nlp-waseda/bigbird-base-japanese

2023/6/5: 第37回人工知能学会全国大会 (JSAI2023) 発表
6/6-9に開催されるJSAI2023で以下の研究発表をします。

清水博文, 河原大輔. 非言語データを用いた対照学習による文埋め込み学習の日本語における効果検証.
伊藤俊太朗, 河原大輔. 日本語BERTにおけるトークナイザの違いによる影響の検証.
堀尾海斗, 村田栄樹, 王昊, 井手竜也, 河原大輔, 山崎天, 新里顕大, 中町礼文, 李聖哲, 佐藤敏紀. 日本語における Chain-of-Thought プロンプトの検証.
尹子旗, 河原大輔. 多段階転移学習による不完全発話補完の精度向上.

2023/5/2: ACL 2023 採択
7/9-14に開催されるACL2023 (Findings)に以下の論文が採択されました。

Hao Wang, Hirofumi Shimizu, Daisuke Kawahara. Kanbun-LM: Reading and Translating Classical Chinese in Japanese Methods by Language Models.

2023/4/1: 新メンバー配属
7名の学部生、1名の修士学生、1名の博士学生が新たに配属されました。

2022年度

2023/3/17:言語処理学会第29回年次大会(NLP2023) 優秀賞・委員特別賞受賞
M2の吉田あいりさんが「日本語 WiC データセットの構築と読みづらさ検出への応用」で優秀賞を、M2の栗原健太郎さんが「JCommonsenseQA 2.0: 計算機と人の協働による常識推論データセットの改良」で委員特別賞をそれぞれ受賞しました。
2023/3/13:言語処理学会第29回年次大会(NLP2023) 発表
3/13-17に開催されるNLP2023で以下の研究発表をします。

児玉貴志, 植田暢大, 大村和正, 清丸寛一, 村脇有吾, 河原大輔, 黒橋禎夫. テキスト生成モデルによる日本語形態素解析.
栗原健太郎, 二宮大空, 友松祐太. 意味的類似度計算システムによるチャットボットFAQシステムの性能向上.
栗原健太郎, 河原大輔, 柴田知秀. JCommonsenseQA 2.0: 計算機と人の協働による常識推論データセットの改良.
井手竜也, 村田栄樹, 堀尾海斗, 河原大輔, 山崎天, 李聖哲, 新里顕大, 佐藤敏紀. 人間と言語モデルに対するプロンプトを用いたゼロからのイベント常識知識グラフ構築.
井手竜也, 榮田亮真, 河原大輔, 山崎天, 李聖哲, 新里顕大, 佐藤敏紀. 対話に基づく常識知識グラフの構築と対話応答生成に対する適用.
吉田あいり, 河原大輔. 日本語 WiC データセットの構築と読みづらさ検出への応用.
今井咲良, 河原大輔, 折田奈甫, 小田博宗. 理論言語学の知見を応用した多言語クラスタリング.
榮田亮真, 井手竜也, 村田栄樹, 河原大輔. 対話行為の分布を利用した雑談対話システムの評価指標.
笠原智仁, 河原大輔, 山崎天, 新里顕大, 佐藤敏紀. Decoderベースの大規模言語モデルに基づくテキスト生成の自動評価指標.
太田聖三郎, 河原大輔, 野村理朗. 機械学習を用いた川柳の面白さの予測.
王昊, 中町礼文, 佐藤敏紀. 日本語の大規模な基盤モデルに対するLoRAチューニング.
王昊, 清水博文, 河原大輔. 言語モデルを用いた漢文の返り点付与と書き下し文生成.
Ritvik Choudhary, 河原大輔. 魅力的な対話応答生成のための複数教師による知識蒸留.
田村稔行, 河原大輔. 事前学習モデルに基づく日本語形態素解析器における辞書の利用.
小林俊介, 河原大輔. 複数文書の読解を要する質問の自動生成と質問応答システムへの応用.
植松拓也, 河原大輔. 日本語の分類タスクにおけるカリキュラム学習とマルチタスク学習の効果検証.
村田栄樹, 井手竜也, 榮田亮真, 河原大輔, 山崎天, 李聖哲, 新里顕大, 佐藤敏紀. 大規模言語モデルによって構築された常識知識グラフの拡大と低コストフィルタリング.

2023/3/7: 日本語版ATOMICおよびCOMET公開

LINE株式会社との共同研究において構築した、イベントに関する常識知識グラフATOMICと常識生成モデルCOMETの日本語版を、それぞれ公開しました。

GitHub Repo

2023/3/4: スキー・スノボ合宿実施

3/2-3/4に猪苗代スキー場にて、有志によるスキー・スノボ合宿を実施しました。

2022/9/24: 夏ゼミ合宿実施

9/22-24に軽井沢セミナーハウスにて夏ゼミ合宿を実施しました。

2022/6/23: NAACL 2022 Student Research Workshop (SRW) 発表

7/10-15に開催されるNAACL 2022 SRWで以下の研究発表をします。

Ryoma Sakaeda and Daisuke Kawahara. Generate, Evaluate, and Select: A Dialogue System with a Response Evaluator for Diversity-Aware Response Generation.
Ritvik Choudhary and Daisuke Kawahara. Grounding in Social Media: An Approach to Building a Chit-chat Dialogue Model.
Tomohito Kasahara, Daisuke Kawahara, Nguyen Tung, Shengzhe Li, Kenta Shinzato, and Toshinori Sato. Building a Personalized Dialogue System with Prompt-Tuning.

2022/4/24: ACL 2022 Student Research Workshop (SRW) 発表

5/22-27に開催されるACL 2022 SRWで以下の研究発表をします。

Tatsuya Ide and Daisuke Kawahara. Building a Dialogue Corpus Annotated with Expressed and Experienced Emotions.

2022/4/11: LREC 2022 発表

6/21-25に開催されるLREC 2022で以下の研究発表をします。

- Kentaro Kurihara, Daisuke Kawahara, and Tomohide Shibata. JGLUE: Japanese General Language Understanding Evaluation.

2022/4/1: 新メンバー配属

6名の学部生が新たに配属されました。

2021年度

2022/3/17:言語処理学会第28回年次大会(NLP2022) 言語資源賞受賞

M1の栗原健太郎さんが「JGLUE: 日本語言語理解ベンチマーク」で言語資源賞を受賞しました。日本語の言語理解のための標準的なベンチマークとして利用され，研究分野全体の発展に貢献することが期待されます。

【栗原】日本の資源不足の危機を救いました。

2022/3/13:言語処理学会第28回年次大会(NLP2022) 発表

3/14-18に開催されるNLP2022で以下の研究発表をします。

笠原智仁, 河原大輔. Prompt-Tuningによる個性を持った対話システムの構築.
榮田亮真, 河原大輔. 応答の生成・評価・選択による対話システム.
井手竜也, 河原大輔. 表出感情と経験感情をタグ付けした対話コーパスの構築.
Ritvik Choudhary, 河原大輔. ソーシャルメディア上のインタラクションを利用したオープンドメイン対話応答生成.
吉田あいり, 河原大輔. 構造的曖昧性に基づく読みづらさの検出.
栗原健太郎, 河原大輔, 柴田知秀. JGLUE: 日本語言語理解ベンチマーク.

2021/12/29: GPT-2日本語Pretrainedモデル公開

形態素解析した日本語WikipediaだけでGPT-2をpretrainingした以下のモデルをHuggingface Modelsに公開しました。

nlp-waseda/gpt2-small-japanese-wikipedia

2021/12/22: RoBERTa日本語Pretrainedモデル公開

形態素解析した日本語テキストでRoBERTaをpretrainingした以下のモデルをHuggingface Modelsに公開しました。

nlp-waseda/roberta-base-japanese

2021/8/25: NLP若手の会(YANS)第16回シンポジウム発表

8/30-31に開催されるYANS第16回シンポジウムで以下の研究発表をします。

栗原健太郎, 河原大輔, 柴田知秀. 日本語版GLUE構築に向けて.
榮田亮真, 河原大輔. 応答の自動評価モデルとそれを利用した対話システム.

2021/8/3: LINE株式会社と共同研究開始
LINE株式会社と共同研究「超大規模日本語言語モデルを用いた対話システムの研究」を開始しました。超大規模日本語言語モデルの効果的な利用方法、評価方法などについて研究を進めます。
2021/7/15: ヤフー株式会社と共同研究開始
ヤフー株式会社と共同研究「自然言語処理における日本語評価セットの構築」を開始しました。日本語版言語理解ベンチマークを構築し、公開する予定です。
2021/4/1: 新メンバー配属
7名の学部生が新たに配属されました。

2020年度

2021/3/27: NAACL-HLT 2021 Student Research Workshop (SRW) 発表
6/6-11に開催されるNAACL-HLT 2021 SRWで以下の研究発表をします。

Tatsuya Ide and Daisuke Kawahara. Multi-Task Learning of Generation and Classification for Emotion-Aware Dialogue Response Generation.

2021/3/16: 言語処理学会第27回年次大会(NLP2021) 発表
3/15-19に開催されるNLP2021で以下の研究発表をします。
- 井手竜也, 河原大輔. 生成と分類のマルチタスク学習による感情が考慮された対話応答生成.
- 榮田亮真, 河原大輔. 逆翻訳とフィルタリングによる擬似対話コーパスの生成とそれを用いた対話システムの学習.
- 栗原健太郎, 河原大輔. ファクトチェック支援のための含意関係認識システム.
- 小原京子, 河原大輔, 笹野遼平, 関根聡. 集合知を用いた大規模意味的フレーム知識の構築.
- 田中佑, 村脇有吾, 河原大輔, 黒橋禎夫. 日本語Wikipediaの編集履歴に基づく入力誤りデータセットと訂正システムの改良.

2020/7/15: COVID-19世界情報集約サイト
国内の大学・研究機関の情報系研究室とのコラボレーションによって、COVID-19に関する世界の情報を集約するサイトを構築し、公開しています。

Page updated

Google Sites

Report abuse