ニュース
2024年度
2024/9/6: NLP若手の会(YANS)第19回シンポジウム 表彰
以下の発表がYANS第19回シンポジウムにおいて奨励賞として表彰されました。渡邉一功, 河原大輔. 学習過程における重みのマージによるモデル最適化.
堀尾海斗, 河原大輔. LLMは真面目・不真面目になれるか?
2024/8/28: NLP若手の会(YANS)第19回シンポジウム 発表
9/4-6に開催されるYANS第19回シンポジウムで以下の研究発表をします。福田創, 河原大輔. 物語生成タスクにおける埋め込みを用いたLLMの創造性評価.
渡邉一功, 河原大輔. 学習過程における重みのマージによるモデル最適化.
織田宥楽, 小川隼斗, 河原大輔. 人工知能ラッパーの実現に向けて.
小川隼斗, 河原大輔. 和歌埋め込みモデルの構築とそれを用いた本歌取りの分析.
植松拓也, 河原大輔, 柴田知秀. Japanese MT-bench++: より自然なマルチターン対話設定における大規模日本語ベンチマーク.
王昊, 河原大輔. 言語学習支援に向けた動画生成モデルの構築.
堀尾海斗, 河原大輔. LLMは真面目・不真面目になれるか?
2024/6/18: ALVR 2024 発表
8/15-16に開催されるALVR 2024で以下の研究発表をします。Hao Wang, Shuhei Kurita, Shuichiro Shimizu, Daisuke Kawahara. SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition.
2024/4/26: NAACL SRW 2024 発表
6/18に開催されるNAACL SRW 2024で以下の研究発表をします。Rintaro Enomoto, Arseny Tolmachev, Takuro Niitsuma, Shuhei Kurita, Daisuke Kawahara. Investigating Web Corpus Filtering Methods in Language Model Development.
Mizuki Kondo, Daisuke Kawahara, Toshiyuki Kurabayashi. Improving Repository-level Code Search with Text Conversion.
Hao Wang, Tetsuro Morimura, Ukyo Honda, Daisuke Kawahara. Reinforcement Learning for Edit-Based Non-Autoregressive Neural Machine Translation.
2024/4/23: *SEM 2024 発表
6/20-21に開催される*SEM 2024で以下の研究発表をします。Takuya Uematsu, Hao Wang, Daisuke Kawahara, Tomohide Shibata. A Benchmark Suite of Japanese Natural Questions.
2024/4/1: 新メンバー配属
6名の学部生、2名の修士学生が新たに配属されました。
2023年度
2024/3/14: 言語処理学会第30回年次大会(NLP2024) 表彰
以下の論文がNLP2024において表彰されました。
若手奨励賞
植松拓也, 王昊, 河原大輔, 柴田知秀. 日本語Natural QuestionsとBoolQの構築.
委員特別賞
中村友亮, 河原大輔. 日本語TruthfulQAの構築.
スポンサー賞
中村友亮, 河原大輔. 日本語TruthfulQAの構築. (日立賞)
尹子旗, 王昊, 堀尾海斗, 河原大輔, 関根聡. プロンプトの丁寧さと大規模言語モデルの性能の関係検証. (メルカリ賞)
2024/3/11: 2023年度 言語処理学会論文賞
2023年度の言語処理学会論文賞がNLP2024において発表・表彰されました。
栗原健太郎、河原大輔,柴田知秀. JGLUE:日本語言語理解ベンチマーク. (最優秀論文賞)
大村和正、河原大輔,黒橋禎夫. 基本イベントに基づく常識推論データセットの構築と利用.
2024/3/4:言語処理学会第30回年次大会(NLP2024) 発表
3/11-15に開催されるNLP2024で以下の研究発表をします。
中村友亮, 河原大輔. 日本語TruthfulQAの構築.
清水博文, 河原大輔. 日本語Winogroundデータセットの自動構築.
尹子旗, 王昊, 堀尾海斗, 河原大輔, 関根聡. プロンプトの丁寧さと大規模言語モデルの性能の関係検証.
今井咲良, Giovanni Pasa, 小田博宗, 折田奈甫, 河原大輔. 意味的プロービングデータセットの構築と言語モデルの評価: イタリア語の倒置を例に.
近藤瑞希, 河原大輔, 倉林利行. テキスト変換によるリポジトリレベルのコード検索の改善.
村田栄樹, 大友寛之, 村上聡一朗, 本多右京, 舟久保弘明. 訴求軸を考慮したキーワードからの広告文生成.
村田栄樹, 河原大輔. TaCOMET: 時間を考慮したイベント常識生成モデル.
植松拓也, 王昊, 河原大輔, 柴田知秀. 日本語Natural QuestionsとBoolQの構築.
山内悠輔, 河原大輔. 手順のテキスト化による将棋解説文生成.
王昊, 栗田修平, 清水周一郎, 河原大輔. SlideAVSR: 視聴覚音声認識のための論文解説動画データセット.
関根聡, 安藤まや, 後藤美知子, 鈴木久美, 河原大輔, 井之上直也, 乾健太郎. ichikara-instruction LLMのための日本語インストラクションデータの作成.
Arseny Tolmachev, Masayoshi Hayashi, Takuro Niitsuma, Rintaro Enomoto, Hao Wang, Shuhei Kurita, Daisuke Kawahara, Kazuma Takaoka, Yoshitaka Uchida. Uzushio: A Distributed Huge Corpus Processor for the LLM Era.
岡野裕仁, 河原大輔, 野村理朗. 自由記述からセルフ・コンパッションを推定することは可能か? ―BERTによる心理学的構成概念の定量化―.
小林俊介, 河原大輔. 多様なクイズを自動生成する手法およびその検証.
笠原智仁, 村田栄樹, 河原大輔. 科学技術論文を対象とした根拠付き生成型要約システムの構築.
榎本倫太郎, Tolmachev Arseny, 新妻巧朗, 栗田修平, 河原大輔. 大規模言語モデル開発における日本語Web文書のフィルタリング手法の検証.
笹川慶人, 河原大輔. 環境依存情報を利用しない大規模言語モデルによるコンピュータータスク自動化手法.
伊藤俊太朗, 河原大輔. 知識志向 Mixture of LoRA Experts の構築.
太田聖三郎, 河原大輔, 野村理朗. おもしろい川柳の生成.
2024/2/20: LREC-COLING 2024 発表
5/20-25に開催されるLREC-COLING 2024で以下の研究発表をします。Eiki Murata and Daisuke Kawahara. Time-aware COMET: a Commonsense Knowledge Model with Temporal Knowledge.
2024/2/6: スキー・スノボ合宿 実施
2/4-2/6に志賀高原にて、有志によるスキー・スノボ合宿を実施しました。
2023/10/23: IJCNLP-AACL 2023 Student Research Workshop 発表
11/1に開催されるIJCNLP-AACL 2023 Student Research Workshop で以下の研究発表をします。
Tomohito Kasahara and Daisuke Kawahara. Exploring Automatic Evaluation Methods based on a Decoder-based LLM for Text Generation.
2023/9/18: 夏ゼミ合宿 実施
9/16-18に鴨川セミナーハウスにて夏ゼミ合宿を実施しました。
2023/8/21: NLP若手の会(YANS)第18回シンポジウム 発表
8/30-31に開催されるYANS第18回シンポジウムで以下の研究発表をします。どちらもインターンにおける成果の発表となります。王昊 (早大), 森村哲郎 (サイバーエージェント), 本多右京 (サイバーエージェント), 河原大輔 (早大). 非自己回帰言語モデルへの強化学習の適用.
村田栄樹 (日経新聞/早大), 石原祥太郎 (日経新聞). ドメイン別に訓練した要約モデルにおけるHallucinationの内在・外在要因分析.
2023/7/6: ACL2023 SRW 発表
7/10-12に開催されるACL2023 Student Research Workshop で以下の研究発表をします。
Sakura Imai, Daisuke Kawahara, Naho Orita and Hiromune Oda. Theoretical Linguistics Rivals Embeddings in Language Clustering for Multilingual Named Entity Recognition.
2023/6/26: BigBird日本語Pretrainedモデル公開
単語分割した日本語コーパスでBigBirdをpretrainingした以下のモデルをHuggingface Modelsに公開しました。
2023/6/5: 第37回人工知能学会全国大会 (JSAI2023) 発表
6/6-9に開催されるJSAI2023で以下の研究発表をします。
清水博文, 河原大輔. 非言語データを用いた対照学習による文埋め込み学習の日本語における効果検証.
伊藤俊太朗, 河原大輔. 日本語BERTにおけるトークナイザの違いによる影響の検証.
堀尾海斗, 村田栄樹, 王昊, 井手竜也, 河原大輔, 山崎天, 新里顕大, 中町礼文, 李聖哲, 佐藤敏紀. 日本語における Chain-of-Thought プロンプトの検証.
尹子旗, 河原大輔. 多段階転移学習による不完全発話補完の精度向上.
2023/5/2: ACL 2023 採択
7/9-14に開催されるACL2023 (Findings)に以下の論文が採択されました。
Hao Wang, Hirofumi Shimizu, Daisuke Kawahara. Kanbun-LM: Reading and Translating Classical Chinese in Japanese Methods by Language Models.
2023/4/1: 新メンバー配属
7名の学部生、1名の修士学生、1名の博士学生が新たに配属されました。
2022年度
2023/3/17:言語処理学会第29回年次大会(NLP2023) 優秀賞・委員特別賞受賞
M2の吉田あいりさんが「日本語 WiC データセットの構築と読みづらさ検出への応用」で優秀賞を、M2の栗原健太郎さんが「JCommonsenseQA 2.0: 計算機と人の協働による常識推論データセットの改良」で委員特別賞をそれぞれ受賞しました。2023/3/13:言語処理学会第29回年次大会(NLP2023) 発表
3/13-17に開催されるNLP2023で以下の研究発表をします。
児玉貴志, 植田暢大, 大村和正, 清丸寛一, 村脇有吾, 河原大輔, 黒橋禎夫. テキスト生成モデルによる日本語形態素解析.
栗原健太郎, 二宮大空, 友松祐太. 意味的類似度計算システムによるチャットボットFAQシステムの性能向上.
栗原健太郎, 河原大輔, 柴田知秀. JCommonsenseQA 2.0: 計算機と人の協働による常識推論データセットの改良.
井手竜也, 村田栄樹, 堀尾海斗, 河原大輔, 山崎天, 李聖哲, 新里顕大, 佐藤敏紀. 人間と言語モデルに対するプロンプトを用いたゼロからのイベント常識知識グラフ構築.
井手竜也, 榮田亮真, 河原大輔, 山崎天, 李聖哲, 新里顕大, 佐藤敏紀. 対話に基づく常識知識グラフの構築と対話応答生成に対する適用.
吉田あいり, 河原大輔. 日本語 WiC データセットの構築と読みづらさ検出への応用.
今井咲良, 河原大輔, 折田奈甫, 小田博宗. 理論言語学の知見を応用した多言語クラスタリング.
榮田亮真, 井手竜也, 村田栄樹, 河原大輔. 対話行為の分布を利用した雑談対話システムの評価指標.
笠原智仁, 河原大輔, 山崎天, 新里顕大, 佐藤敏紀. Decoderベースの大規模言語モデルに基づくテキスト生成の自動評価指標.
太田聖三郎, 河原大輔, 野村理朗. 機械学習を用いた川柳の面白さの予測.
王昊, 中町礼文, 佐藤敏紀. 日本語の大規模な基盤モデルに対するLoRAチューニング.
王昊, 清水博文, 河原大輔. 言語モデルを用いた漢文の返り点付与と書き下し文生成.
Ritvik Choudhary, 河原大輔. 魅力的な対話応答生成のための複数教師による知識蒸留.
田村稔行, 河原大輔. 事前学習モデルに基づく日本語形態素解析器における辞書の利用.
小林俊介, 河原大輔. 複数文書の読解を要する質問の自動生成と質問応答システムへの応用.
植松拓也, 河原大輔. 日本語の分類タスクにおけるカリキュラム学習とマルチタスク学習の効果検証.
村田栄樹, 井手竜也, 榮田亮真, 河原大輔, 山崎天, 李聖哲, 新里顕大, 佐藤敏紀. 大規模言語モデルによって構築された常識知識グラフの拡大と低コストフィルタリング.
2023/3/7: 日本語版ATOMICおよびCOMET公開
LINE株式会社との共同研究において構築した、イベントに関する常識知識グラフATOMICと常識生成モデルCOMETの日本語版を、それぞれ公開しました。
2023/3/4: スキー・スノボ合宿 実施
3/2-3/4に猪苗代スキー場にて、有志によるスキー・スノボ合宿を実施しました。
2022/9/24: 夏ゼミ合宿 実施
9/22-24に軽井沢セミナーハウスにて夏ゼミ合宿を実施しました。
2022/6/23: NAACL 2022 Student Research Workshop (SRW) 発表
7/10-15に開催されるNAACL 2022 SRWで以下の研究発表をします。
Ryoma Sakaeda and Daisuke Kawahara. Generate, Evaluate, and Select: A Dialogue System with a Response Evaluator for Diversity-Aware Response Generation.
Ritvik Choudhary and Daisuke Kawahara. Grounding in Social Media: An Approach to Building a Chit-chat Dialogue Model.
Tomohito Kasahara, Daisuke Kawahara, Nguyen Tung, Shengzhe Li, Kenta Shinzato, and Toshinori Sato. Building a Personalized Dialogue System with Prompt-Tuning.
2022/4/24: ACL 2022 Student Research Workshop (SRW) 発表
5/22-27に開催されるACL 2022 SRWで以下の研究発表をします。
Tatsuya Ide and Daisuke Kawahara. Building a Dialogue Corpus Annotated with Expressed and Experienced Emotions.
2022/4/11: LREC 2022 発表
6/21-25に開催されるLREC 2022で以下の研究発表をします。
Kentaro Kurihara, Daisuke Kawahara, and Tomohide Shibata. JGLUE: Japanese General Language Understanding Evaluation.
2022/4/1: 新メンバー配属
6名の学部生が新たに配属されました。
2021年度
2022/3/17:言語処理学会第28回年次大会(NLP2022) 言語資源賞受賞
M1の栗原健太郎さんが「JGLUE: 日本語言語理解ベンチマーク」で言語資源賞を受賞しました。日本語の言語理解のための標準的なベンチマークとして利用され,研究分野全体の発展に貢献することが期待されます。
【栗原】日本の資源不足の危機を救いました。
2022/3/13:言語処理学会第28回年次大会(NLP2022) 発表
3/14-18に開催されるNLP2022で以下の研究発表をします。
笠原智仁, 河原大輔. Prompt-Tuningによる個性を持った対話システムの構築.
榮田亮真, 河原大輔. 応答の生成・評価・選択による対話システム.
井手竜也, 河原大輔. 表出感情と経験感情をタグ付けした対話コーパスの構築.
Ritvik Choudhary, 河原大輔. ソーシャルメディア上のインタラクションを利用したオープンドメイン対話応答生成.
吉田あいり, 河原大輔. 構造的曖昧性に基づく読みづらさの検出.
栗原健太郎, 河原大輔, 柴田知秀. JGLUE: 日本語言語理解ベンチマーク.
2021/12/29: GPT-2日本語Pretrainedモデル公開
形態素解析した日本語WikipediaだけでGPT-2をpretrainingした以下のモデルをHuggingface Modelsに公開しました。
2021/12/22: RoBERTa日本語Pretrainedモデル公開
形態素解析した日本語テキストでRoBERTaをpretrainingした以下のモデルをHuggingface Modelsに公開しました。
2021/8/25: NLP若手の会(YANS)第16回シンポジウム 発表
8/30-31に開催されるYANS第16回シンポジウムで以下の研究発表をします。
栗原健太郎, 河原大輔, 柴田知秀. 日本語版GLUE構築に向けて.
榮田亮真, 河原大輔. 応答の自動評価モデルとそれを利用した対話システム.
2021/8/3: LINE株式会社と共同研究開始
LINE株式会社と共同研究「超大規模日本語言語モデルを用いた対話システムの研究」を開始しました。超大規模日本語言語モデルの効果的な利用方法、評価方法などについて研究を進めます。2021/7/15: ヤフー株式会社と共同研究開始
ヤフー株式会社と共同研究「自然言語処理における日本語評価セットの構築」を開始しました。日本語版言語理解ベンチマークを構築し、公開する予定です。2021/4/1: 新メンバー配属
7名の学部生が新たに配属されました。
2020年度
2021/3/27: NAACL-HLT 2021 Student Research Workshop (SRW) 発表
6/6-11に開催されるNAACL-HLT 2021 SRWで以下の研究発表をします。
Tatsuya Ide and Daisuke Kawahara. Multi-Task Learning of Generation and Classification for Emotion-Aware Dialogue Response Generation.
2021/3/16: 言語処理学会第27回年次大会(NLP2021) 発表
3/15-19に開催されるNLP2021で以下の研究発表をします。井手竜也, 河原大輔. 生成と分類のマルチタスク学習による感情が考慮された対話応答生成.
榮田亮真, 河原大輔. 逆翻訳とフィルタリングによる擬似対話コーパスの生成とそれを用いた対話システムの学習.
栗原健太郎, 河原大輔. ファクトチェック支援のための含意関係認識システム.
小原京子, 河原大輔, 笹野遼平, 関根聡. 集合知を用いた大規模意味的フレーム知識の構築.
田中佑, 村脇有吾, 河原大輔, 黒橋禎夫. 日本語Wikipediaの編集履歴に基づく入力誤りデータセットと訂正システムの改良.
2020/7/15: COVID-19世界情報集約サイト
国内の大学・研究機関の情報系研究室とのコラボレーションによって、COVID-19に関する世界の情報を集約するサイトを構築し、公開しています。