Research研究紹介 Results / Awards研究業績及び受賞 Projectsプロジェクト Memberメンバー Accessアクセス

Research

研究紹介

大規模言語モデル(LLM:Large Language Models)

研究概要

近年、ChatGPTに代表される大規模言語モデル(LLM: Large Language Models)は、自然言語の自動生成において著しい性能向上を遂げており、対話システムや意思決定支援等様々な応用が進んでいます。一方、LLMは大規模な機械学習モデルであるが故に、与えられたプロンプトに対し「脱獄(jailbreak)」と呼ばれる回避的な操作を行うことで、意図しない応答や非倫理的な出力が生じるリスクが指摘されています。これにより、社会的・法的に問題となる情報が漏洩されたり、物理システムと連携した際に予期せぬ行動を引き起こす危険性が懸念されています。

研究内容

本研究では、このようなLLMの倫理性・安全性を保証するためのフィードバック制御系の構築を目的としています。具体的には、LLMが生成した応答に対して倫理性などのスコアをリアルタイムに評価し、その評価結果を反映した信号をLLMに入力することで、次に生成されるトークン(単語)を調整する閉ループ構造を導入します。本枠組みでは、制御工学における状態フィードバック制御の考え方を応用し、LLMの出力に対して逐次的な制御入力(修正・抑制)を設計することでモデルの頑健性を高め、倫理的かつ適切な出力を誘導することを目指します。 本研究テーマは、NTTコンピュータ&データサイエンス研究所との共同研究として進めています。

図.LLMに対するフィードバック制御システムの概略図