LLMは自己認識できるか?悪意のあるプリフィル攻撃への脆弱性を検証
大規模言語モデル(LLM)の自己報告能力と悪意のあるプリフィル攻撃に対する認識
査読前の可能性がある研究情報
大規模言語モデル(LLM)が悪意のあるプリフィル攻撃を認識できないことが示された
速報・AI要約未精査
arXiv cs.CL
毎日更新・AIニュース考察
大規模言語モデル(LLM)の自己報告能力と悪意のあるプリフィル攻撃に対する認識
査読前の可能性がある研究情報
大規模言語モデル(LLM)が悪意のあるプリフィル攻撃を認識できないことが示された
速報・AI要約未精査