Transformerが最小回路で動作する理由とは?
注意のみによるTransformerで間接対象識別タスクを解く最小回路の発生
査読前の可能性がある研究情報
注意のみTransformerが間接対象識別タスクで最小回路を形成することを示す研究
速報・AI要約未精査
mechanistic interpretability
large language models (LLMs)
attention-only transformers
Indirect Object Identification (IOI) task
arXiv cs.CL