AI記事考察ノート

Official · 速報 2023.08.08

Llama 2 の DPO を用いた Fine-tuning

Llama 2 の Fine-tuning に DPO を適用し、モデルの公平性とパフォーマンスを向上。

Llama 2 DPO Fine-tuning プロキシポリシー最適化

Hugging Face Blog

Field Note 読みどころ

Hugging Face Blog の公式情報

AI研究者機械学習エンジニアデータサイエンティスト

絞り込み結果