タグ
#RLHFの記事一覧
1件の記事があります。
学習・ファインチューニング
DPOとは?RLHFを単純化して選好学習を直接最適化する仕組みと使い道
DPOは、報酬モデル学習とPPOを使わずに、好ましい応答と好ましくない応答の比較データからLLMを直接学習させる手法です。RLHFとの違い、数式の考え方、実験結果、実務での応用ポイントを日本語で整理します。
参照論文:Direct Preference Optimization: Your Language Model is Secretly a Reward Model