タグ

#RLHFの記事一覧

1件の記事があります。

DPOとは？RLHFを単純化して選好学習を直接最適化する仕組みと使い道

DPOは、報酬モデル学習とPPOを使わずに、好ましい応答と好ましくない応答の比較データからLLMを直接学習させる手法です。RLHFとの違い、数式の考え方、実験結果、実務での応用ポイントを日本語で整理します。

参照論文：Direct Preference Optimization: Your Language Model is Secretly a Reward Model