カテゴリ

学習・ファインチューニングの記事一覧

8件の記事があります。

GRPOとは？報酬比較だけでLLMを強化学習しやすくする省メモリ学習手法

GRPOは、PPOのような価値モデルを持たずに、同じ質問に対する複数回答の相対評価からLLMを強化学習する手法です。仕組み、実験結果、実務での使い道を日本語で解説します。

参照論文：DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

ORPOは、参照モデルや別段のDPO工程を使わず、教師あり学習と選好最適化を一体化するLLM向け学習手法です。仕組み、実験結果、実務での使い道を日本語で解説します。

参照論文：ORPO: Monolithic Preference Optimization without Reference Model

RAFTは、RAGで使う検索文書を学習時からLLMに見せ、正解文書とノイズ文書を見分けながら答える力を鍛える学習手法です。仕組み、実験結果、実務での使い道を日本語で解説します。

参照論文：RAFT: Adapting Language Model to Domain Specific RAG

Prefix-Tuningは、事前学習済みモデル本体を凍結したまま、連続ベクトルのプレフィックスだけを学習してタスク適応する手法です。仮想トークンの考え方、仕組み、実験結果、実務での使い道を日本語で解説します。

参照論文：Prefix-Tuning: Optimizing Continuous Prompts for Generation

DoRAは、LoRAの軽さを保ちながらフルファインチューニングに近い学習能力を目指すPEFT手法です。重みを大きさと向きに分ける考え方、仕組み、実験結果、開発への応用ポイントを日本語で解説します。

参照論文：DoRA: Weight-Decomposed Low-Rank Adaptation

QLoRAは、事前学習済みLLMを4bit量子化したまま凍結し、LoRAだけを学習して大規模モデルを少ないGPUメモリで調整する技術です。NF4、Double Quantization、Paged Optimizerの仕組みと、実務での使い道を日本語で整理します。

参照論文：QLoRA: Efficient Finetuning of Quantized LLMs

DPOは、報酬モデル学習とPPOを使わずに、好ましい応答と好ましくない応答の比較データからLLMを直接学習させる手法です。RLHFとの違い、数式の考え方、実験結果、実務での応用ポイントを日本語で整理します。

参照論文：Direct Preference Optimization: Your Language Model is Secretly a Reward Model

LoRAは、事前学習済みモデル本体を凍結したまま、低ランク行列だけを学習して新しいタスクに適応させる手法です。なぜ軽くて強いのか、仕組み、実験結果、実装へのヒントを日本語で整理します。

参照論文：LoRA: Low-Rank Adaptation of Large Language Models