カテゴリ

学習・ファインチューニングの記事一覧

3件の記事があります。

学習・ファインチューニング

QLoRAとは?4bit量子化で大規模モデルを省メモリにファインチューニングする技術

QLoRAは、事前学習済みLLMを4bit量子化したまま凍結し、LoRAだけを学習して大規模モデルを少ないGPUメモリで調整する技術です。NF4、Double Quantization、Paged Optimizerの仕組みと、実務での使い道を日本語で整理します。

参照論文:QLoRA: Efficient Finetuning of Quantized LLMs

学習・ファインチューニング

DPOとは?RLHFを単純化して選好学習を直接最適化する仕組みと使い道

DPOは、報酬モデル学習とPPOを使わずに、好ましい応答と好ましくない応答の比較データからLLMを直接学習させる手法です。RLHFとの違い、数式の考え方、実験結果、実務での応用ポイントを日本語で整理します。

参照論文:Direct Preference Optimization: Your Language Model is Secretly a Reward Model

学習・ファインチューニング

LoRAとは?少ない学習パラメータで大規模モデルを適応させる低ランクファインチューニングを解説

LoRAは、事前学習済みモデル本体を凍結したまま、低ランク行列だけを学習して新しいタスクに適応させる手法です。なぜ軽くて強いのか、仕組み、実験結果、実装へのヒントを日本語で整理します。

参照論文:LoRA: Low-Rank Adaptation of Large Language Models