タグ
#QLoRAの記事一覧
1件の記事があります。
学習・ファインチューニング
QLoRAとは?4bit量子化で大規模モデルを省メモリにファインチューニングする技術
QLoRAは、事前学習済みLLMを4bit量子化したまま凍結し、LoRAだけを学習して大規模モデルを少ないGPUメモリで調整する技術です。NF4、Double Quantization、Paged Optimizerの仕組みと、実務での使い道を日本語で整理します。
参照論文:QLoRA: Efficient Finetuning of Quantized LLMs