タグ
#量子化の記事一覧
2件の記事があります。
推論最適化
BitNetとは?1.58bitでLLMを軽く速くする1-bit事前学習の仕組みと使い道を解説
BitNetは、Transformerの線形層をBitLinearに置き換え、重みを1bitまたは1.58bitで最初から学習する技術です。量子化後処理より低コストで、同規模FP16モデルに近い性能を狙う考え方を日本語で整理します。
参照論文:BitNet: 1-bit Pre-training for Large Language Models
学習・ファインチューニング
QLoRAとは?4bit量子化で大規模モデルを省メモリにファインチューニングする技術
QLoRAは、事前学習済みLLMを4bit量子化したまま凍結し、LoRAだけを学習して大規模モデルを少ないGPUメモリで調整する技術です。NF4、Double Quantization、Paged Optimizerの仕組みと、実務での使い道を日本語で整理します。
参照論文:QLoRA: Efficient Finetuning of Quantized LLMs