タグ

#量子化の記事一覧

4件の記事があります。

SmoothQuantとは？LLMをW8A8量子化して推論を高速化する技術

SmoothQuantは、活性値の外れ値を重み側へオフラインで移し、LLMのW8A8量子化を実用化する技術です。仕組み、実験結果、推論最適化への使い道を日本語で解説します。

参照論文：SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models

KIVIは、LLM推論時のボトルネックになりやすいKVキャッシュを、Keyはper-channel、Valueはper-tokenで非対称に2bit量子化する技術です。仕組み、実験結果、推論基盤への使い道を日本語で解説します。

参照論文：KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache

BitNetは、Transformerの線形層をBitLinearに置き換え、重みを1bitまたは1.58bitで最初から学習する技術です。量子化後処理より低コストで、同規模FP16モデルに近い性能を狙う考え方を日本語で整理します。

参照論文：BitNet: 1-bit Pre-training for Large Language Models

QLoRAは、事前学習済みLLMを4bit量子化したまま凍結し、LoRAだけを学習して大規模モデルを少ないGPUメモリで調整する技術です。NF4、Double Quantization、Paged Optimizerの仕組みと、実務での使い道を日本語で整理します。

参照論文：QLoRA: Efficient Finetuning of Quantized LLMs