毎日AI論文解説
AI論文を日本語で読み解き、技術の仕組みや開発・事業へのヒントを発信しています。
ReActとは?推論と行動を交互に回してLLMエージェントを安定化する技術
ReActは、LLMに考える過程と外部アクションを交互に出させることで、検索・ツール利用・逐次タスク実行を安定させる技術です。エージェント設計の基本として、仕組みと使い道を技術的に整理します。
参照論文:ReAct: Synergizing Reasoning and Acting in Language Models
Toolformerとは?LLMが自分でAPIを呼び出す自己教師ありツール利用学習の仕組み
Toolformerは、少数のAPI使用例だけを手がかりに、LLMがいつツールを呼ぶべきか、何を渡すべきか、返り値をどう使うべきかを自己教師ありで学ぶ技術です。エージェントや業務自動化にどう効くのかを技術的に整理します。
参照論文:Toolformer: Language Models Can Teach Themselves to Use Tools
Switch Transformerとは?計算量を増やさずにモデル容量を拡張する疎なMoEの仕組みと使い道
Switch Transformerは、トークンごとに1つの専門家だけを選ぶ疎なMixture of Expertsで、計算量を大きく増やさずにモデル容量を拡張する技術です。top-1ルーティング、負荷分散、学習安定化、実務での応用可能性を整理します。
参照論文:Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
LayerSkipとは?追加モデルなしでLLM推論を高速化する早期退出と自己Speculative Decodingの仕組み
LayerSkipは、LLMの中間層から早めに出力を作れるよう訓練し、同じモデルだけでspeculative decodingを行う推論最適化技術です。追加ドラフトモデルを持たずに高速化する考え方、仕組み、実務での使い道を整理します。
参照論文:LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding
Grouped-Query Attentionとは?KVキャッシュを減らして推論を速くする仕組みと使い道
Grouped-Query Attentionは、TransformerのAttentionで使うKey/Valueヘッドを共有し、品質を保ちながら推論を軽くしやすくする技術です。GQAの仕組み、既存手法との違い、実務での使い道を日本語で整理します。
参照論文:GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints
Speculative Decodingとは?LLM推論を品質そのままで高速化する仕組みと使い道
Speculative Decodingは、小さなドラフトモデルで先読みした候補を大きな本命モデルがまとめて検証し、出力分布を変えずにLLM推論を高速化する技術です。仕組み、評価結果、実務での使い道まで日本語で整理します。
参照論文:Fast Inference from Transformers via Speculative Decoding
Mambaとは?線形時間で長文を扱える選択的状態空間モデルの仕組みと使い道
Mambaは、Transformerの二乗計算コストを避けながら、入力内容に応じて記憶を選別できる選択的状態空間モデルです。Selective SSM、並列スキャン、長文処理への強さ、実務での応用可能性を日本語で整理します。
参照論文:Mamba: Linear-Time Sequence Modeling with Selective State Spaces
QLoRAとは?4bit量子化で大規模モデルを省メモリにファインチューニングする技術
QLoRAは、事前学習済みLLMを4bit量子化したまま凍結し、LoRAだけを学習して大規模モデルを少ないGPUメモリで調整する技術です。NF4、Double Quantization、Paged Optimizerの仕組みと、実務での使い道を日本語で整理します。
参照論文:QLoRA: Efficient Finetuning of Quantized LLMs
ColBERTv2とは?RAG検索の精度を保ったままインデックスを軽量化する検索技術
ColBERTv2は、トークン単位で意味を照合するlate interaction検索の強みを保ちながら、残差圧縮と蒸留学習で実用性を高めた検索技術です。RAGや社内検索でなぜ効くのか、仕組み、実験結果、開発への応用まで日本語で整理します。
参照論文:ColBERTv2: Effective and Efficient Retrieval via Lightweight Late Interaction
DPOとは?RLHFを単純化して選好学習を直接最適化する仕組みと使い道
DPOは、報酬モデル学習とPPOを使わずに、好ましい応答と好ましくない応答の比較データからLLMを直接学習させる手法です。RLHFとの違い、数式の考え方、実験結果、実務での応用ポイントを日本語で整理します。
参照論文:Direct Preference Optimization: Your Language Model is Secretly a Reward Model
PagedAttentionとは?LLMサービングのKVキャッシュ断片化を減らし高スループット化する仕組みと使い道
PagedAttentionは、LLM推論で肥大化するKVキャッシュをページ単位で管理し、メモリ断片化と重複を抑える技術です。vLLMの中核になったこの仕組みを、課題、実装アイデア、実験結果、開発への応用まで日本語で整理します。
参照論文:Efficient Memory Management for Large Language Model Serving with PagedAttention
FlashAttentionとは?長文LLMを高速・省メモリにするIO-aware Attention最適化の仕組みと使い道
FlashAttentionは、TransformerのAttentionを近似せずに高速化・省メモリ化するカーネル最適化です。なぜ長文処理で効くのか、HBMとSRAMを意識した仕組み、実験結果、開発への応用ポイントを日本語で整理します。
参照論文:FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
LoRAとは?少ない学習パラメータで大規模モデルを適応させる低ランクファインチューニングを解説
LoRAは、事前学習済みモデル本体を凍結したまま、低ランク行列だけを学習して新しいタスクに適応させる手法です。なぜ軽くて強いのか、仕組み、実験結果、実装へのヒントを日本語で整理します。
参照論文:LoRA: Low-Rank Adaptation of Large Language Models
Self-RAGとは?必要なときだけ検索し根拠を自己点検するRAG手法を解説
Self-RAGは、LLMが必要なときだけ検索し、取り込んだ根拠と自分の出力を自己評価しながら生成するRAG手法です。固定検索型RAGとの違い、仕組み、実験結果、実装へのヒントを日本語で整理します。
参照論文:Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection
Medusaとは?LLM推論を高速化する複数デコードヘッドの仕組みと使い道
Medusaは、LLMに複数の軽量デコードヘッドを追加して複数トークンを並列予測し、推論を高速化する手法です。別のドラフトモデルを使わずに速くする考え方、仕組み、評価結果、実装へのヒントを技術的に解説します。
参照論文:Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads
RAPTORとは?長文RAGで要約ツリーを使い検索精度を高める手法を解説
RAPTORは、文書を要約付きツリーに変換して複数の粒度で検索するRAG手法です。長文ドキュメントでなぜ効くのか、仕組み、評価結果、実装へのヒントを技術的に解説します。
参照論文:RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval