毎日AI論文解説
AI論文を日本語で読み解き、技術の仕組みや開発・事業へのヒントを発信しています。
CRAGとは?検索ミスに強いRAGを実現する補正型検索拡張生成の仕組みと使い道
CRAGは、RAGで取得した文書の質を先に判定し、ダメならWeb検索で補い、使える部分だけを再構成して回答する技術です。検索失敗に弱い従来RAGをどう補正するのか、仕組みと実務での活かし方を解説します。
参照論文:Corrective Retrieval Augmented Generation
LongLLMLinguaとは?長文プロンプトを圧縮してLLMの精度・速度・コストを同時に改善する技術
LongLLMLinguaは、質問に関係する情報を残しながら長文プロンプトを段階的に圧縮し、LLMの長文処理を安く速くしつつ精度低下も抑える技術です。RAGや長文QA、要約で効く仕組みと実務での使い道を解説します。
参照論文:LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression
Mixture-of-Depthsとは?Transformerの計算量を減らしつつ性能を保つ動的トークンルーティングを解説
Mixture-of-Depthsは、Transformerの各層で重要なトークンだけに重い計算を回し、他のトークンは残差経路でスキップさせる技術です。静的な計算グラフを保ちながら計算配分を動的化する仕組みと、推論高速化やモデル設計への使い道を整理します。
参照論文:Mixture-of-Depths: Dynamically allocating compute in transformer-based language models
Prompt Cacheとは?共通プロンプトを再計算せずLLM推論を高速化する仕組みと使い道を解説
Prompt Cacheは、システムプロンプトやテンプレート、参照文書などの共通部分を prompt module としてキャッシュし、LLM の attention state を再利用する推論最適化技術です。KVキャッシュをリクエスト間へ拡張する考え方と実務での使い道を日本語で整理します。
参照論文:Prompt Cache: Modular Attention Reuse for Low-Latency Inference
BitNetとは?1.58bitでLLMを軽く速くする1-bit事前学習の仕組みと使い道を解説
BitNetは、Transformerの線形層をBitLinearに置き換え、重みを1bitまたは1.58bitで最初から学習する技術です。量子化後処理より低コストで、同規模FP16モデルに近い性能を狙う考え方を日本語で整理します。
参照論文:BitNet: 1-bit Pre-training for Large Language Models
LongRoPEとは?LLMのコンテキスト長を200万トークン超まで伸ばす仕組みと使い道を解説
LongRoPEは、RoPEの位置補間を次元ごと・位置ごとに最適化し、段階的な拡張と短文脈性能の回復を組み合わせて、既存LLMのコンテキスト長を2048kまで伸ばす技術です。長文RAGやAIエージェントにどう効くのかを日本語で解説します。
参照論文:LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens
DSPyとは?プロンプト頼みのLLM開発を自己改善パイプラインに変える技術を解説
DSPyは、LLMアプリを宣言的なモジュールとして記述し、評価指標に合わせてプロンプトやデモ例、構成を自動最適化する技術です。仕組み、実験結果、RAGやエージェント開発への使い道を日本語で解説します。
参照論文:DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines
TextGradとは?自然言語のフィードバックでAIシステムを最適化する手法を解説
TextGradは、LLMが返す自然言語の批評を勾配のように扱い、プロンプトや回答、コード、エージェント構成まで改善していく最適化手法です。仕組み、評価結果、実務での使い道を技術的に解説します。
参照論文:Optimizing generative AI by backpropagating language model feedback
GraphRAGとは?ナレッジグラフで複雑な全体質問に強いRAGの仕組みと使い道
GraphRAGは、文書群からエンティティと関係を抽出してナレッジグラフを作り、コミュニティ要約を使って全体傾向を答えるRAG手法です。通常のベクトル検索RAGが苦手な横断要約や複雑な質問にどう効くのかを技術的に整理します。
参照論文:From Local to Global: A Graph RAG Approach to Query-Focused Summarization
ReActとは?推論と行動を交互に回してLLMエージェントを安定化する技術
ReActは、LLMに考える過程と外部アクションを交互に出させることで、検索・ツール利用・逐次タスク実行を安定させる技術です。エージェント設計の基本として、仕組みと使い道を技術的に整理します。
参照論文:ReAct: Synergizing Reasoning and Acting in Language Models
Toolformerとは?LLMが自分でAPIを呼び出す自己教師ありツール利用学習の仕組み
Toolformerは、少数のAPI使用例だけを手がかりに、LLMがいつツールを呼ぶべきか、何を渡すべきか、返り値をどう使うべきかを自己教師ありで学ぶ技術です。エージェントや業務自動化にどう効くのかを技術的に整理します。
参照論文:Toolformer: Language Models Can Teach Themselves to Use Tools
Switch Transformerとは?計算量を増やさずにモデル容量を拡張する疎なMoEの仕組みと使い道
Switch Transformerは、トークンごとに1つの専門家だけを選ぶ疎なMixture of Expertsで、計算量を大きく増やさずにモデル容量を拡張する技術です。top-1ルーティング、負荷分散、学習安定化、実務での応用可能性を整理します。
参照論文:Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
LayerSkipとは?追加モデルなしでLLM推論を高速化する早期退出と自己Speculative Decodingの仕組み
LayerSkipは、LLMの中間層から早めに出力を作れるよう訓練し、同じモデルだけでspeculative decodingを行う推論最適化技術です。追加ドラフトモデルを持たずに高速化する考え方、仕組み、実務での使い道を整理します。
参照論文:LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding
Grouped-Query Attentionとは?KVキャッシュを減らして推論を速くする仕組みと使い道
Grouped-Query Attentionは、TransformerのAttentionで使うKey/Valueヘッドを共有し、品質を保ちながら推論を軽くしやすくする技術です。GQAの仕組み、既存手法との違い、実務での使い道を日本語で整理します。
参照論文:GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints
Speculative Decodingとは?LLM推論を品質そのままで高速化する仕組みと使い道
Speculative Decodingは、小さなドラフトモデルで先読みした候補を大きな本命モデルがまとめて検証し、出力分布を変えずにLLM推論を高速化する技術です。仕組み、評価結果、実務での使い道まで日本語で整理します。
参照論文:Fast Inference from Transformers via Speculative Decoding
Mambaとは?線形時間で長文を扱える選択的状態空間モデルの仕組みと使い道
Mambaは、Transformerの二乗計算コストを避けながら、入力内容に応じて記憶を選別できる選択的状態空間モデルです。Selective SSM、並列スキャン、長文処理への強さ、実務での応用可能性を日本語で整理します。
参照論文:Mamba: Linear-Time Sequence Modeling with Selective State Spaces
QLoRAとは?4bit量子化で大規模モデルを省メモリにファインチューニングする技術
QLoRAは、事前学習済みLLMを4bit量子化したまま凍結し、LoRAだけを学習して大規模モデルを少ないGPUメモリで調整する技術です。NF4、Double Quantization、Paged Optimizerの仕組みと、実務での使い道を日本語で整理します。
参照論文:QLoRA: Efficient Finetuning of Quantized LLMs
ColBERTv2とは?RAG検索の精度を保ったままインデックスを軽量化する検索技術
ColBERTv2は、トークン単位で意味を照合するlate interaction検索の強みを保ちながら、残差圧縮と蒸留学習で実用性を高めた検索技術です。RAGや社内検索でなぜ効くのか、仕組み、実験結果、開発への応用まで日本語で整理します。
参照論文:ColBERTv2: Effective and Efficient Retrieval via Lightweight Late Interaction
DPOとは?RLHFを単純化して選好学習を直接最適化する仕組みと使い道
DPOは、報酬モデル学習とPPOを使わずに、好ましい応答と好ましくない応答の比較データからLLMを直接学習させる手法です。RLHFとの違い、数式の考え方、実験結果、実務での応用ポイントを日本語で整理します。
参照論文:Direct Preference Optimization: Your Language Model is Secretly a Reward Model
PagedAttentionとは?LLMサービングのKVキャッシュ断片化を減らし高スループット化する仕組みと使い道
PagedAttentionは、LLM推論で肥大化するKVキャッシュをページ単位で管理し、メモリ断片化と重複を抑える技術です。vLLMの中核になったこの仕組みを、課題、実装アイデア、実験結果、開発への応用まで日本語で整理します。
参照論文:Efficient Memory Management for Large Language Model Serving with PagedAttention
FlashAttentionとは?長文LLMを高速・省メモリにするIO-aware Attention最適化の仕組みと使い道
FlashAttentionは、TransformerのAttentionを近似せずに高速化・省メモリ化するカーネル最適化です。なぜ長文処理で効くのか、HBMとSRAMを意識した仕組み、実験結果、開発への応用ポイントを日本語で整理します。
参照論文:FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
LoRAとは?少ない学習パラメータで大規模モデルを適応させる低ランクファインチューニングを解説
LoRAは、事前学習済みモデル本体を凍結したまま、低ランク行列だけを学習して新しいタスクに適応させる手法です。なぜ軽くて強いのか、仕組み、実験結果、実装へのヒントを日本語で整理します。
参照論文:LoRA: Low-Rank Adaptation of Large Language Models
Self-RAGとは?必要なときだけ検索し根拠を自己点検するRAG手法を解説
Self-RAGは、LLMが必要なときだけ検索し、取り込んだ根拠と自分の出力を自己評価しながら生成するRAG手法です。固定検索型RAGとの違い、仕組み、実験結果、実装へのヒントを日本語で整理します。
参照論文:Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection
Medusaとは?LLM推論を高速化する複数デコードヘッドの仕組みと使い道
Medusaは、LLMに複数の軽量デコードヘッドを追加して複数トークンを並列予測し、推論を高速化する手法です。別のドラフトモデルを使わずに速くする考え方、仕組み、評価結果、実装へのヒントを技術的に解説します。
参照論文:Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads
RAPTORとは?長文RAGで要約ツリーを使い検索精度を高める手法を解説
RAPTORは、文書を要約付きツリーに変換して複数の粒度で検索するRAG手法です。長文ドキュメントでなぜ効くのか、仕組み、評価結果、実装へのヒントを技術的に解説します。
参照論文:RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval