毎日AI論文解説

AI論文を日本語で読み解き、技術の仕組みや開発・事業へのヒントを発信しています。

Mixture-of-Recursionsとは？共有レイヤーと動的再帰でLLMの計算量を減らす仕組み

Mixture-of-Recursionsは、LLMの重み共有とトークンごとの可変計算を組み合わせて、少ないパラメータと計算資源で高い性能を狙う技術です。再帰的に同じブロックを使い回しつつ、難しいトークンだけ深く処理する仕組み、実験結果、開発への活かし方を日本語で解説します。

参照論文：Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation

AIエージェント

LLMCompilerとは？エージェントのツール呼び出しを並列化して高速化する技術

LLMCompilerは、LLMエージェントの関数呼び出しをDAGとして計画し、依存関係を保ちながら並列実行する技術です。仕組み、実験結果、実務での使い道を日本語で解説します。

参照論文：An LLM Compiler for Parallel Function Calling

AIエージェント

ToolRerankとは？大量ツール時代のAIエージェントでAPI選択を賢くする再ランキング技術

ToolRerankは、AIエージェントのツール選択で起きやすい取りこぼしや偏りを減らすために、見たことのあるツールと未知のツールを分けて扱い、単一ツール型と複数ツール型のクエリで再ランキング戦略を切り替える手法です。仕組み、実験結果、実務での活かし方を日本語で解説します。

参照論文：ToolRerank: Adaptive and Hierarchy-Aware Reranking for Tool Retrieval

学習・ファインチューニング

GRPOとは？報酬比較だけでLLMを強化学習しやすくする省メモリ学習手法

GRPOは、PPOのような価値モデルを持たずに、同じ質問に対する複数回答の相対評価からLLMを強化学習する手法です。仕組み、実験結果、実務での使い道を日本語で解説します。

参照論文：DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

Mixture-of-Recursionsとは？共有レイヤーと動的再帰でLLMの計算量を減らす仕組み

LLMCompilerとは？エージェントのツール呼び出しを並列化して高速化する技術

ToolRerankとは？大量ツール時代のAIエージェントでAPI選択を賢くする再ランキング技術

GRPOとは？報酬比較だけでLLMを強化学習しやすくする省メモリ学習手法

LazyLLMとは？長文LLMの入力を動的に間引いて初回応答を速くする技術

Tree of Thoughtsとは？LLMに探索・分岐・自己評価を持ち込む推論技術

CacheGenとは？KVキャッシュを圧縮して長文LLMを速くする技術

SnapKVとは？長文LLMのKVキャッシュを圧縮して高速化する技術

Active Retrievalとは？生成の途中で検索して長文RAGの弱点を補う技術

ORPOとは？参照モデルなしで選好学習を一段で進めるLLMアラインメント技術

AWQとは？LLMを4bit量子化して軽く速く動かす技術

SmoothQuantとは？LLMをW8A8量子化して推論を高速化する技術

SemDeDupとは？学習データの意味的重複を削ってAI学習を速くする技術

Activation Beaconとは？長文コンテキストを圧縮してLLMの文脈長と推論効率を伸ばす技術

Contrastive Decodingとは？追加学習なしでLLMの出力品質を改善する推論手法

Segment Anythingとは？クリックや枠指定で画像を切り抜ける汎用セグメンテーション技術

LLaVAとは？画像を見て会話できるマルチモーダルAIの仕組みと実務での使い道

GraphReaderとは？長文をグラフ化して小さなコンテキストでも読めるAIエージェント技術

SGLangとは？複数LLM呼び出しを高速化し、エージェントやRAGを実装しやすくする技術

DreamBoothとは？少数画像で被写体を学習し、本人・商品・キャラクターを生成できる技術

FlexGenとは？単一GPUで大規模LLMを高スループット実行するオフロード推論技術

Whisperとは？雑音や多言語に強い音声認識基盤モデルの仕組みと使い道

StreamingLLMとは？長時間会話を止めずに続けるAttention Sinkベースの無限長推論技術

MInferenceとは？長文LLMのprefillを最大10倍高速化する動的疎Attention技術

vAttentionとは？PagedAttentionなしでLLMサービングのKVキャッシュ断片化を防ぐ技術

KIVIとは？KVキャッシュを2bit量子化して長文推論を軽くする技術

ZeROとは？巨大モデル学習のGPUメモリ不足を分散で解決する最適化技術

Reflexionとは？失敗の言語化メモでAIエージェントを改善するVerbal Reinforcement Learning

SimCSEとは？ドロップアウトだけで文埋め込みを強化し、検索・類似度計算を改善する手法

RAFTとは？RAG前提でLLMを学習し、検索ノイズに強くするドメイン適応手法

H2Oとは？KVキャッシュを圧縮して長文LLM推論を高速化するHeavy-Hitter保持手法

Self-Consistencyとは？複数の推論経路から最終回答を安定化するLLM推論手法

Prefix-Tuningとは？仮想トークンで大規模モデルを軽量に適応する仕組みと使い道

DoRAとは？LoRAの精度差を埋める重み分解ファインチューニングの仕組みと使い道

ARESとは？RAGの検索精度・忠実性・回答関連性を自動評価する仕組みと使い道

ColPaliとは？PDFを画像のまま検索できる視覚RAGの仕組みと使い道

Late Chunkingとは？RAGの文脈切れを減らす埋め込み分割の仕組みと使い道

Token Mergingとは？Vision Transformerを高速化するトークン統合の仕組みと使い道

SpecAugmentとは？音声認識の精度を上げるスペクトログラム拡張の仕組みと使い道

ControlNetとは？画像生成を構図や線画で制御できる拡散モデル拡張の仕組みと使い道

Matryoshka Representation Learningとは？1つの埋め込みを用途ごとに縮めて使える多粒度表現学習の仕組みと使い道

BLIP-2とは？少ない学習コストで画像理解をLLMにつなぐQ-Formerの仕組みと使い道

HyDEとは？関連ラベルなしで検索精度を上げる仮想文書ベース検索の仕組みと使い道

CRAGとは？検索ミスに強いRAGを実現する補正型検索拡張生成の仕組みと使い道

LongLLMLinguaとは？長文プロンプトを圧縮してLLMの精度・速度・コストを同時に改善する技術

Mixture-of-Depthsとは？Transformerの計算量を減らしつつ性能を保つ動的トークンルーティングを解説

Prompt Cacheとは？共通プロンプトを再計算せずLLM推論を高速化する仕組みと使い道を解説

BitNetとは？1.58bitでLLMを軽く速くする1-bit事前学習の仕組みと使い道を解説

LongRoPEとは？LLMのコンテキスト長を200万トークン超まで伸ばす仕組みと使い道を解説

DSPyとは？プロンプト頼みのLLM開発を自己改善パイプラインに変える技術を解説

TextGradとは？自然言語のフィードバックでAIシステムを最適化する手法を解説

GraphRAGとは？ナレッジグラフで複雑な全体質問に強いRAGの仕組みと使い道

ReActとは？推論と行動を交互に回してLLMエージェントを安定化する技術

Toolformerとは？LLMが自分でAPIを呼び出す自己教師ありツール利用学習の仕組み

Switch Transformerとは？計算量を増やさずにモデル容量を拡張する疎なMoEの仕組みと使い道

LayerSkipとは？追加モデルなしでLLM推論を高速化する早期退出と自己Speculative Decodingの仕組み

Grouped-Query Attentionとは？KVキャッシュを減らして推論を速くする仕組みと使い道

Speculative Decodingとは？LLM推論を品質そのままで高速化する仕組みと使い道

Mambaとは？線形時間で長文を扱える選択的状態空間モデルの仕組みと使い道

QLoRAとは？4bit量子化で大規模モデルを省メモリにファインチューニングする技術

ColBERTv2とは？RAG検索の精度を保ったままインデックスを軽量化する検索技術

DPOとは？RLHFを単純化して選好学習を直接最適化する仕組みと使い道

PagedAttentionとは？LLMサービングのKVキャッシュ断片化を減らし高スループット化する仕組みと使い道

FlashAttentionとは？長文LLMを高速・省メモリにするIO-aware Attention最適化の仕組みと使い道

LoRAとは？少ない学習パラメータで大規模モデルを適応させる低ランクファインチューニングを解説

Self-RAGとは？必要なときだけ検索し根拠を自己点検するRAG手法を解説

Medusaとは？LLM推論を高速化する複数デコードヘッドの仕組みと使い道

RAPTORとは？長文RAGで要約ツリーを使い検索精度を高める手法を解説