カテゴリ

LLM・基盤モデルの記事一覧

3件の記事があります。

LLM・基盤モデル

LongRoPEとは?LLMのコンテキスト長を200万トークン超まで伸ばす仕組みと使い道を解説

LongRoPEは、RoPEの位置補間を次元ごと・位置ごとに最適化し、段階的な拡張と短文脈性能の回復を組み合わせて、既存LLMのコンテキスト長を2048kまで伸ばす技術です。長文RAGやAIエージェントにどう効くのかを日本語で解説します。

参照論文:LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens

LLM・基盤モデル

Switch Transformerとは?計算量を増やさずにモデル容量を拡張する疎なMoEの仕組みと使い道

Switch Transformerは、トークンごとに1つの専門家だけを選ぶ疎なMixture of Expertsで、計算量を大きく増やさずにモデル容量を拡張する技術です。top-1ルーティング、負荷分散、学習安定化、実務での応用可能性を整理します。

参照論文:Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

LLM・基盤モデル

Mambaとは?線形時間で長文を扱える選択的状態空間モデルの仕組みと使い道

Mambaは、Transformerの二乗計算コストを避けながら、入力内容に応じて記憶を選別できる選択的状態空間モデルです。Selective SSM、並列スキャン、長文処理への強さ、実務での応用可能性を日本語で整理します。

参照論文:Mamba: Linear-Time Sequence Modeling with Selective State Spaces