カテゴリ

LLM・基盤モデルの記事一覧

2件の記事があります。

LLM・基盤モデル

Switch Transformerとは?計算量を増やさずにモデル容量を拡張する疎なMoEの仕組みと使い道

Switch Transformerは、トークンごとに1つの専門家だけを選ぶ疎なMixture of Expertsで、計算量を大きく増やさずにモデル容量を拡張する技術です。top-1ルーティング、負荷分散、学習安定化、実務での応用可能性を整理します。

参照論文:Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

LLM・基盤モデル

Mambaとは?線形時間で長文を扱える選択的状態空間モデルの仕組みと使い道

Mambaは、Transformerの二乗計算コストを避けながら、入力内容に応じて記憶を選別できる選択的状態空間モデルです。Selective SSM、並列スキャン、長文処理への強さ、実務での応用可能性を日本語で整理します。

参照論文:Mamba: Linear-Time Sequence Modeling with Selective State Spaces