タグ

#Sparse Modelの記事一覧

1件の記事があります。

Switch Transformerとは？計算量を増やさずにモデル容量を拡張する疎なMoEの仕組みと使い道

Switch Transformerは、トークンごとに1つの専門家だけを選ぶ疎なMixture of Expertsで、計算量を大きく増やさずにモデル容量を拡張する技術です。top-1ルーティング、負荷分散、学習安定化、実務での応用可能性を整理します。

参照論文：Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity