タグ

#Vision Transformerの記事一覧

1件の記事があります。

推論最適化

Token Mergingとは?Vision Transformerを高速化するトークン統合の仕組みと使い道

Token Merging(ToMe)は、Vision Transformerの似たトークンを段階的に統合し、再学習なしでも推論を大きく高速化できる手法です。なぜトークン削減が効くのか、どのように精度低下を抑えるのか、画像・動画・音声や生成AIへどう応用できるのかを解説します。

参照論文:Token Merging: Your ViT But Faster