タグ

#推論高速化の記事一覧

2件の記事があります。

Token Mergingとは？Vision Transformerを高速化するトークン統合の仕組みと使い道

Token Merging（ToMe）は、Vision Transformerの似たトークンを段階的に統合し、再学習なしでも推論を大きく高速化できる手法です。なぜトークン削減が効くのか、どのように精度低下を抑えるのか、画像・動画・音声や生成AIへどう応用できるのかを解説します。

参照論文：Token Merging: Your ViT But Faster

Speculative Decodingは、小さなドラフトモデルで先読みした候補を大きな本命モデルがまとめて検証し、出力分布を変えずにLLM推論を高速化する技術です。仕組み、評価結果、実務での使い道まで日本語で整理します。

参照論文：Fast Inference from Transformers via Speculative Decoding