タグ
#Prompt Compressionの記事一覧
1件の記事があります。
推論最適化
LongLLMLinguaとは?長文プロンプトを圧縮してLLMの精度・速度・コストを同時に改善する技術
LongLLMLinguaは、質問に関係する情報を残しながら長文プロンプトを段階的に圧縮し、LLMの長文処理を安く速くしつつ精度低下も抑える技術です。RAGや長文QA、要約で効く仕組みと実務での使い道を解説します。
参照論文:LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression