Tagged "kv-cache-optimization"

Elastic KV Cache Memory Breakthrough Enables Efficient Bursty LLM Serving and GPU Sharing 26 April 2026
Gemma 4 Support Stabilized in Llama.cpp 9 April 2026
Gemma 4 GGUF Models Updated with Critical Quantization Fixes 9 April 2026
TurboQuant in Llama.cpp Achieves 6X Smaller KV Cache 6 April 2026
Gemma 4 KV Cache Memory Issues Fixed in llama.cpp 4 April 2026
VRAM Optimization Technique Cuts Gemma 4 Memory Usage by 3x 3 April 2026
TurboQuant KV Cache Compression Achieves 22.8% Faster Decoding at 32K Context 28 March 2026
LMCache Dramatically Accelerates LLM Inference on Oracle Data Science Platform 20 March 2026
3-Path Agent Memory: 8 KB Recurrent State vs. 156 MB KV Cache at 10K Tokens 14 March 2026