KV Cache Quantization - a inference-optimization Collection

inference-optimization 's Collections

NVIDIA-Nemotron-3-Nano-30B-A3B Quantized Models

Qwen3-Next-80B-A3B Quantized Models

Mixed Precision Models

KV Cache Quantization

KV Cache Quantization

updated 29 days ago

Collection on FP8 Quantization of Weights, Activations and KV Cache

inference-optimization/Llama-3.1-8B-Instruct-QKV-Cache-FP8-Per-Head

8B • Updated 22 days ago • 62
inference-optimization/Llama-3.1-8B-Instruct-QKV-Cache-FP8-Per-Tensor

8B • Updated 28 days ago • 28
inference-optimization/Llama-3.1-8B-Instruct-FP8-dynamic-QKV-Cache-FP8-Per-Head

8B • Updated 21 days ago • 33
inference-optimization/Llama-3.1-8B-Instruct-FP8-dynamic-QKV-Cache-FP8-Per-Tensor

8B • Updated 28 days ago • 18
inference-optimization/Llama-3.3-70B-Instruct-QKV-Cache-FP8-Per-Head

71B • Updated 28 days ago • 8
inference-optimization/Llama-3.3-70B-Instruct-QKV-Cache-FP8-Per-Tensor

71B • Updated 28 days ago • 8
inference-optimization/Llama-3.3-70B-Instruct-FP8-dynamic-QKV-Cache-FP8-Per-Head

71B • Updated 28 days ago • 10
inference-optimization/Llama-3.3-70B-Instruct-FP8-dynamic-QKV-Cache-FP8-Per-Tensor

71B • Updated 28 days ago • 12
inference-optimization/Qwen3-32B-QKV-Cache-FP8-Per-Head

33B • Updated 28 days ago • 9
inference-optimization/Qwen3-32B-QKV-Cache-FP8-Per-Tensor

33B • Updated 28 days ago • 11
inference-optimization/Qwen3-32B-FP8-dynamic-QKV-Cache-FP8-Per-Head

33B • Updated 28 days ago • 6
inference-optimization/Qwen3-32B-FP8-dynamic-QKV-Cache-FP8-Per-Tensor

33B • Updated 28 days ago • 11