NVIDIA-Nemotron-3-Nano-30B-A3B Quantized Models - a inference-optimization Collection

inference-optimization 's Collections

NVIDIA-Nemotron-3-Nano-30B-A3B Quantized Models

Qwen3-Next-80B-A3B Quantized Models

Mixed Precision Models

KV Cache Quantization

NVIDIA-Nemotron-3-Nano-30B-A3B Quantized Models

updated 10 days ago

FP8-dynamic, FP8-block, NVFP4, INT4, versions of nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B