↓ Skip to main content

Quantization

Extreme and Mixed-Precision Quantization: From FP8 to Binary Neural Networks

31 March 2026

AI Accelerator Quantization FP8 INT4 Binary Neural Networks BitNet QuIP AQLM HQQ Mixed Precision LLM Optimization Model Compression GGUF KV-Cache Vision Transformer Diffusion Models Inference Optimization

Quantization-Aware Training (QAT): A Comprehensive Deep Dive

31 March 2026

AI Accelerator Quantization QAT Model Compression STE LSQ PACT Binary Networks QLoRA Mixed Precision TensorRT Edge AI Inference Optimization

Post-Training Quantization (PTQ): A Comprehensive Deep Dive

31 March 2026

AI Accelerator Quantization PTQ Model Compression Inference Optimization TensorRT GPTQ SmoothQuant AWQ LLM Edge Deployment

Quantization Fundamentals for Deep Learning

31 March 2026

AI Accelerator Quantization Deep-Learning Model Compression Inference Optimization INT8 FP8 Edge Deployment Tensor Cores Calibration Number Representation

Day 19 — YOLOv5 Object Detection, Transfer Learning, and Quantization

5 March 2026

Autonomous Driving YOLOv5 Object Detection Transfer Learning Quantization Edge AI

AI Model Optimization Techniques

6 January 2024

AI Accelerator Pruning Quantization Distillation