↓ Skip to main content

wiredwisdom

Deep dives in AI, embedded systems, and hardware architecture

Recent

Pruning for Large Language Models — From SparseGPT to KV-Cache Pruning

31 March 2026

AI Accelerator Pruning LLM SparseGPT Wanda Model Compression Sparsity KV-Cache Transformer Inference Optimization Structured Pruning Unstructured Pruning 2:4 Sparsity SliceGPT Attention Head Pruning Dynamic Sparsity

Advanced Pruning Methods for Deep Neural Networks

31 March 2026

AI Accelerator Pruning Deep-Learning Model Compression Sparsity Movement Pruning SNIP GraSP SynFlow Lottery Ticket Knowledge Distillation Gradient Pruning Structured Pruning Neural Architecture Inference Optimization Edge Deployment

Structured vs Unstructured Pruning: A Complete Guide with Math, Diagrams, and Real-World Analysis

31 March 2026

AI Accelerator Pruning Model Compression Structured Pruning Unstructured Pruning N:M Sparsity Sparse Inference NVIDIA Ampere Filter Pruning Channel Pruning Neural Architecture Efficiency

Pruning Fundamentals: A Complete Guide to Neural Network Weight Pruning

31 March 2026

AI Accelerator Pruning Model Compression Sparsity Lottery Ticket Hypothesis Optimal Brain Damage Optimal Brain Surgeon Deep-Learning Efficiency Sparse Training

Extreme and Mixed-Precision Quantization: From FP8 to Binary Neural Networks

31 March 2026

AI Accelerator Quantization FP8 INT4 Binary Neural Networks BitNet QuIP AQLM HQQ Mixed Precision LLM Optimization Model Compression GGUF KV-Cache Vision Transformer Diffusion Models Inference Optimization

Quantization-Aware Training (QAT): A Comprehensive Deep Dive

31 March 2026

AI Accelerator Quantization QAT Model Compression STE LSQ PACT Binary Networks QLoRA Mixed Precision TensorRT Edge AI Inference Optimization

Post-Training Quantization (PTQ): A Comprehensive Deep Dive

31 March 2026

AI Accelerator Quantization PTQ Model Compression Inference Optimization TensorRT GPTQ SmoothQuant AWQ LLM Edge Deployment

Quantization Fundamentals for Deep Learning

31 March 2026

AI Accelerator Quantization Deep-Learning Model Compression Inference Optimization INT8 FP8 Edge Deployment Tensor Cores Calibration Number Representation

GPU Architecture: The Engine Behind Parallel Computing

20 March 2026

Computer Science GPU Architecture CUDA SIMT Parallel Computing Tensor Core

Modern CPU Microarchitecture Deep Dive

20 March 2026

Computer Science CPU Microarchitecture Out-of-Order Branch Prediction Cache SMT