Retour au blog
Technique 9 min

Quantification et distillation : une IA plus petite, plus rapide, moins chère

Faut-il vraiment un modèle de 175 milliards de paramètres pour classer un e-mail ou extraire une date d'une facture ? En 2026, la réponse est non. Trois familles de techniques (quantification, distillation, élagage) réduisent la taille d'un modèle de langage par 4 à 10, divisent son coût d'inférence d'autant, et le font tourner sur un serveur ordinaire, un PC, parfois un téléphone. C'est le passage de l'IA de démonstration à l'IA de production, celle qui doit tenir un budget et une latence.

Article généré par l'IA. Contenu rédigé avec l'assistance d'un modèle d'intelligence artificielle, puis relu par un humain avant publication. Les chiffres cités renvoient à leurs sources, listées en fin d'article.

La compression de modèles en chiffres

−75 %
Mémoire en moins avec la quantification 4 bits (perte < 1 %)
97 %
Des performances de BERT conservées (modèle 40 % plus petit)
10 à 30×
Moins cher de servir un petit modèle qu'un grand LLM (NVIDIA)

Pourquoi compresser

Un grand modèle généraliste impressionne en démonstration, mais en production il coûte cher : GPU rares, mémoire élevée, latence, facture d'API qui grimpe avec le volume. La plupart des tâches d'entreprise (classer, extraire, résumer, router, répondre à partir d'une base documentaire) ne mobilisent qu'une fraction de cette puissance. L'enjeu n'est pas d'avoir le plus gros modèle, mais le plus petit modèle qui fait le travail.

Trois leviers principaux réduisent la taille et le coût sans repartir de zéro : la quantification (réduire la précision des nombres), la distillation (transférer le savoir d'un grand modèle vers un petit) et l'élagage (supprimer ce qui ne sert pas). On peut les combiner sur un même modèle.

Le gain concret

La quantification est le levier le plus rapide. Passer un modèle de 16 bits (FP16) à 4 bits (INT4) divise son empreinte mémoire par quatre, soit 75 % de mémoire en moins, avec une perte de précision souvent inférieure à 1 % quand on utilise des méthodes comme GPTQ ou AWQ. Un modèle de 7 milliards de paramètres passe ainsi d'environ 14 Go à moins de 5 Go, et tient sur une carte grand public.

Les techniques, expliquées

Quatre approches dominent, plus une astuce d'inférence. La plupart sont disponibles en outils ouverts, ce qui les met à portée d'une équipe modeste.

Quantification

Réduire la précision des poids : de 32 ou 16 bits vers 8, 4, voire moins. INT4 divise la mémoire par 4. La perte reste faible avec GPTQ et AWQ.

75 % de mémoire en moins

Distillation

Un grand modèle (le professeur) entraîne un petit modèle (l'élève) à reproduire ses réponses. DistilBERT : 40 % plus petit, 60 % plus rapide.

97 % de perf conservée

Élagage (pruning)

Supprimer les poids, neurones ou têtes d'attention qui contribuent peu. Le modèle maigrit sans réentraînement lourd.

réseau allégé

Petits modèles dédiés (SLM)

Des modèles conçus petits dès l'origine (Phi, Gemma, Llama 3.2 1B/3B), souvent meilleurs qu'un grand modèle sur une tâche ciblée.

1 à 8 Md params

Décodage spéculatif

Un petit modèle propose, un grand modèle vérifie. On accélère la génération sans changer la qualité finale.

génération accélérée

Quantification : le levier le plus immédiat

La quantification réduit le nombre de bits utilisés pour stocker chaque poids du modèle. Un poids en virgule flottante 16 bits devient un entier 8 ou 4 bits. La mémoire chute proportionnellement : INT8 divise par deux, INT4 par quatre. Moins de mémoire signifie moins de GPU, des modèles qui tiennent sur du matériel modeste, et une inférence plus rapide.

La question évidente est la perte de qualité. Deux méthodes la rendent négligeable. GPTQ (Frantar et al., ICLR 2023) quantifie couche par couche en minimisant l'erreur, au point de faire tourner un modèle de 175 milliards de paramètres en 3 bits sur un seul GPU. AWQ (Lin et al., MLSys 2024, prix du meilleur article) part d'une observation : environ 1 % des poids portent l'essentiel de la performance. En les protégeant, la quantification 4 bits devient quasi sans perte.

Distillation : transmettre le savoir-faire

La distillation entraîne un petit modèle (l'élève) à imiter un grand modèle (le professeur), non pas sur des étiquettes brutes mais sur les distributions de probabilité du professeur, plus riches en information. Le cas fondateur, DistilBERT (Hugging Face, 2019), conserve 97 % des capacités de compréhension de BERT avec 40 % de paramètres en moins (66 millions contre 110) et une inférence 60 % plus rapide.

La technique a franchi un cap en 2025 avec DeepSeek-R1. Ses auteurs ont distillé les capacités de raisonnement du grand modèle vers des modèles Qwen et Llama de 1,5 à 70 milliards de paramètres, à partir d'environ 800 000 trajectoires de raisonnement vérifiées. Résultat : la version distillée à 32 milliards rivalise avec des modèles de production bien plus lourds sur des bancs d'essai de mathématiques et de code.

À garder en tête

Compresser n'est pas gratuit. Une quantification trop agressive dégrade les tâches de raisonnement complexe et de mathématiques plus vite que la classification ou le résumé. Un modèle distillé hérite des limites et des biais de son professeur. La règle : choisir le niveau de compression en fonction de la tâche, et mesurer la qualité sur vos propres données avant la mise en production.

Ce que ça change pour l'entreprise

L'argument économique est direct. Selon NVIDIA, servir un petit modèle de 7 milliards de paramètres coûte 10 à 30 fois moins cher qu'un modèle de 70 à 175 milliards, demande moins de GPU et se spécialise en quelques heures plutôt qu'en semaines. Pour un volume d'appels élevé (un agent qui traite des milliers de requêtes par jour), l'écart de facture devient décisif.

Moins de matériel

Un modèle 4 bits tient sur une carte grand public ou un serveur modeste. Plus besoin de réserver des GPU rares et coûteux pour des tâches simples.

Une facture maîtrisée

10 à 30 fois moins cher à servir, c'est la différence entre un pilote qui reste un pilote et un système déployé à l'échelle.

Le marché suit cette bascule. Évalué à 7,76 milliards de dollars en 2023, le marché des petits modèles de langage devrait atteindre 20,7 milliards en 2030, soit une croissance annuelle de 15,1 % (Grand View Research).

Cas d'usage

Extraction documentaire

Lire des factures, contrats, formulaires : un petit modèle quantifié suffit, et tourne sur site sans envoyer les données dehors.

sur site

Service client

Classer, router et répondre aux demandes courantes à fort volume, sans facture d'API qui explose avec le trafic.

fort volume

IA embarquée

Modèles compressés sur PC, passerelle industrielle ou téléphone, sans connexion permanente au cloud.

hors ligne

Agents spécialisés

Un agent qui appelle des outils n'a pas besoin d'un modèle géant : un SLM rapide fait l'essentiel du travail.

10 à 30× moins cher

Belgique & Europe : souveraineté et coût

Pour une PME ou un industriel belge, la compression de modèles touche deux nerfs. D'abord le coût : un modèle quantifié tourne sur du matériel abordable, ce qui rend l'IA accessible sans budget cloud illimité. Ensuite la souveraineté : un petit modèle déployé sur site traite les données en interne, sans les envoyer hors de l'Union européenne, dans la logique de minimisation des données du RGPD.

La gouvernance reste de mise. Un modèle compressé qui alimente des décisions doit être documenté et suivi : sous l'EU AI Act, conservez la trace des données, surveillez la dérive et gardez un humain dans la boucle sur les arbitrages sensibles. Un modèle plus petit, mieux maîtrisé et hébergé chez vous est souvent plus simple à gouverner qu'un grand modèle distant.

Souveraineté des données

Un modèle léger tourne sur site : les données restent en interne et ne quittent pas l'UE.

Accessibilité financière

La compression met l'IA à portée des budgets PME, sans dépendre d'une facture cloud variable.

Par où commencer

1

Partir de la tâche, pas du modèle

Définir précisément le travail à faire (classer, extraire, résumer). La plupart des tâches n'exigent pas un modèle géant.

2

Tester un petit modèle quantifié

Comparer un SLM en 4 bits (Llama 3.2, Phi, Gemma) à votre solution actuelle, sur vos propres données.

3

Mesurer qualité, coût et latence

Quantifier la précision sur la tâche, le coût par requête et le temps de réponse, puis décider du bon compromis.

4

Déployer avec gouvernance

Mise en production sur site ou cloud souverain, avec suivi de la dérive et validation humaine sur les cas sensibles.

Sources

  1. Sanh et al. (Hugging Face), DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter (40 % plus petit, 60 % plus rapide, 97 % des performances conservées). arxiv.org/abs/1910.01108
  2. Frantar et al., GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers (ICLR 2023 ; 175 Md de paramètres en 3 bits sur un seul GPU). arxiv.org/abs/2210.17323
  3. Lin et al. (MIT), AWQ: Activation-aware Weight Quantization (MLSys 2024, prix du meilleur article ; ~1 % de poids critiques, 4 bits quasi sans perte). arxiv.org/abs/2306.00978
  4. Belcak et al. (NVIDIA Research), Small Language Models are the Future of Agentic AI (un SLM de 7 Md est 10 à 30× moins cher à servir qu'un modèle de 70 à 175 Md). arxiv.org/abs/2506.02153
  5. DeepSeek-AI, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs (distillation vers Qwen et Llama de 1,5 à 70 Md, ~800 000 trajectoires de raisonnement). arxiv.org/abs/2501.12948
  6. Grand View Research, Small Language Model Market Report (7,76 Md$ en 2023, 20,7 Md$ en 2030, CAGR 15,1 %). grandviewresearch.com

Quel est le plus petit modèle qui ferait votre travail ?

Molderez Consult aide les entreprises belges à choisir, compresser et déployer des modèles d'IA efficaces, sur site et à coût maîtrisé.

Parler de mon cas d'usage