En fin de semaine dernière, alors que tout le monde avait les yeux rivés sur DeepSeek et son modèle R1, Mistral AI, licorne française de la GenAI, a lancé plus discrètement Mistral Small 3. Publié sous la licence Apache 2.0, ce modèle de 24 milliards de paramètres optimisé pour la latence est "une excellente alternative open source aux modèles propriétaires opaques comme GPT4o-mini" selon elle.

Avec Small 3, la licorne, démontre une fois de plus que pour être performant, un LLM ne requiert pas un nombre astronomique de paramètres. Le modèle se positionne comme une réponse aux besoins croissants d'efficacité en offrant un taux de traitement de 150 tokens par seconde, tout en affichant une précision de plus de 81 % sur le benchmark MMLU.

Cette prouesse technique est rendue possible grâce à une architecture optimisée qui réduit le nombre de couches traditionnelles, diminuant ainsi le temps de passage avant (forward pass time, ou temps nécessaire à un modèle de réseau de neurones pour traiter une entrée et produise une sortie) sans compromettre la qualité des réponses.

Ce choix architectural, qui en fait "actuellement le modèle le plus efficace de sa catégorie", permet à la version optimisée, Mistral Small 3 Instruct, de rivaliser avec des modèles bien plus imposants comme Llama 3.3 70B ou Qwen 32B, tout en garantissant une exécution rapide et efficace sur du matériel standard.

Des applications pour divers secteurs

Le Mistral Small 3 ne se contente pas d’afficher des performances techniques remarquables : il s’inscrit également dans une logique d’adaptabilité aux besoins concrets des entreprises. Parmi les cas d’usage envisagés, plusieurs domaines se démarquent :
  • Assistance conversationnelle et appels de fonction : la faible latence garantit des interactions en temps réel, essentielles pour les chatbots ou assistants virtuels ;
  • Fine-tuning pour des expertises spécifiques : sa taille modeste facilite l’ajustement fin pour des domaines précis, comme le diagnostic médical ou le conseil juridique ;
  • Inférence locale : la possibilité de déployer le modèle sur du matériel accessible favorise l’usage dans des secteurs où les données sensibles nécessitent un traitement en local.
Comme les "Ministraux", Small 3 répond également aux besoins croissants de calcul local et de protection de la vie privée : la possibilité de le déployer sur des configurations matérielles accessibles, comme une RTX 4090 ou un MacBook avec 32 Go de RAM, offre aux organisations le contrôle sur leurs données sensibles sans dépendance à une infrastructure cloud centralisée.

Une stratégie de diffusion ouverte et collaborative

Selon Mistral AI, faisant référence aux derniers modèles de DeepSeek, et au projet Open-R1,"Ce furent des jours passionnants pour la communauté open source ! Mistral Small 3 complète les grands modèles de raisonnement open source comme les récentes versions de DeepSeek, et peut servir de modèle de base solide pour faire émerger des capacités de raisonnement".

L'entreprise a fait le choix de le publier sous la licence Apache 2.0, faisant le choix d'abandonner peu à peu sa licence plus restrictive MRL pour les modèles à usage général. Elle annonce d'ores et déjà "des modèles Mistral petits et grands avec des capacités de raisonnement améliorées dans les semaines à venir".

Actuellement disponible sur les plateformes Hugging Face, Ollama, Kaggle, Together AI et Fireworks AI, Mistral Small 3 le sera également bientôt sur NVIDIA NIM, Amazon SageMaker, Groq, Databricks et Snowflake.