Depuis quelques années, les États-Unis dominent le monde de l’intelligence artificielle grâce à des géants comme OpenAI, Google, Microsoft et Meta. Mais en 2024, un vent de changement a commencé à souffler de l’Est avec l’émergence de DeepSeek, un modèle d’IA chinois prometteur, qui était presque inconnu jusqu’au début de l’année 2025 en Occident et qui pourrait bien bouleverser l’ordre établi.
Qu’est-ce que le DeepSeek R1 et d’où vient-il ?
Apparu pour la première fois en 2023 grâce à une petite entreprise chinoise, DeepSeek n’était initialement pas très connu. Mais tout a changé lorsqu’ils ont développé un modèle linguistique avancé appelé DeepSeek R1, qui se pose en concurrent direct de ChatGPT d’OpenAI. Voici ses principales caractéristiques qui commencent vraiment à secouer le modèle économique de certaines IA du marché :
- Coût et efficacité : Le coût de formation du modèle est d’environ 5,6 millions de dollars, contre plus de 100 millions de dollars pour ChatGPT. Cela montre que DeepSeek a réussi à créer un modèle compétitif avec un budget beaucoup plus réduit, un exploit énorme qui se trouve derrière le succès qu’il connaît aujourd’hui.
- Méthodologie et technologies : DeepSeek utilise des techniques avancées qui méritent un petit coup de projecteur. D’abord, il y a l’optimisation fine (ou fine-tuning) avec une précision FP8. En gros, cela consiste à ajuster les paramètres d’un modèle d’intelligence artificielle après son entraînement initial, pour qu’il soit encore plus performant sur des tâches spécifiques, tout en utilisant moins de mémoire et de puissance de traitement. Ensuite, on a l’architecture Mixture-of-Experts (MoE), ou « Mélange d’experts » en bon français. Cette technique permet de réduire les ressources nécessaires à la formation tout en maintenant une haute efficacité. Imaginez que vous ayez plusieurs petits modèles spécialisés dans des tâches différentes. Lorsque le modèle principal doit accomplir une tâche, il active seulement les petits modèles spécialisés dont il a besoin, économisant ainsi des ressources.
- Performance et capacités : Malgré un coût réduit, DeepSeek R1 montre des performances égales, voire supérieures à ChatGPT dans certains domaines, notamment la programmation et les mathématiques. Le coût réduit n’affecte donc pas la qualité du modèle.
- Portée et impact : L’application a fait une entrée fracassante sur le marché, grimpant rapidement en tête des applications les plus téléchargées sur l’Apple Store aux États-Unis, surpassant même ChatGPT. Cette adoption éclair montre que le nouveau modèle a été très bien accueilli et qu’il est clairement capable de rivaliser à l’échelle mondiale.
DeepSeek R3 : La saison 2
Après le succès fulgurant de la version R1, DeepSeek a décidé de passer à la vitesse supérieure avec la version R3. Ce modèle d’IA promet de changer encore plus la donne grâce à ses innovations incroyables.
DeepSeek R3, c’est un peu comme R1, mais en encore plus impressionnant. Ce nouveau modèle utilise toujours l’architecture Mixture-of-Experts (MoE), mais avec des améliorations importantes. Par exemple, DeepSeek R3 dispose de 671 milliards de paramètres, mais seulement 37 milliards sont activés à chaque utilisation, ce qui permet de garder une grande capacité de traitement tout en restant efficace.
En termes de coûts, l’entraînement de DeepSeek R3 a été réalisé pour environ 5,6 millions de dollars, ce qui est une fraction du coût de modèles similaires comme GPT-4. Pour donner une idée, entraîner GPT-4 coûte plusieurs centaines de millions de dollars ! DeepSeek R3 montre donc qu’on peut avoir une IA puissante sans exploser le budget.
Côté performance, DeepSeek R3 excelle particulièrement en mathématiques et en programmation. Sur le test MATH-500, il obtient un score de 90,2 %, bien au-dessus des 74,6 % de GPT-4o et des 78,3 % de Claude 3.5. En programmation, il domine avec un score de 51,6 % sur Codeforces, contre 23,6 % pour GPT-4o et 20,3 % pour Claude 3.5.
Ces chiffres et benchmarks, source de notre article, ont été publiés sur le site de DeepSeek.
Cependant, DeepSeek R3 a encore des marges de progression. Il est un peu moins performant sur les tests de connaissances factuelles comme SimpleQA. Mais c’est parce que l’équipe derrière DeepSeek a choisi de se concentrer sur le raisonnement et la résolution de problèmes plutôt que sur l’accumulation de faits encyclopédiques.
En résumé, DeepSeek R3 est une avancée majeure dans le domaine de l’intelligence artificielle. Ses performances et son coût réduit le rendent vraiment compétitif, et il pourrait bien redéfinir les standards de l’IA.