Depuis quelques années, les États-Unis dominent le monde de l’intelligence artificielle grâce à des géants comme OpenAI, Google, Microsoft et Meta. Mais en 2024, un vent de changement a commencé à souffler de l’Est avec l’émergence de DeepSeek, un modèle d’IA chinois prometteur, qui était presque inconnu jusqu’au début de l’année 2025 en Occident et qui pourrait bien bouleverser l’ordre établi.
Apparu pour la première fois en 2023 grâce à une petite entreprise chinoise, DeepSeek n’était initialement pas très connu. Mais tout a changé lorsqu’ils ont développé un modèle linguistique avancé appelé DeepSeek R1, qui se pose en concurrent direct de ChatGPT d’OpenAI. Voici ses principales caractéristiques qui commencent vraiment à secouer le modèle économique de certaines IA du marché :
Après le succès fulgurant de la version R1, DeepSeek a décidé de passer à la vitesse supérieure avec la version R3. Ce modèle d’IA promet de changer encore plus la donne grâce à ses innovations incroyables.
DeepSeek R3, c’est un peu comme R1, mais en encore plus impressionnant. Ce nouveau modèle utilise toujours l’architecture Mixture-of-Experts (MoE), mais avec des améliorations importantes. Par exemple, DeepSeek R3 dispose de 671 milliards de paramètres, mais seulement 37 milliards sont activés à chaque utilisation, ce qui permet de garder une grande capacité de traitement tout en restant efficace.
En termes de coûts, l’entraînement de DeepSeek R3 a été réalisé pour environ 5,6 millions de dollars, ce qui est une fraction du coût de modèles similaires comme GPT-4. Pour donner une idée, entraîner GPT-4 coûte plusieurs centaines de millions de dollars ! DeepSeek R3 montre donc qu’on peut avoir une IA puissante sans exploser le budget.
Côté performance, DeepSeek R3 excelle particulièrement en mathématiques et en programmation. Sur le test MATH-500, il obtient un score de 90,2 %, bien au-dessus des 74,6 % de GPT-4o et des 78,3 % de Claude 3.5. En programmation, il domine avec un score de 51,6 % sur Codeforces, contre 23,6 % pour GPT-4o et 20,3 % pour Claude 3.5.
Ces chiffres et benchmarks, source de notre article, ont été publiés sur le site de DeepSeek.
Cependant, DeepSeek R3 a encore des marges de progression. Il est un peu moins performant sur les tests de connaissances factuelles comme SimpleQA. Mais c’est parce que l’équipe derrière DeepSeek a choisi de se concentrer sur le raisonnement et la résolution de problèmes plutôt que sur l’accumulation de faits encyclopédiques.
En résumé, DeepSeek R3 est une avancée majeure dans le domaine de l’intelligence artificielle. Ses performances et son coût réduit le rendent vraiment compétitif, et il pourrait bien redéfinir les standards de l’IA.
Cet article a été modifié pour la dernière fois le 31 janvier 2025 13h38