Depuis le début de l’année 2025, l’industrie de l’intelligence artificielle observe DeepSeek avec une attention particulière. Le laboratoire chinois avait frappé fort en janvier avec R1, un modèle de raisonnement entraîné avec des moyens limités qui avait surpassé des modèles bien plus coûteux à produire. Depuis, l’équipe avait gardé un profil bas. Le 24 avril 2026, V4 est arrivé.
Ce n’est pas un nouveau coup de tonnerre comme R1. Mais c’est une version qui mérite qu’on s’y attarde, pour trois raisons concrètes.
Un modèle open source qui tient tête aux meilleurs modèles propriétaires
DeepSeek V4 se décline en deux versions. V4-Pro est taillé pour le code et les tâches complexes en mode agent. V4-Flash est plus petit, plus rapide, et beaucoup moins cher à faire tourner. Les deux sont disponibles via l’interface DeepSeek et son API.
Sur le plan tarifaire, V4-Pro est proposé à 1,74 dollar par million de tokens en entrée et 3,48 dollars par million en sortie. V4-Flash descend à 0,14 dollar en entrée et 0,28 dollar en sortie, ce qui en fait l’un des modèles haut de gamme les plus accessibles du marché pour les développeurs qui veulent construire des applications.
Selon les benchmarks publiés par DeepSeek, V4-Pro se place au niveau de Claude Opus 4.6 d’Anthropic, GPT-5.4 d’OpenAI et Gemini 3.1 de Google. Face aux autres modèles open source comme Qwen-3.5 d’Alibaba ou GLM-5.1 de Z.ai, V4 les devance sur le code, les maths et les problèmes scientifiques.
Un sondage interne mené auprès de 85 développeurs expérimentés indique que plus de 90 % d’entre eux placent V4-Pro dans leurs choix prioritaires pour les tâches de développement. DeepSeek précise également que le modèle a été optimisé pour des environnements comme Claude Code, OpenClaw ou CodeBuddy.
Lire aussi : 10 prompts ChatGPT pour créer de belles images
Une fenêtre de contexte d’un million de tokens, et une architecture repensée pour y arriver
Les deux versions de V4 supportent une fenêtre de contexte d’un million de tokens. Pour donner un ordre de grandeur, cela correspond à l’ensemble du Seigneur des Anneaux et du Hobbit réunis. Ce niveau est aujourd’hui proposé par des modèles comme Gemini ou Claude, mais le voir accessible dans un modèle open source est notable.
Ce qui est plus intéressant encore, c’est la façon dont DeepSeek y est parvenu. L’architecture du modèle a été modifiée en profondeur au niveau du mécanisme d’attention, qui est la partie du modèle chargée de comprendre les relations entre les différentes parties d’un texte. Plus le texte est long, plus cette opération est coûteuse en calcul.
DeepSeek a rendu le modèle sélectif : au lieu de traiter tous les passages antérieurs d’un texte avec la même intensité, V4 compresse les informations anciennes et concentre ses ressources sur ce qui est le plus pertinent dans le contexte immédiat, tout en conservant les passages proches en intégralité.
Le résultat est concret. Sur un contexte d’un million de tokens, V4-Pro n’utilise que 27 % de la puissance de calcul de son prédécesseur V3.2, pour 10 % de la mémoire. V4-Flash fait encore mieux avec 10 % de la puissance et 7 % de la mémoire. Pour des usages comme un assistant de code qui lit une base entière, ou un agent de recherche qui parcourt de longs corpus, cela change vraiment les coûts d’exploitation.
Un premier pas vers les puces chinoises, mais sans rupture totale avec Nvidia
C’est peut-être l’aspect le plus stratégique de ce lancement. V4 est le premier modèle de DeepSeek optimisé pour des puces domestiques chinoises, notamment les Ascend de Huawei. Le groupe Huawei a confirmé que ses produits Ascend 950 supporteront V4, ce qui permettra à ceux qui veulent faire tourner leur propre version du modèle d’utiliser ces puces sans friction technique supplémentaire.
Ce mouvement s’inscrit dans un contexte précis. Depuis 2022, les contrôles à l’exportation américains ont coupé les entreprises chinoises d’accès aux puces Nvidia les plus puissantes. Pékin pousse depuis à construire une infrastructure IA nationale, des puces aux centres de données. Des sources rapportent que des responsables gouvernementaux chinois auraient incité DeepSeek à intégrer des puces Huawei dans son processus de développement.
Mais remplacer Nvidia n’est pas une question de simple substitution. L’avantage de Nvidia ne repose pas uniquement sur ses puces, mais sur l’écosystème logiciel que les développeurs ont construit autour d’elles depuis des années. Passer aux puces Ascend demande d’adapter le code des modèles, de reconstruire des outils, et de prouver la stabilité des systèmes en conditions réelles.
D’après le rapport technique publié par DeepSeek, les puces chinoises sont utilisées pour l’inférence, c’est-à-dire quand un utilisateur soumet une requête au modèle. En revanche, Liu Zhiyuan, professeur en informatique à l’université Tsinghua, estime que l’entraînement de V4 repose encore en partie sur des puces Nvidia. Les puces chinoises restent mieux adaptées à l’inférence qu’à l’entraînement pour l’instant.
DeepSeek indique que les prix de V4-Pro pourraient baisser de façon significative dans la seconde moitié de 2026, lorsque les supernœuds Ascend 950 de Huawei seront produits à grande échelle. Si cela se confirme, ce lancement pourrait marquer les prémices d’une infrastructure IA parallèle qui échappe progressivement à la dépendance envers les technologies américaines.
Source : https://www.technologyreview.com/2026/04/24/1136422/why-deepseeks-v4-matters/

