Le RTX 40 le plus rapide pourrait être 5 fois plus puissant que le RTX 3090 Ti

Un peu plus d'une semaine s'est écoulée depuis que nous avons parlé d'un sujet très controversé et totalement spéculatif de notre part, en particulier depuis lundi de la semaine dernière, où nous avons nommé trois hypothèses sur les changements qui NVIDIA pourrait mettre en œuvre dans son organisation et la structuration interne de l'architecture Ada Lovelace et comment cela affecterait le RTX 40. Eh bien, aujourd'hui, une fuite révèle où Huang va aller et surtout, quelles performances le RTX 40 le plus rapide Pourrais avoir.

Trois hypothèses avec le même principe: il y aura des changements dans le SM dans Ada Lovelace comme architecture principale où, comme nous l'avons déjà prévu, cela n'aura pas grand-chose à voir avec ce qui a été vu dans Hopper, confirmant ainsi que NVIDIA a deux totalement différents approches pour les deux architectures et que la prochaine étape est clairement un système de puces MCM.

Le RTX 40 le plus rapide pourrait être 5 fois plus puissant que le RTX 3090 Ti

Les changements internes d'Ada Lovelace pour le RTX 40

Encore une fois un leaker comme Kopite7kimi à l'affût et au sein de la fuite qui vient d'être révélée nous avons l'une des hypothèses que nous avons envisagées la semaine dernière. Concrètement, les améliorations de cette architecture qui donneront vie au RTX 40 portent sur une réorganisation interne du FP32 et INT32 , où le mouvement de NVIDIA est le plus logique et peut-être le moins risqué : combiner tous les Shaders dans un seul moteur qui englobe les entiers et les flottants.

C'est-à-dire qu'il y aurait un groupe de Shaders complets pour FP32 et INT32, ce qui pourrait donner un nombre plus élevé que prévu dans un nombre explosif à détester, mais moins pratique en performances réelles, comme cela s'est produit avec le RTX 30.

Pour comprendre les changements, nous devons aller à Pascal contre Turing en tant que tel, puisque c'est là que le premier changement a eu lieu. NVIDIA a abandonné les performances entières pour promouvoir le FP32 dans chaque SM. Ampère a laissé derrière lui le nombre d'emplois de 16 opérations pour FP32 et 16 opérations pour INT32 que Turing avait pour chaque cycle d'horloge et retour au travail unifié avec 32 opérations par cycle pour les deux. De ce fait, la polémique du "faux" comptage de ceux-ci dans Shaders est née, puisque NVIDIA a doublé le nombre d'opérations, oui, mais pas le nombre de Shaders en tant que tel.

Les performances RTX 40 les plus rapides

La prochaine étape consiste maintenant à unifier les deux moteurs en un seul avec un objectif très clair : améliorer l'efficacité. Il n'y aura pas de FP64 logiquement, mais nous aurons un groupe exclusif de FP32 et INT32 qui est également évolutif, et voici la partie vraiment intéressante.

Bien que le diagramme montre un seul groupe pour ceux-ci, vraiment si nous regardons de près il y en a deux, seulement techniquement ils sont unifiés en un seul pour leur fonctionnalité et non pour leur nombre total. Les informations divulguées aujourd'hui révèlent que ces deux groupes pourraient vraiment être jusqu'à quatre en tant que tels, où étant donné les capacités des unités flottantes et entières à fonctionner en même temps, il est spéculé avec un énorme 100 TFLOPS dans le pire des cas et jusqu'à 200 TFLOPS au mieux.

Pour mettre les choses en contexte, une RTX 3090 Ti obtient actuellement 40 TFLOPS et déjà avec le système de double comptage dont nous avons discuté ci-dessus, ce qui signifie que dans le cas où NVIDIA utiliserait deux groupes de FP32 et INT32 unifiés, le supposé RTX 4090 serait plus de deux fois plus rapide que le haut de gamme actuel de l'entreprise, tandis que dans le cas de l'utilisation de 4 d'entre eux, les performances augmentent jusqu'à 5 fois .

Logiquement, cela impliquerait une puce de taille monstrueuse, peu probable que nous la verrons, mais cela indique que NVIDIA a un atout dans sa manche, peut-être pas pour Ada Lovelace , mais pour ses successeurs.