L'RTX 40 più veloce potrebbe essere 5 volte più potente dell'RTX 3090 Ti

È passata poco più di una settimana da quando abbiamo parlato di un argomento molto controverso e totalmente speculativo da parte nostra, in particolare da lunedì della scorsa settimana, dove abbiamo citato tre ipotesi sui cambiamenti che NVIDIA potrebbe implementare nella sua organizzazione e strutturazione interna l'architettura Ada Lovelace e come influirebbe sull'RTX 40. Ebbene, oggi un leak rivela dove andranno gli Huang e soprattutto quali prestazioni il più veloce RTX 40 potrebbe avere.

Tre ipotesi con lo stesso principio: ci saranno cambiamenti nella SM in Ada Lovelace come architettura principale dove, come abbiamo già anticipato, avrà poco a che fare con quanto visto in Hopper, confermando così che NVIDIA ha due approcci per entrambe le architetture e che il passaggio successivo è chiaramente quello di un sistema chiplet MCM.

L'RTX 40 più veloce potrebbe essere 5 volte più potente dell'RTX 3090 Ti

Le modifiche interne di Ada Lovelace per l'RTX 40

Ancora una volta un leaker come Kopite7kimi in agguato e all'interno del leak appena svelato abbiamo una delle ipotesi che abbiamo considerato la scorsa settimana. Nello specifico, i miglioramenti di questa architettura che daranno vita all'RTX 40 sono focalizzati su una riorganizzazione interna della FP32 e INT32 , dove il movimento di NVIDIA è il più logico e forse il meno rischioso: combina tutti gli Shader in un unico motore che racchiude interi e float.

Vale a dire, ci sarebbe un gruppo di Shader completi per FP32 e INT32, che potrebbero dare come tale un conteggio più alto del previsto in un numero roboante da odiare, ma meno pratici nelle prestazioni reali, come è successo con l'RTX 30.

Per capire i cambiamenti dobbiamo andare a Pascal vs. Turing in quanto tale, poiché è lì che è avvenuto il primo cambiamento. NVIDIA ha rinunciato alle prestazioni intere per promuovere FP32 in ogni SM. Ampere ha lasciato il conteggio dei lavori 16 operazioni per FP32 e 16 operazioni per INT32 che Turing aveva per ogni ciclo di clock e unificato per tornare al lavoro con 32 operazioni per ciclo per entrambi. A causa di ciò, è sorta la controversia sul conteggio "falso" di questi in Shader, poiché NVIDIA ha raddoppiato il numero di operazioni, sì, ma non il numero di Shader in quanto tali.

Le prestazioni RTX 40 più veloci

Il prossimo passo ora è unificare entrambi i motori in uno con un obiettivo molto chiaro: migliorare l'efficienza. Logicamente non ci sarà FP64, ma avremo un gruppo esclusivo di FP32 e INT32 che è anche scalabile, e qui arriva la parte davvero interessante.

Sebbene il diagramma mostri un unico gruppo per questi, in realtà se guardiamo da vicino ce ne sono due, solo tecnicamente sono unificati come uno per la loro funzionalità e non per il loro numero totale. Le informazioni trapelate oggi rivelano che questi due gruppi potrebbero davvero essere fino a quattro in quanto tali, dove date le capacità delle unità fluttuanti e intere di funzionare contemporaneamente, si ipotizza con un enorme 100 TFLOPS nel peggiore dei casi e fino a 200 TFLOPS al massimo.

Per metterlo in un contesto, attualmente ottiene un RTX 3090 Ti 40 TFLOPS e già con il doppio sistema di conteggio di cui abbiamo discusso sopra, il che significa che nel caso in cui NVIDIA utilizzasse due gruppi di FP32 e INT32 unificati, la presunta RTX 4090 sarebbe più del doppio più veloce dell'attuale top di gamma dell'azienda, mentre nel caso di utilizzo di 4 di essi la performance sale fino a volte 5 .

Logicamente ciò implicherebbe un chip di dimensioni mostruose, improbabile che lo vedremo, ma indica che NVIDIA ha un asso nella manica, forse non per Ada Lovelace , ma per i suoi successori.