Cel mai rapid RTX 40 ar putea fi de 5 ori mai puternic decât RTX 3090 Ti

A trecut puțin peste o săptămână de când am vorbit despre un subiect foarte controversat și total speculativ din partea noastră, mai exact de luni a săptămânii trecute, unde am denumit trei ipoteze despre schimbările care NVIDIA ar putea implementa în organizarea și structurarea internă a arhitecturii Ada Lovelace și modul în care ar afecta RTX 40. Ei bine, astăzi o scurgere dezvăluie unde vor ajunge Huang și, mai ales, ce performanță cel mai rapid RTX 40 ar putea avea.

Trei ipoteze cu același principiu: vor exista modificări în SM-ul în Ada Lovelace ca arhitectură principală unde, așa cum am anticipat deja, va avea puțin de-a face cu ceea ce s-a văzut în Hopper, confirmând astfel că NVIDIA are două total diferite. abordări pentru ambele arhitecturi și că următorul pas este în mod clar către un sistem chiplet MCM.

Cel mai rapid RTX 40 ar putea fi de 5 ori mai puternic decât RTX 3090 Ti

Modificările interne ale Adei Lovelace pentru RTX 40

Din nou, un leaker precum Kopite7kimi este în căutare și în cadrul scurgerii care tocmai a fost dezvăluită avem una dintre ipotezele pe care le-am luat în considerare săptămâna trecută. Mai exact, îmbunătățirile acestei arhitecturi care vor da viață RTX 40 sunt axate pe o reorganizare internă a FP32 și INT32 , unde mișcarea NVIDIA este cea mai logică și poate cea mai puțin riscantă: combinați toate Shader-urile într-un singur motor care cuprinde numere întregi și floate.

Adică ar exista un grup de Shader complet pentru FP32 și INT32, care ar putea oferi ca atare un număr mai mare decât se aștepta într-un număr bombastic de urât, dar mai puțin practic în performanța reală, așa cum s-a întâmplat cu RTX 30.

Pentru a înțelege schimbările, trebuie să mergem la Pascal vs. Turing ca atare, deoarece acolo a avut loc prima schimbare. NVIDIA a renunțat la performanța întregului pentru a promova FP32 în fiecare SM. Ampere a lăsat în urmă numărul de locuri de muncă 16 operațiuni pentru FP32 și 16 operațiuni pentru INT32 pe care Turing le-a avut pentru fiecare ciclu de ceas și a unificat înapoi la lucru cu 32 de operații pe ciclu pentru ambele. Din această cauză, a apărut controversa numărării „false” a acestora în Shaders, deoarece NVIDIA a dublat numărul de operațiuni, da, dar nu și numărul de Shaders ca atare.

Cea mai rapidă performanță RTX 40

Următorul pas acum este unificarea ambelor motoare într-unul singur, cu un obiectiv foarte clar: îmbunătățirea eficienței. Nu va exista FP64 în mod logic, dar vom avea un grup exclusiv de FP32 și INT32 care este, de asemenea, scalabil, și aici vine partea cu adevărat interesantă.

Deși diagrama arată un singur grup pentru acestea, într-adevăr dacă ne uităm cu atenție sunt două, doar tehnic sunt unificate ca unul pentru funcționalitatea lor și nu pentru numărul lor total. Informațiile scurse astăzi dezvăluie că aceste două grupuri ar putea fi într-adevăr până la patru ca atare, unde, având în vedere capacitățile unităților plutitoare și întregi de a funcționa în același timp, se speculează cu uimitor. 100 TFLOPS în cel mai rău caz și până la 200 TFLOPS în cel mai bun caz.

Pentru a pune în context, un RTX 3090 Ti se obține în prezent 40 TFLOPS și deja cu sistemul de numărare dublă despre care am discutat mai sus, ceea ce înseamnă că în cazul în care NVIDIA ar folosi două grupuri de FP32 și INT32 unificate, presupusul RTX 4090 ar fi de peste două ori mai rapid decât vârful actual de gamă al companiei, în timp ce în cazul utilizării a 4 dintre ele performanța trage până la 5 ori .

În mod logic, asta ar implica un cip monstruos ca dimensiune, puțin probabil să-l vedem, dar indică faptul că NVIDIA are un as în mânecă, posibil nu pentru Ada Lovelace , ci pentru succesorii ei.