Die schnellste RTX 40 könnte fünfmal leistungsstärker sein als die RTX 5 Ti

Etwas mehr als eine Woche ist vergangen, seit wir über ein sehr kontroverses und völlig spekulatives Thema unsererseits gesprochen haben, und zwar seit Montag letzter Woche, wo wir drei Hypothesen zu den Änderungen genannt haben NVIDIA in ihrer Organisation und internen Strukturierung die Ada-Lovelace-Architektur umsetzen könnte und wie sich das auf die RTX 40 auswirken würde. Nun, heute verrät ein Leak, wo es mit Huang hingehen wird und vor allem, welche Performance die hat schnellste RTX 40 könnte haben.

Drei Hypothesen mit dem gleichen Prinzip: Es wird Änderungen im SM in Ada Lovelace als Hauptarchitektur geben, wo es, wie wir bereits erwartet haben, wenig mit dem zu tun haben wird, was in Hopper gesehen wurde, wodurch bestätigt wird, dass NVIDIA zwei völlig unterschiedliche hat Ansätze für beide Architekturen und dass der nächste Schritt eindeutig zu einem MCM-Chiplet-System führt.

Die schnellste RTX 40 könnte fünfmal leistungsstärker sein als die RTX 5 Ti

Ada Lovelaces interne Änderungen für die RTX 40

Wieder ist ein Leaker wie Kopite7kimi auf der Pirsch und innerhalb des gerade aufgedeckten Leaks haben wir eine der Hypothesen, die wir letzte Woche in Betracht gezogen haben. Insbesondere konzentrieren sich die Verbesserungen dieser Architektur, die der RTX 40 Leben einhauchen werden, auf eine interne Neuorganisation der FP32 und INT32 , wo die Bewegung von NVIDIA am logischsten und vielleicht am wenigsten riskant ist: Kombinieren Sie alle Shader in einer einzigen Engine, die Integer und Floats umfasst.

Das heißt, es gäbe eine Gruppe von vollständigen Shadern für FP32 und INT32, die als solche eine höhere Anzahl als erwartet in einer bombastischen Zahl zum Hass geben könnten, aber weniger praktisch in der realen Leistung sind, wie dies bei der RTX 30 der Fall war.

Um die Änderungen zu verstehen, müssen wir zu Pascal vs. Turing als solchem ​​gehen, da dort die erste Änderung stattfand. NVIDIA gab die Integer-Leistung auf, um FP32 in jedem SM zu fördern. Ampere hinterließ den Stellenwert von 16 Operationen für FP32 und 16 Operationen für INT32 die Turing für jeden Taktzyklus hatte und wieder vereinheitlichte, um mit 32 Operationen pro Zyklus für beide zu arbeiten. Aus diesem Grund entstand die Kontroverse um die „falsche“ Zählung dieser in Shadern, da NVIDIA die Anzahl der Operationen verdoppelte, ja, aber nicht die Anzahl der Shader als solche.

Die schnellste RTX 40-Leistung

Der nächste Schritt ist nun, beide Motoren zu einem zu vereinen, mit einem ganz klaren Ziel: der Effizienzsteigerung. Es wird logischerweise kein FP64 geben, aber wir werden eine exklusive Gruppe von FP32 und INT32 haben, die auch skalierbar ist, und hier kommt der wirklich interessante Teil.

Obwohl das Diagramm eine einzelne Gruppe für diese zeigt, gibt es, wenn wir genau hinsehen, eigentlich zwei, nur technisch gesehen sind sie wegen ihrer Funktionalität und nicht wegen ihrer Gesamtzahl zu einer Einheit vereinheitlicht. Die heute durchgesickerten Informationen zeigen, dass diese beiden Gruppen wirklich bis zu vier sein könnten, wobei angesichts der Fähigkeit von Floating- und Integer-Einheiten, gleichzeitig zu arbeiten, mit einer Menge spekuliert wird 100 TFLOPS im schlimmsten Fall und bestenfalls bis zu 200 TFLOPS.

Um es in den Kontext zu stellen, erhält man derzeit eine RTX 3090 Ti 40 TFLOPS und bereits mit dem doppelten Zählsystem, das wir oben besprochen haben, was bedeutet, dass für den Fall, dass NVIDIA zwei Gruppen von FP32 und INT32 vereinheitlichte, die angebliche RTX 4090 mehr als doppelt so schnell wäre wie die aktuelle Spitzenklasse des Unternehmens, während bei Verwendung von 4 von ihnen die Leistung auf schießt 5 mal .

Logischerweise würde das einen Chip von monströser Größe bedeuten, unwahrscheinlich, dass wir ihn sehen werden, aber es deutet darauf hin, dass NVIDIA möglicherweise ein Ass im Ärmel hat nicht für Ada Lovelace , sondern für ihre Nachfolger.