Nejrychlejší RTX 40 by mohl být 5krát výkonnější než RTX 3090 Ti

Uplynulo něco málo přes týden, co jsme se bavili na velmi kontroverzní a z naší strany totálně spekulativní téma, konkrétně od pondělí minulého týdne, kdy jsme pojmenovali tři hypotézy o změnách, které NVIDIA mohl do své organizace a vnitřního strukturování implementovat architekturu Ada Lovelace a jak by to ovlivnilo RTX 40. No, dnes únik odhaluje, kam Huang's zamíří a především jaký výkon nejrychlejší RTX 40 mohl mít.

Tři hypotézy se stejným principem: dojde ke změnám v SM v Ada Lovelace jako hlavní architektuře, kde, jak jsme již očekávali, bude mít jen málo společného s tím, co bylo vidět v Hopperovi, čímž se potvrdí, že NVIDIA má dvě zcela odlišné přístupy pro obě architektury a že dalším krokem je jednoznačně čipletový systém MCM.

Nejrychlejší RTX 40 by mohl být 5krát výkonnější než RTX 3090 Ti

Interní změny Ady Lovelace pro RTX 40

Opět únik jako Kopite7kimi na lovu a v rámci úniku, který byl právě odhalen, máme jednu z hypotéz, které jsme zvažovali minulý týden. Konkrétně se vylepšení této architektury, která oživí RTX 40, zaměřují na vnitřní reorganizaci FP32 a INT32 , kde je pohyb NVIDIA nejlogičtější a možná nejméně riskantní: spojte všechny Shadery do jediného enginu, který zahrnuje celá čísla a plovoucí hodnoty.

To znamená, že by existovala skupina kompletních Shaderů pro FP32 a INT32, které by jako takové mohly poskytnout vyšší počet, než se očekávalo v bombastickém počtu k nenávisti, ale méně praktické ve skutečném výkonu, jako se to stalo u RTX 30.

Abychom pochopili změny, musíme přejít k Pascal vs. Turing jako takovému, protože tam došlo k první změně. NVIDIA se vzdala celočíselného výkonu, aby propagovala FP32 v každém SM. Ampere za sebou zanechal počet pracovních míst 16 ops pro FP32 a 16 ops pro INT32 že Turing měl pro každý hodinový cyklus a sjednocený zpět do práce s 32 operacemi na cyklus pro oba. Kvůli tomu vznikla kontroverze o „falešném“ počtu těchto v Shaderech, protože NVIDIA zdvojnásobila počet operací, to ano, ale ne počet Shaderů jako takových.

Nejrychlejší výkon RTX 40

Dalším krokem je nyní sjednotit oba motory do jednoho s velmi jasným cílem: zlepšit účinnost. Logicky nebude žádný FP64, ale budeme mít exkluzivní skupinu FP32 a INT32, která je také škálovatelná, a tady přichází ta opravdu zajímavá část.

Ačkoli diagram ukazuje jednu skupinu pro tyto, opravdu, když se podíváme pozorně, jsou dvě, pouze technicky jsou sjednoceny jako jedna pro jejich funkčnost a ne pro jejich celkový počet. Informace, které dnes unikly, odhalují, že tyto dvě skupiny by skutečně mohly být až čtyři jako takové, přičemž vzhledem ke schopnosti plovoucích a celočíselných jednotek pracovat současně se spekuluje s ohromným 100 TFLOPS v nejhorším případě a v nejlepším případě až 200 TFLOPS.

Abych to uvedl do kontextu, v současné době získává RTX 3090 Ti 40 TFLOPS a již se systémem dvojitého počítání, o kterém jsme hovořili výše, což znamená, že v případě, že by NVIDIA používala dvě skupiny FP32 a INT32 sjednocené, předpokládaná RTX 4090 by byla více než dvakrát rychlejší než současná špička této společnosti, přičemž v případě použití 4 z nich výkon vystřelí až 5 krát .

Logicky by to znamenalo čip monstrózní velikosti, nepravděpodobné, že jej uvidíme, ale naznačuje to, že NVIDIA má v rukávu eso, možná ne pro Adu Lovelace , ale pro její nástupce.