Uplynulo něco málo přes týden, co jsme se bavili na velmi kontroverzní a z naší strany totálně spekulativní téma, konkrétně od pondělí minulého týdne, kdy jsme pojmenovali tři hypotézy o změnách, které NVIDIA mohl do své organizace a vnitřního strukturování implementovat architekturu Ada Lovelace a jak by to ovlivnilo RTX 40. No, dnes únik odhaluje, kam Huang's zamíří a především jaký výkon nejrychlejší RTX 40 mohl mít.
Tři hypotézy se stejným principem: dojde ke změnám v SM v Ada Lovelace jako hlavní architektuře, kde, jak jsme již očekávali, bude mít jen málo společného s tím, co bylo vidět v Hopperovi, čímž se potvrdí, že NVIDIA má dvě zcela odlišné přístupy pro obě architektury a že dalším krokem je jednoznačně čipletový systém MCM.
Interní změny Ady Lovelace pro RTX 40
Opět únik jako Kopite7kimi na lovu a v rámci úniku, který byl právě odhalen, máme jednu z hypotéz, které jsme zvažovali minulý týden. Konkrétně se vylepšení této architektury, která oživí RTX 40, zaměřují na vnitřní reorganizaci FP32 a INT32 , kde je pohyb NVIDIA nejlogičtější a možná nejméně riskantní: spojte všechny Shadery do jediného enginu, který zahrnuje celá čísla a plovoucí hodnoty.
To znamená, že by existovala skupina kompletních Shaderů pro FP32 a INT32, které by jako takové mohly poskytnout vyšší počet, než se očekávalo v bombastickém počtu k nenávisti, ale méně praktické ve skutečném výkonu, jako se to stalo u RTX 30.
1. Zdvojnásobte podjádro pro zlepšení účinnosti 2*FP32.
2. K dispozici je rozšiřující prostor 4*FP32.
To je můj názor na ADA. pic.twitter.com/HAt48SP5RT- kopite7kimi (@ kopite7kimi) 5
Abychom pochopili změny, musíme přejít k Pascal vs. Turing jako takovému, protože tam došlo k první změně. NVIDIA se vzdala celočíselného výkonu, aby propagovala FP32 v každém SM. Ampere za sebou zanechal počet pracovních míst 16 ops pro FP32 a 16 ops pro INT32 že Turing měl pro každý hodinový cyklus a sjednocený zpět do práce s 32 operacemi na cyklus pro oba. Kvůli tomu vznikla kontroverze o „falešném“ počtu těchto v Shaderech, protože NVIDIA zdvojnásobila počet operací, to ano, ale ne počet Shaderů jako takových.
Nejrychlejší výkon RTX 40
Dalším krokem je nyní sjednotit oba motory do jednoho s velmi jasným cílem: zlepšit účinnost. Logicky nebude žádný FP64, ale budeme mít exkluzivní skupinu FP32 a INT32, která je také škálovatelná, a tady přichází ta opravdu zajímavá část.
Ačkoli diagram ukazuje jednu skupinu pro tyto, opravdu, když se podíváme pozorně, jsou dvě, pouze technicky jsou sjednoceny jako jedna pro jejich funkčnost a ne pro jejich celkový počet. Informace, které dnes unikly, odhalují, že tyto dvě skupiny by skutečně mohly být až čtyři jako takové, přičemž vzhledem ke schopnosti plovoucích a celočíselných jednotek pracovat současně se spekuluje s ohromným 100 TFLOPS v nejhorším případě a v nejlepším případě až 200 TFLOPS.
Tato myšlenka je založena na určitých informacích, které vám nyní nemohu říci.
Je tedy možné 100T, 150T nebo 200TFLOPS.- kopite7kimi (@ kopite7kimi) 5
Abych to uvedl do kontextu, v současné době získává RTX 3090 Ti 40 TFLOPS a již se systémem dvojitého počítání, o kterém jsme hovořili výše, což znamená, že v případě, že by NVIDIA používala dvě skupiny FP32 a INT32 sjednocené, předpokládaná RTX 4090 by byla více než dvakrát rychlejší než současná špička této společnosti, přičemž v případě použití 4 z nich výkon vystřelí až 5 krát .
Logicky by to znamenalo čip monstrózní velikosti, nepravděpodobné, že jej uvidíme, ale naznačuje to, že NVIDIA má v rukávu eso, možná ne pro Adu Lovelace , ale pro její nástupce.