Intel XeSS, technologie pro získání více FPS v herních GPU

Algoritmy se super rozlišením spuštěné z herních GPU se staly průkopníkem různých her GPU výrobci. Se zadáním Intel na tomto trhu nechtěli zůstat pozadu a vyvinuli svůj vlastní protějšek NVIDIA DLSS a AMD FSR pod názvem Intel Xe Super Sampling. Jak Intel XeSS funguje a čím se liší od svých konkurentů?

Spolu s definitivní prezentací toho, co bylo dříve známé jako Xe-HPG a které bylo přejmenováno na ARC Alchemist. Intel nám nejen řekl o své nové generaci grafických architektur, ale o závazku umělé inteligence do budoucna, a to jak v procesor a GPU. V konkrétním případě svých GPU vyvinuli algoritmus nazvaný Intel XeSS, který přichází konkurovat AMD FSR a DLSS NVIDIA. Kde se shodují v cílech, ale ne ve způsobu práce mezi těmito třemi algoritmy.

Proč potřebujeme algoritmy se super rozlišením?

Při zpracování grafiky je každému vrcholu, fragmentu nebo pixelu přiřazeno alespoň jedno prováděcí vlákno na GPU a je třeba vzít v úvahu, že počet pixelů je mnohem větší než počet vrcholů ve scéně. To znamená, že když se rozlišení zvýší, stane se, že skončíme se stejným nárůstem množství instrukcí, které mají být provedeny v rámci GPU, stejně jako jeho dat, a proto se také zvětší šířka pásma.

Problém je v tom, že to znamená mít mnohem větší velikost GPU, nejen kvůli nárůstu různých jednotek, ale také kvůli skutečnosti, že vyžadováním vyšší šířky pásma vyžaduje také složitější řadiče paměti. Nezapomínejme, že tyto jsou umístěny na vnějším obvodu jakéhokoli procesoru a mají tedy co do činění s jeho velikostí. A hlavně nesmíme zapomenout na vysokou spotřebu pamětí použitých v herních grafických kartách.

Algoritmy se super rozlišením, jako jsou AMD FSR, Intel Xess a NVIDIA DLSS, se snaží tento problém vyřešit. Aby dosáhli výkonu, který by jinak tradičně vyžadoval zdvojnásobení velikosti GPU, spoléhají na zvýšení hardwaru o nepatrné procento, méně než 10%. Na to všechno nesmíme zapomenout na Ray Tracing, jehož algoritmus dokonce využívající akcelerační struktury, jako je BVH, funguje na úrovni pixelů, a proto byly algoritmy se super rozlišením přijaty jako základní součást grafiky v reálném čase.

Co je Intel XeSS?

Intel se chystá nabídnout dvě verze Intel XeSS a proto dva různé algoritmy. V obou případech mluvíme o algoritmu, který je založen na hlubokém učení a počítačovém vidění, a proto se používá inferenční neuronová síť, která předpovídá obraz ve vyšším rozlišení s více pixely z nižšího rozlišení. a tedy méně pixelů.

První varianta využívá SIMD over register nebo SWAR, které některé GPU mají. Tento mechanismus spočívá v tom, že 32bitovou ALU lze rozdělit na dvě 16bitové ALU provádějící stejnou instrukci nebo 4 z 8 bitů. Formát DP4A se skládá ze seskupení 4 8bitových operandů do 32bitového registru. Jedna z variant XeSS tedy bude moci běžet na integrovaných GPU společnosti Intel, stejně jako na libovolném GPU, který podporuje tento formát, protože Intel z něj udělá open source.

Druhá varianta Intel XeSS je naopak složitější, protože pracuje s jednotkami Tensor Intel Arc s názvem XMX, ale nefunguje v grafických procesorech NVIDIA s jádry Tensor. Vysvětlení společnosti Intel není nic jiného než to, že NVIDIA drží pod zámkem, jak funguje Tensor Cores jejího GPU, použití jednotek XMX a schopnost provádět extrémně rychlé maticové výpočty vyžadované konvolučními sítěmi. Protože to nefunguje na grafických kartách AMD a GPU AMD v současné době takové jednotky postrádají, druhá varianta by byla výhradně pro Intel GPU.

Jak se Intel XeSS liší od řešení od AMD a NVIDIA?

Ve skutečnosti by to bylo mezi těmito dvěma světy, protože navzdory skutečnosti, že je to řešení založené na hlubokém učení stejně jako NVIDIA od Intelu potvrdili, že jsou zveřejní kód jeho implementace jako to udělala AMD se svým FidelityFX Super Resolution. Vývojáři jej tedy mohou snáze aplikovat ve svých hrách a aplikacích. Je to strategie, která v případě algoritmu AMD umožnila jeho implementaci nad rámec toho, co se očekává, jako jsou emulátory starých konzolí, Linux aplikací a dokonce i her, které by záplatu tohoto typu nedostaly.

Stejně jako NVIDIA DLSS také bere v úvahu časová data, která jsou získávána z informací předchozích snímků, což AMD FSR nedělá, protože červené řešení bere pouze informace o aktuálním rámci. Nezapomínejme také na to, že algoritmus AMD není založen na umělé inteligenci, a proto nevyžaduje školení, zatímco NVIDIA ano. Intel tvrdil, že XeSS také ne, a tady věci začínají být zajímavé.

Proč XeSS nepotřebuje školení?

Jedna z věcí, která odlišuje XeSS od NVIDIA DLSS, je ta první nevyžaduje žádné školení . V tréninkovém procesu fungují dva prvky současně, první má na starosti předpovídání a druhý dohled. Když je předpověď konvoluční neuronové sítě nesprávná, pak dohledový hardware vrátí zápornou odpověď a neurální síť se stále více upřesňuje, dokud se nenaučí vytvářet správné předpovědi.

Ve videohře, kde se neopakuje ani jeden snímek, je to mnohem obtížnější než ve filmu, kde jsou vždy stejné snímky. Proto se obvykle provádí trénování neurální sítě pod dohledem. Což spočívá v spuštění hry ve vysokém rozlišení v systému, zmenšení obrazu dolů v procesu, který přidává šum a z těchto dat vytvoří v systému neuronovou síť, která bude muset provést inferenci, aby mohla generovat obraz na vyšší řešení.

Intel uvádí, že s XeSS není nutné žádné školení, a proto není nutný dohled externího systému. Realitou tohoto prohlášení není nikdo jiný než tréninkový proces se provádí v rámci vlastního hardwaru GPU namísto provádění na vzdáleném hardwaru. Za tímto účelem GPU spouští hru ve dvou simultánních instancích současně, přičemž jeden funguje jako supervizor a ve druhém je vyladěna neurální síť. To umožňuje těm, kteří implementují Intel Xess ve svých hrách a aplikacích, vyladit algoritmus a nezávisí na externích serverech.

Tajné přísady, které Intel integroval do svých GPU pro XeSS

Pro urychlení školení bude Intel zahrnovat řadu další jednotky v GPU , Jako Převzorkovač , jednotka pro získání stejného obrazu v nižším rozlišení a ta, která vypočítává ztrátu kvality signálu. Nezapomenout na Zadní propagátor , což je klíčové během tréninkového procesu ze samotného GPU. V tuto chvíli nevíme, kde jsou tyto jednotky pro výcvik konvoluční neuronové sítě, ale předpokládáme, že jsou podpůrnou jednotkou kromě toho, co je renderovací engine, ale v samotném GPU.

Algoritmy se super rozlišením se často používají algoritmy pro převzorkování v procesu získat obrázek ve vyšším rozlišení. Někteří využívají bikubickou interpolaci, zatímco jiní jako FSR používají variantu Lanczos, přestože všechny běží na jednotkách Shader GPU, a proto je nakonec snižují. Intel by zahrnoval škálovací jednotky , který by byl schopen automaticky provádět jeden nebo více algoritmů supersamplingu a osvobodil by jednotky Xe Core SIMD od tohoto úkolu, což by je umožnilo použít jinde, kde jsou také potřeba.

Na závěr tedy Intel XeSS přidává řadu další hardware že až dosud byl v GPU bezprecedentní. Nejen pro zrychlení těchto algoritmů, ale také pro zvýšení kompatibility a usnadnění jejich implementace v různých hrách na trhu. Ať už jde o nejnovější zprávy nebo hry, které mají za sebou několik let. Dá se tedy říci, že Intel s XeSS si dobře všiml nedostatků a omezení svých soupeřů.