Intel GPU-arkitektur, forskelle vs NVIDIA og AMD

Intel GPU-arkitektur, forskelle vs NVIDIA og AMD

Vi forbinder ikke ofte Intel mærke med GPU'er eller grafikchips, hvilket skyldes, at Intel hidtil har været i det underpresterende segment. I hvilke inkluderede GPU'er integreret i processoren og indgangsniveauer, hvor høj effekt ikke er nødvendig. Hvilket betyder, at det for mange ikke har samme interesse som NVIDIA , AMD GPU'er, men Intels grafikarkitektur har også interessante punkter, som vi vil definere nedenfor.

Intel har altid været den tredje i strid, når det kommer til GPU'er, det er trods alt ikke deres vigtigste forretning, og det handler om noget mere end hvad de gør, der er CPU'er. Selvom de i de senere år har øget ressourcerne og har en række spil-GPU'er på startrampen. Arkitekturen har dog en række forskellige punkter med hensyn til konkurrencen.

Execution Unit, grundlaget for Intel GPU'er

Intel EU -visning

For at forstå forskellen i organisationen eller arkitekturen af ​​Intel GPU'er sammenlignet med resten, er vi nødt til at forstå, at mens vi er i en NVIDIA eller AMD GPU shader-enheden er den mindste enhed, i tilfælde af Intel er den Execution Unit. hvad består den nøjagtigt af? Hver udførelsesenhed er en processor, der er udviklet til parallelitet på niveauet for udførelsestråden eller fuld TLP. Derfor har den en kontrolenhed, posterne og de tilsvarende eksekveringsenheder. Hvilke er to SIMD-enheder med 4 32-bit flydende ALU'er og yderligere 4 af heltal, der skiftes og understøtter SIMD over register.

Takket være SIMD i registret kan de ved at opdele ALU'erne og deres tilknyttede registre arbejde med dobbelt så mange operander pr. Urcyklus for hver underopdeling lavet i præcision. Således kan de udføre dobbelt så mange 16-bit floating-point operationer som 32-bit, men fire gange mere, hvis de er 8-bit. Med hensyn til funktionerne i udførelsesenhederne har de ansvaret for at udføre Shader-programmerne, når alt kommer til alt svarer de til SIMD-enhederne til Intel og AMD GPU'er, og derfor er deres opgave den samme.

Intel Xe-eksekveringsenheder

I Intel Xe har Raja Koduri-teamet foretaget en vigtig ændring i kontrolenheden, da nu to eksekveringsenheder deler den samme kontrolenhed. En ændring, der minder meget om den, AMD har foretaget i sine RDNA-arkitekturer, hvor to computerenheder er grupperet i en enkelt arbejdsgruppe. Noget der ikke burde overraske os af hjerneflugten fra AMD til Intel. Denne ændring har betydet, at kontrolenheden er blevet opdateret, hvilket helt sikkert repræsenterer en komplet ændring i den interne ISA for Intel GPU'er til en meget mere effektiv.

Sub-Slice, Shader-enheden

Intel Architecture Xe Hotchips (8)

Ækvivalenten med shader-enheder, som NVIDIA og AMD GPU'er har, har vi allerede set, at det ikke er eksekveringsenhederne, men snarere sub-skiverne. Inden for dem finder du eksekveringsenhederne grupperet. Fordi hver eksekveringsenhed er en delmængde af en underordnet del, og udsnittet er overmængden af ​​underdelen, vil vi se sidstnævnte senere. Hver underdel huser 16 eksekveringsenheder indeni, hvilket oversættes til 64 FP32 ALU'er og 64 heltal ALU'er i alt. Et tal, der gør disse enheder ækvivalente i rå computerkraft til deres AMD-ækvivalenter, Compute Units.

Hvad angår resten af ​​de elementer, som vi kan finde inde i underunderlaget, er de klassikerne i en enhed af denne type, selvom Intel bruger en anden nomenklatur end normalt. Hvordan er tilfældet med den såkaldte 3D Sampler, som stadig er den klassiske enhed til håndtering og filtrering af teksturer, simpelthen har Intel givet et andet navn til denne klassiske enhed med fast funktion, der findes i alle 3D-grafikprocessorer siden starten.

Intel Architecture Xe Hotchips (10)

Imidlertid er Media Sampler et meget mere interessant stykke, da det er unikt for Intel GPU'er, det består af en række faste funktionsenheder, som er følgende:

  • Video Motion Engine giver estimering af pixelbevægelser, som er nøglen til videokodere.
  • Adaptive Video Scalar er en enhed, der udfører filtre til billedudjævning.
  • De-Noise / De-Interlace er en enhed, der har ansvaret for at reducere støj i et billede på den ene side og på den anden side til at omdanne video i interlaced tilstand til progressiv tilstand.

Begyndende med Intel Xe er Media Sampler blevet trukket tilbage fra underdelen og er blevet en uafhængig enhed i sig selv. Hvilket fortsat er et differentieret stykke med hensyn til design af NVIDIA og AMD.

The Slice, et andet almindeligt stykke i GPU'er

Intel Architecture Xe Hotchips (7)

Slice i Intel GPU-arkitekturen svarer til Shader Engine eller GPC i tilfælde af NVIDIA. Forskellige navne for en organisation af enheder fra hinanden. Indvendigt er underafsnittene og en række faste funktionsenheder, som er almindelige med andre virksomheds GPU'er.

Selvom nomenklaturen igen kan være forvirrende, for eksempel i resten af ​​arkitekturen er rasterenheden normalt samlet, og den der genererer dybdebufferen, forekommer begge elementer i rasterfasen i en fælles enhed i tilfælde af NVIDIA og AMD, men Intel gør det separat.

Det samme gælder for Pixel Dispatch og Pixel Back-End. Funktioner af ROP-enheder, der udføres her af to forskellige elementer. Når alt kommer til alt, er den opgave, der skal udføres i begge tilfælde, den samme.

Intel GPU-cachehierarki

Intel gemmer GPU

Et af de differentierende punkter i den fælles arkitektur for Intel GPU'er sammenlignet med AMD og NVIDIA er netop, hvordan cachehierarkiet er organiseret. I tilfælde af AMD finder vi ud af, at RX 6000 har et hierarki på fire niveauer, hvis vi tæller det nyligt inkorporerede Infinity-cache. I tilfælde af NVIDIA er hierarkiet med cacher forskelligt fra Intel og AMD, men det handler ikke om konkurrencen til Intel, at vi vil fokusere på denne artikel, da den ikke er dedikeret til dem

Diagrammet i dette afsnit angiver den interne kommunikation inden for GPU'en, både på under- og udsnitniveau. I tilfælde af subslice har vi den klassiske datacache og delte lokale hukommelse. Men i modsætning til NVIDIA og AMD GPU'er har Intel traditionelt tilføjet en ekstra L2-cache, der er tilgængelig for både 3D Sampler og Media Sampler. Hvilket gør GPU's L3-cache til GPU-cache på øverste niveau.

Intel Xe GPU -arkitektur

Forskellen mellem L1-cachen for data og derfor for udførelsesenhederne og L2 for teksturerne har ændret sig i Intel Xe, hvor begge er blevet kombineret til en enkelt L1-cache med data og teksturer. Så nu har de en helt standardkonfiguration sammenlignet med konkurrencedygtige GPU'er.

En anden ændring er med hensyn til L3 eller cache på sidste niveau. Moderne GPU'er understøtter den såkaldte Tiled Caching, som består i, at de rasteriseres efter fliser, men de gør det på det sidste niveau cache, og der er en fare for, at dataene falder i hukommelsen, hvor energiomkostningerne ved at genoprette det skyrockets, så De har øget det fra 3 MB til 16 MB.