Innosilicon Fantasy I:架构和功能

当我们谈论 PC 中的 GPU 时,我们通常会提到三家美国公司: AMD, NVIDIA公司 并且,在较小程度上, 英特尔. 如果我们告诉你中国出现了使用英国技术的显卡会怎样? GPU,但在中国组装和制造? 在本文中,我们将描述 Innosilicon Fantasy I 的架构。

芯动科技幻想 I

谈论 Imagination 的 PowerVR 架构几乎就像谈论希腊悲剧。 自它诞生以来,它跨越了不同的世代,我们已经在几个不同的系统上看到它,比如 SEGA Dreamcast、ST Micro 的 KYRO 显卡,甚至是 的PlayStation 维塔。 他们的共同点? 尽管其 GPU 质量很高,但真正的商业失败。 然而,他们有幸成为了处理器的图形架构 Apple 设备,直到来自库比蒂诺的那些决定自己去“设计”自己的图形架构一段时间。

Imagination Technologies Fantasy I PowerVR

苹果和 Imagination 之间的分歧时期再次导致英国人寻求将其图形架构授权给第三方。 目前,如果我们看看智能设备和 PC 世界的全景,我们会看到 Imagination 和它的 PowerVR 似乎已经消失了。

它的缺席 安卓 世界已被其他参与者利用,例如 ARM 自己与 Mali 或高通的 Adreno 合作。 这使他们转向其他市场,例如以采矿 ASIC 闻名的中国制造商 Innosilicon 不久前推出了 Fantasy 1。这是自 Kyro 2000 年代初期以来第一款基于 PowerVR 的显卡,但他们能在 PC 领域与 NVIDIA 和 AMD 竞争吗?

什么是平铺渲染?

在 1990 年代后期,图形卡设计者不得不与一个普遍的问题——缺乏带宽——争夺性能。 与今天的图形处理器相比,它们非常简单。 3D 管道的第一部分,在光栅化之前,由 中央处理器. 变化的第二部分是由显卡进行的,它需要大量的带宽,而当时的内存在不增加成本的情况下无法提供。

瓷砖仁德岭管道

Imagination 提出的解决方案是 Tiles 的渲染,这仍然是其架构的基础,因此即使在今天,Fantasy I 一旦几何图形在 GPU 本身中计算出来,与传统 GPU 相比,还增加了额外的阶段。 Tile Renderer 对几何图形的位置进行排序 内存 基于其在光栅化之前在场景中的位置,为每个图块创建单独的显示列表,然后在渲染过程中逐个解析。

性能

由于每个块或 Tile 的尺寸很小,因此无需访问 VRAM 即可解决问题,因为它们为此使用内部存储器。 这也使其非常适合经常使用多个图像缓冲区来计算场景照明的延迟渲染。 它的另一个优点是,由于知道场景中元素的位置对于为光线追踪生成空间数据结构至关重要,因此在这种类型的架构中更容易实现光线追踪。

缺点

然而,这有两个缺点。 第一个是它需要比传统 GPU 更复杂的硬件来实现相同的性能,因此,对于相同尺寸的芯片,我们总是会获得较低的性能,第二个是像 GDDR 或 GDDR 这样的高速内存的存在。 HBM 消除了它在游戏 PC 中的优势。 这就是为什么这种类型的架构已经成为袖珍设备的标准,因为消费原因,内存带宽是有限的。

PowerVR B 系列,Fantasy I 的图形架构

要了解 Innosilicon 的 Fantasy I 显卡的架构,以及苹果设备处理器内部的内容,我们必须了解 Imagination 的当前架构,虽然我们知道它最近已经推出了 C 系列,但被称为 Photon,目前最先进的设备使用 Imagination 的 B 系列作为架构。

芯动幻想I GPU

B系列的核心

这些核中的每一个的组织如下:

芯动幻想I PowerVR

  • 四个 USC 模块,统一着色器集群,每个模块在 FP128 中最多有 32 个 ALU,每个内核总共有 512 个。 鉴于能够在单个时钟周期内执行加法和乘法指令,它能够在每个时钟周期内执行 1024 次操作。
  • 8 个纹理单元,每个能够产生 4 个纹理像素,总共 32 个。
  • 16 个 ROPS。
  • 1个镶嵌单元。
  • 1 个光栅单位。

每个核心都独立于其他核心单独负责屏幕上的图块或块。 因此,它们中的每一个都有自己的光栅和镶嵌单元。 除了携带一个小的内部存储器来解析它里面的图像缓冲区,减少对系统RAM的影响。 然而,这个内存是专门用于 ROPS 的,尽管 GPU 有很多好处,但由于今天使用的巨大纹理贴图,有必要访问 VRAM 来获取纹理数据。

Fantasy I,第一个小芯片 GPU

Fantasy I 中使用的 Imagination B 系列的最大新颖之处在于它是第一个由小芯片组成的 GPU,即作为单个处理器协同工作的不同芯片。 为此,屏幕列表被发送到组成 GPU 的四个小芯片中的第一个,而其他三个是从属的。 这是一种与 AMD 在 RDNA 3 专利中提出的解决方案非常相似的解决方案,并且在未来这种类型的所有 GPU 中肯定会很常见。

但是,此解决方案在特定点上有所不同,即使用切片渲染来执行预渲染,并且能够在光栅化之前而不是从 3D 管道开始时拥有多个屏幕列表。 这个概念就是在没有任何类型的着色器或纹理的情况下,从计算管道而不是图形渲染场景。 这允许您组织多个命令列表,而不仅仅是一个允许您在预渲染期间利用大量内核的命令。 一旦第一个 GPU 的命令处理器读取了屏幕列表,该过程就会自动执行。

这使我们可以为同一场景拥有多个可以由不同核心组织的屏幕列表。 这就是如何通过 2 个小芯片的配置实现的,每个小芯片负责屏幕的一半,其中 4 个小芯片分布在四分之一。

芯动科技为您的显卡带来了什么?

不过,并不是所有的工作都由 Imagination 的人完成,而是 Innosilicon 设计了显卡的其余部分,添加了 PCB 设计并选择了其余的材料。 最突出的是根据要使用的型号使用 GDDR6 或 GDDR6X 内存,支持 DisplayPort 1.5 和 HDMI 2.1,但特别是使用其 Innolink 技术,该技术旨在内部通信四个小芯片构成 GPU 的一部分。

Innolink 小芯片幻想 I

具体来说,我们有两种不同的变体,A 类调用可以达到 FP5 中的 32 TFLOPS 功率 ,它具有与 128 位 GDDR6X VRAM 的内存接口,速度为 19 Gbps,带宽为 304 GB/s。 另一方面,B 型有两个完整的 GPU,因此总共由 8 个小芯片组成,数量翻倍

Innosilicon Fantasy 我不适合你的电脑

现实情况是,您将无法购买 Innosilicon 的 Fantasy I 显卡以在您的游戏 PC 中使用它们,您也不会感兴趣,因为 Imagination 为袖珍设备设计了其架构 Windows 不是主导操作系统,也不是 DirectX,因为我们发现了一系列缺点。 将功能添加到您的客户端不会使用的硬件是没有意义的,而这些 GPU 的最大客户端,尽管是隐蔽的,是 Apple,特别是它的 Metal API。

Tarjetas Graficas Innosilicon

具有讽刺意味的是,PowerVR 与 Metal 紧密相连,Metal 中使用的 API iOS、macOS 和苹果的其他操作系统,最终蒂姆库克的人最终与 Imagination 签署了一项协议,以便他们可以继续开发集成到其处理器中的 GPU。 因此,在当前的 Apple A15、M1 及其 Pro 和 Max 变体中,内部是 PowerVR。 与此相对的是,来自库比蒂诺的人创造了一个普遍的想法,即他们如此无所不能,以至于他们可以创建系统中的所有硬件并与全世界竞争资源。 现实非常不同。

当 PC 的输入范围已经达到时,由 4 个小芯片组成的 GPU 达到 6 TFLOPS 的事实可能会让我们感到惊讶,但我们必须记住,它是为移动处理器设计的,但目标是达到云计算并且不能在游戏 PC 中使用。

专为数据中心和云计算而设计

我们不要忘记,在服务器中使用多个处理器是正常的,而且我们有越来越多的基于智能手机处理器的服务器。 我们也不能忘记在云中为多个客户端虚拟化显卡的趋势,从本质上讲,Fantasy I 不需要虚拟化,组成它的每个小芯片都可以作为小型 GPU 工作。

伺服器 ARM

因此,我们的架构源自移动设备并扩展到数据中心,但无需经过 PC 附近。 这意味着它缺少当今 PC 游戏必不可少的一系列功能。 这就是为什么,尽管 Fantasy I 的外观可能让人联想到游戏 GPU 的外观,或者这些颜色看起来并不严肃,但它们确实适用于云计算,尽管它是第一代。 我们是否面临着显卡不在用户手中,而是在服务器端的未来?

无论如何,作为美国竞争对手的超级大国,中国需要从技术角度完全独立,这意味着在我们记得是美国公司的英伟达、英特尔和 AMD 的经典解决方案之外创建自己的解决方案。