最快的 RTX 40 可能比 RTX 5 Ti 强大 3090 倍

自从我们谈论一个非常有争议和完全投机的话题以来,已经过去了一个多星期,特别是自上周星期一以来,我们提出了三个关于变化的假设 NVIDIA公司 可以在其组织和内部结构中实施 Ada Lovelace 架构,以及它将如何影响 RTX 40。好吧,今天泄漏揭示了 Huang 的去向,最重要的是,它的性能如何 最快的 RTX 40 可能有。

三个原理相同的假设:作为主要架构的 Ada Lovelace 中的 SM 将发生变化,正如我们已经预料的那样,它将与 Hopper 中看到的几乎没有关系,从而确认 NVIDIA 有两个完全不同的两种架构的方法,下一步显然是 MCM 小芯片系统。

最快的 RTX 40 可能比 RTX 5 Ti 强大 3090 倍

Ada Lovelace 对 RTX 40 的内部改动

再次像 Kopite7kimi 这样的泄密者在徘徊,在刚刚披露的泄密中,我们有上周考虑的假设之一。 具体来说,这种架构的改进将为 RTX 40 带来活力,主要集中在内部重组 FP32 和 INT32 ,其中 NVIDIA 的移动是最合乎逻辑的,也许是风险最小的:将所有着色器组合在一个包含整数和浮点数的引擎中。

也就是说,会有一组用于 FP32 和 INT32 的完整着色器,它们的计数可能比预期的要高,但在实际性能中却不太实用,就像 RTX 30 那样。

为了理解这些变化,我们必须去看看 Pascal vs. Turing,因为那是第一个变化发生的地方。 NVIDIA 放弃整数性能,在每个 SM 中推广 FP32。 安培留下的工作数量 FP16 32 个操作,INT16 32 个操作 图灵在每个时钟周期都有,并且统一返回到每个周期都可以进行 32 次操作。 正因为如此,Shaders 中这些“错误”计数的争议出现了,因为 NVIDIA 将操作数量翻了一番,是的,但不是这样的 Shaders 数量。

最快的 RTX 40 性能

现在的下一步是将两个引擎统一为一个目标非常明确的引擎:提高效率。 从逻辑上讲,没有 FP64,但我们将拥有一组专有的 FP32 和 INT32,它们也是可扩展的,这才是真正有趣的部分。

尽管该图显示了一组,但如果我们仔细观察的话,实际上有两组,只是从技术上讲,它们是根据功能而不是总数统一为一组。 今天泄露的信息显示,这两个组实际上可能多达四个,考虑到浮点和整数单元同时工作的能力,推测有惊人的 100 TFLOPS 在最坏的情况下,最多可达 200 TFLOPS。

综上所述,RTX 3090 Ti 目前获得 40 TFLOPS 并且已经有了我们上面讨论过的双重计数系统,这意味着如果 NVIDIA 统一使用两组 FP32 和 INT32,则假定的 RTX 4090 将是公司当前顶级产品的两倍多,而在使用其中 4 个的情况下,性能会飙升至 5倍 .

从逻辑上讲,这意味着一个巨大的芯片,我们不太可能看到它,但它表明 NVIDIA 有一个王牌,可能 不是为了艾达洛夫莱斯 ,但对于她的继任者。