自从我们谈论一个非常有争议和完全投机的话题以来,已经过去了一个多星期,特别是自上周星期一以来,我们提出了三个关于变化的假设 NVIDIA公司 可以在其组织和内部结构中实施 Ada Lovelace 架构,以及它将如何影响 RTX 40。好吧,今天泄漏揭示了 Huang 的去向,最重要的是,它的性能如何 最快的 RTX 40 可能有。
三个原理相同的假设:作为主要架构的 Ada Lovelace 中的 SM 将发生变化,正如我们已经预料的那样,它将与 Hopper 中看到的几乎没有关系,从而确认 NVIDIA 有两个完全不同的两种架构的方法,下一步显然是 MCM 小芯片系统。
Ada Lovelace 对 RTX 40 的内部改动
再次像 Kopite7kimi 这样的泄密者在徘徊,在刚刚披露的泄密中,我们有上周考虑的假设之一。 具体来说,这种架构的改进将为 RTX 40 带来活力,主要集中在内部重组 FP32 和 INT32 ,其中 NVIDIA 的移动是最合乎逻辑的,也许是风险最小的:将所有着色器组合在一个包含整数和浮点数的引擎中。
也就是说,会有一组用于 FP32 和 INT32 的完整着色器,它们的计数可能比预期的要高,但在实际性能中却不太实用,就像 RTX 30 那样。
1. 子核加倍,提高2*FP32效率。
2、有4*FP32扩展空间。
这就是我对 ADA 的看法。 pic.twitter.com/HAt48SP5RT-kopite7kimi(@ kopite7kimi) 2022 年 5 月 5 日
为了理解这些变化,我们必须去看看 Pascal vs. Turing,因为那是第一个变化发生的地方。 NVIDIA 放弃整数性能,在每个 SM 中推广 FP32。 安培留下的工作数量 FP16 32 个操作,INT16 32 个操作 图灵在每个时钟周期都有,并且统一返回到每个周期都可以进行 32 次操作。 正因为如此,Shaders 中这些“错误”计数的争议出现了,因为 NVIDIA 将操作数量翻了一番,是的,但不是这样的 Shaders 数量。
最快的 RTX 40 性能
现在的下一步是将两个引擎统一为一个目标非常明确的引擎:提高效率。 从逻辑上讲,没有 FP64,但我们将拥有一组专有的 FP32 和 INT32,它们也是可扩展的,这才是真正有趣的部分。
尽管该图显示了一组,但如果我们仔细观察的话,实际上有两组,只是从技术上讲,它们是根据功能而不是总数统一为一组。 今天泄露的信息显示,这两个组实际上可能多达四个,考虑到浮点和整数单元同时工作的能力,推测有惊人的 100 TFLOPS 在最坏的情况下,最多可达 200 TFLOPS。
这个想法是基于一些我现在不能告诉你的某些信息。
所以 100T、150T 或 200TFLOPS 是可能的。-kopite7kimi(@ kopite7kimi) 2022 年 5 月 5 日
综上所述,RTX 3090 Ti 目前获得 40 TFLOPS 并且已经有了我们上面讨论过的双重计数系统,这意味着如果 NVIDIA 统一使用两组 FP32 和 INT32,则假定的 RTX 4090 将是公司当前顶级产品的两倍多,而在使用其中 4 个的情况下,性能会飙升至 5倍 .
从逻辑上讲,这意味着一个巨大的芯片,我们不太可能看到它,但它表明 NVIDIA 有一个王牌,可能 不是为了艾达洛夫莱斯 ,但对于她的继任者。