最快的 RTX 40 可能比 RTX 5 Ti 强大 3090 倍

2022 年 5 月 5 日马特·米尔斯（Matt Mills）硬件, 新闻 0

自从我们谈论一个非常有争议和完全投机的话题以来，已经过去了一个多星期，特别是自上周星期一以来，我们提出了三个关于变化的假设 NVIDIA公司可以在其组织和内部结构中实施 Ada Lovelace 架构，以及它将如何影响 RTX 40。好吧，今天泄漏揭示了 Huang 的去向，最重要的是，它的性能如何 最快的 RTX 40 可能有。

三个原理相同的假设：作为主要架构的 Ada Lovelace 中的 SM 将发生变化，正如我们已经预料的那样，它将与 Hopper 中看到的几乎没有关系，从而确认 NVIDIA 有两个完全不同的两种架构的方法，下一步显然是 MCM 小芯片系统。

Ada Lovelace 对 RTX 40 的内部改动

再次像 Kopite7kimi 这样的泄密者在徘徊，在刚刚披露的泄密中，我们有上周考虑的假设之一。具体来说，这种架构的改进将为 RTX 40 带来活力，主要集中在内部重组 FP32 和 INT32 ，其中 NVIDIA 的移动是最合乎逻辑的，也许是风险最小的：将所有着色器组合在一个包含整数和浮点数的引擎中。

也就是说，会有一组用于 FP32 和 INT32 的完整着色器，它们的计数可能比预期的要高，但在实际性能中却不太实用，就像 RTX 30 那样。

1. 子核加倍，提高2*FP32效率。
2、有4*FP32扩展空间。
这就是我对 ADA 的看法。 pic.twitter.com/HAt48SP5RT

-kopite7kimi（@ kopite7kimi） 2022 年 5 月 5 日

为了理解这些变化，我们必须去看看 Pascal vs. Turing，因为那是第一个变化发生的地方。 NVIDIA 放弃整数性能，在每个 SM 中推广 FP32。安培留下的工作数量 FP16 32 个操作，INT16 32 个操作 图灵在每个时钟周期都有，并且统一返回到每个周期都可以进行 32 次操作。正因为如此，Shaders 中这些“错误”计数的争议出现了，因为 NVIDIA 将操作数量翻了一番，是的，但不是这样的 Shaders 数量。