RTX 40 nhanh nhất có thể mạnh gấp 5 lần RTX 3090 Ti

5 Tháng Năm, 2022 Matt Mill phần cứng, Tin tức 0

Đã hơn một tuần trôi qua kể từ khi chúng tôi nói về một chủ đề rất gây tranh cãi và hoàn toàn mang tính suy đoán, đặc biệt là kể từ thứ Hai của tuần trước, nơi chúng tôi đặt tên cho ba giả thuyết về những thay đổi NVIDIA có thể triển khai trong tổ chức và cấu trúc nội bộ của kiến trúc Ada Lovelace và nó sẽ ảnh hưởng như thế nào đến RTX 40. Chà, hôm nay một rò rỉ tiết lộ nơi Huang sẽ đi và trên hết, hiệu suất của RTX 40 nhanh nhất đã có thể.

Ba giả thuyết có cùng một nguyên tắc: sẽ có những thay đổi trong SM ở Ada Lovelace như là kiến trúc chính, như chúng ta đã dự đoán trước, nó sẽ không liên quan rất nhiều đến những gì đã thấy trong Hopper, do đó xác nhận rằng NVIDIA có hai thứ hoàn toàn khác nhau. phương pháp tiếp cận cho cả hai kiến trúc và bước tiếp theo rõ ràng là hệ thống chiplet MCM.

Những thay đổi bên trong của Ada Lovelace cho RTX 40

Một lần nữa, một kẻ rò rỉ như Kopite7kimi lại đi rình mò và trong vòng rò rỉ vừa được tiết lộ, chúng tôi có một trong những giả thuyết mà chúng tôi đã xem xét vào tuần trước. Cụ thể, những cải tiến của kiến trúc này sẽ mang lại sức sống cho RTX 40 tập trung vào việc tổ chức lại nội bộ của FP32 và INT32 , nơi mà chuyển động của NVIDIA là hợp lý nhất và có lẽ là ít rủi ro nhất: kết hợp tất cả các Shader trong một công cụ duy nhất bao gồm các số nguyên và float.

Có nghĩa là, sẽ có một nhóm các Trình tạo bóng hoàn chỉnh cho FP32 và INT32, có thể cho số lượng cao hơn dự kiến trong một con số khoa trương để ghét, nhưng ít thực tế hơn trong hiệu suất thực tế, như đã xảy ra với RTX 30.

1. Nhân đôi điểm phụ để cải thiện hiệu quả 2 * FP32.
2. Có không gian mở rộng 4 * FP32.
Đó là suy nghĩ của tôi về ADA. pic.twitter.com/HAt48SP5RT

- kopite7kimi (@ kopite7kimi) 5 Tháng Năm, 2022

Để hiểu những thay đổi, chúng ta phải chuyển đến Pascal so với Turing, vì đó là nơi thay đổi đầu tiên diễn ra. NVIDIA đã từ bỏ hiệu suất số nguyên để thúc đẩy FP32 trong mọi SM. Ampere bỏ lại sau lưng số lượng công việc của 16 ops cho FP32 và 16 ops cho INT32 mà Turing đã có cho mỗi chu kỳ đồng hồ và thống nhất trở lại hoạt động với 32 hoạt động mỗi chu kỳ cho cả hai. Do đó, tranh cãi về số lượng "sai" trong số này trong Shader đã nảy sinh, vì NVIDIA đã tăng gấp đôi số lượng hoạt động, vâng, nhưng không phải là số lượng Shader như vậy.

Hiệu suất RTX 40 nhanh nhất

Bước tiếp theo bây giờ là hợp nhất cả hai động cơ thành một với một mục tiêu rất rõ ràng: nâng cao hiệu quả. Về mặt logic sẽ không có FP64, nhưng chúng ta sẽ có một nhóm FP32 và INT32 độc quyền cũng có thể mở rộng và đây là phần thực sự thú vị.

Mặc dù biểu đồ chỉ ra một nhóm duy nhất cho những thứ này, thực sự nếu chúng ta quan sát kỹ thì có hai nhóm, chỉ về mặt kỹ thuật chúng được thống nhất như một cho chức năng của chúng chứ không phải cho tổng số của chúng. Thông tin bị rò rỉ ngày hôm nay tiết lộ rằng hai nhóm này thực sự có thể lên đến bốn nhóm như vậy, trong đó khả năng của các đơn vị số nguyên và số thực hoạt động cùng một lúc, nó được suy đoán với một con số khổng lồ 100 TFLOPS trong trường hợp xấu nhất và tối đa là 200 TFLOPS.

Ý tưởng này dựa trên một số thông tin nhất định mà tôi không thể cho bạn biết bây giờ.
Vì vậy, 100T, 150T hoặc 200TFLOPS là có thể.

- kopite7kimi (@ kopite7kimi) 5 Tháng Năm, 2022

Để đặt nó trong ngữ cảnh, RTX 3090 Ti hiện có 40 TFLOPS và đã có hệ thống đếm kép mà chúng ta đã thảo luận ở trên, có nghĩa là trong trường hợp NVIDIA sử dụng hợp nhất hai nhóm FP32 và INT32, RTX 4090 được cho là sẽ nhanh hơn gấp đôi so với dòng sản phẩm đầu bảng hiện tại của công ty, trong khi trong trường hợp sử dụng 4 trong số chúng, hiệu suất tăng lên đến 5 lần .

Về mặt logic, điều đó ngụ ý một con chip có kích thước khủng khiếp, không chắc chúng ta sẽ nhìn thấy nó, nhưng nó chỉ ra rằng NVIDIA có một lợi thế trong tay áo của mình, có thể không dành cho Ada Lovelace , nhưng đối với những người kế vị của cô ấy.