Samsungs HBM-PIM beschleunigt künstliche Intelligenz

Samsungs HBM-PIM beschleunigt künstliche Intelligenz

Das HBM-PIM ist eine Variante des sogenannten High Bandwidth Memory, das von . vorgestellt wurde Samsung im Jahr 2021, wo das Akronym PIM als „Processing in Memory“ übersetzt wird, was bedeutet, dass wir uns einer Variante mit einem integrierten Prozessor gegenübersehen . Wie wird diese Art von HBM mit Prozesskapazität präsentiert, an wen richtet sie sich und welchen Nutzen hat sie?

Das erste, was wir zum Zeitpunkt des Schreibens dieses Artikels verstehen müssen, ist, dass das HBM-PIM kein von der JEDEC genehmigter Standard ist, dem Komitee von 300 Unternehmen, die für die Erstellung der verschiedenen Speicherstandards verantwortlich sind, seien sie flüchtig oder anhaltend. . Im Moment handelt es sich um einen Vorschlag und Entwurf von Samsung, der in einen neuartigen HBM-Speicher umgewandelt und von Dritten hergestellt werden könnte oder, falls dies nicht der Fall ist, zu einem exklusiven Produkt der südkoreanischen Gießerei.

Samsung HBM-PIM

Ob Standard oder nicht, das HBM-PIM wird für den Alveo AI Accelerator von Xilinx hergestellt, einem Unternehmen, von dem wir uns erinnern, dass es vollständig von AMD. Es handelt sich also nicht um ein Konzept auf dem Papier und kein Laborprodukt, sondern diese Art von HBM-Speicher kann in großen Stückzahlen hergestellt werden. Natürlich ist die Xilinx Álveo eine FPGA-basierte Beschleunigerkarte, die in Rechenzentren eingesetzt wird. Es ist kein Produkt für den Massenmarkt, und wir müssen bedenken, dass es sich nur um eine Variante des HBM-Speichers handelt, der an sich sehr teuer und knapp in der Herstellung ist, was seinen Einsatz in kommerziellen Produkten wie Gaming-Grafikkarten reduziert oder Prozessoren.

Das Konzept des In-Memory-Computing

HBM-PIM Konzept

Die Programme, die wir auf unseren PCs ausführen, funktionieren durch eine Ehe zwischen RAM und CPU, was perfekt wäre, wenn wir beides auf einen einzigen Chip packen könnten. Leider ist dies nicht möglich und führt zu einer Reihe von Engpässen, die der Architektur jedes Computers innewohnen, ein Produkt der Latenz zwischen dem Systemspeicher und der Zentraleinheit:

  • Da die Entfernung größer ist, werden die Daten langsamer übertragen.
  • Der Energieverbrauch steigt, je mehr Platz zwischen der Verarbeitungseinheit, die das Programm ausführt, und der Speichereinheit, in der sich das Programm befindet, vorhanden ist. Dies bedeutet, dass die Übertragungsgeschwindigkeit bzw. Bandbreite niedriger ist als die Prozessgeschwindigkeit.
  • Der übliche Weg, dieses Problem zu lösen, besteht darin, eine Cache-Hierarchie auf der CPU, GPU oder APU hinzuzufügen. die Daten aus dem RAM nach innen kopiert, um schneller auf die notwendigen Informationen zuzugreifen.
  • Andere Architekturen verwenden sogenanntes Scratchpad-RAM, das sogenannte Embedded RAM, das nicht automatisch funktioniert und dessen Inhalt vom Programm gesteuert werden muss.

Der im Prozessor integrierte RAM hat also ein Problem und es ist seine Kapazität, bei der er aufgrund von physischen Platzbeschränkungen nur sehr wenige Daten speichert, da die überwiegende Mehrheit der Transistoren für die Verarbeitung von Befehlen und nicht für die Speicherung bestimmt ist.

HBM-PIM Arquitectura Allgemein

Das Konzept des In-Memory-Computing funktioniert im Vergleich zu DRAM oder eingebettetem SRAM umgekehrt, da wir über RAM sprechen, zu dem wir Logik hinzufügen, wo die Bitzellen ein größeres Gewicht haben. Es handelt sich also nicht um die Integration eines komplexen Prozessors, sondern um einen domänenspezifischen und sogar hardwareverdrahtete oder funktionsfeste Beschleuniger.

Und was sind die Vorteile dieser Art von Speicher? Wenn wir ein Programm auf einem beliebigen Prozessor zumindest für jeden Befehl ausführen, erfolgt ein Zugriff auf den dieser CPU zugewiesenen RAM oder GPU. Die Idee von In-Memory-Computing besteht darin, ein Programm im PIM-Speicher zu speichern und dass die CPU oder GPU nur einen einzigen Aufrufbefehl verwenden und darauf warten muss, dass die Verarbeitungseinheit im Memory-Computing das Programm ausführt und die endgültige Antwort zurückgibt zur CPU, die für andere Aufgaben frei ist.

Der Prozessor im Samsung HBM-PIM

HBM-PIM Arquitectura PCU

In jeden der Chips im Stapel eines HBM-PIM-Chips wurde eine kleine CPU integriert, sodass die Speicherkapazität von Transistoren beeinflusst wird, die zu den Speicherzellen gehen würden, um sie den Logikgattern zuzuordnen, aus denen die integrierten Prozessor, und wie wir schon früher weiterentwickelt haben, ist es sehr einfach.

  • Es verwendet keine bekannten ISAs, sondern seine eigenen mit insgesamt sehr wenigen Anweisungen: 9.
  • Es hat zwei Sätze von 16 Gleitkommaeinheiten mit einer Genauigkeit von jeweils 16 Bit. Der erste Satz hat die Fähigkeit, eine Addition und der zweite eine Multiplikation durchzuführen.
  • Eine Ausführungseinheit vom Typ SIMD, also ein Vektorprozessor.
  • Seine arithmetischen Fähigkeiten sind: A + B, A * B, (A + B) * C und (A * C) + B.
  • Der Energieverbrauch pro Vorgang ist 70% geringer als wenn die CPU die gleiche Aufgabe übernimmt, hier müssen wir den Zusammenhang zwischen Energieverbrauch und Entfernung mit den Daten berücksichtigen.
  • Samsung hat diesen kleinen Prozessor auf den Namen PCU getauft.
  • Jeder Prozessor kann nur mit dem Speicherchip arbeiten, zu dem er gehört, oder mit dem gesamten Stapel. Auch die Einheiten im HBM-PIM können zusammenarbeiten, um die Algorithmen oder Programme zu beschleunigen, die dies benötigen.

Wie aus seiner Einfachheit ersichtlich ist, ist es nicht für die Ausführung komplexer Programme geeignet. Im Gegenzug bewirbt Samsung es mit der Idee, dass wir es als eine Einheit bezeichnen, die Machine Learning-Algorithmen beschleunigt, aber auch nicht mit komplexen Systemen umgehen kann, da es ein Vektor- und Nicht-Tensor-Prozessor ist. Daher sind ihre Fähigkeiten in diesem Bereich sehr begrenzt und konzentrieren sich auf Dinge, die nicht viel Leistung erfordern, wie Spracherkennung, Text- und Audioübersetzung und so weiter. Vergessen wir nicht, dass seine Berechnungskapazität 1.2 TFLOPS beträgt.

Werden wir das HBM-PIM auf unseren PCs sehen?

Xilinx Alveo U280

Die Anwendungen, die Samsung als Beispiel für die Vorteile des HBM-PIM anführt, werden bereits durch andere Komponenten in unseren PCs auf eine höhere Geschwindigkeit beschleunigt, zudem schließen die hohen Herstellungskosten eines solchen Speichertyps bereits einen Einsatz innerhalb eines Zeitraums aus Heimcomputer. Für den Fall, dass Sie auf künstliche Intelligenz spezialisierte Programmierer sind, ist es am sichersten, dass Sie in Ihren Computern Hardware mit einer viel höheren Verarbeitungskapazität als Samsungs HBM-PIM haben.

Tatsächlich scheint es für die Marketingabteilung des südkoreanischen Riesen eine schlechte Wahl zu sein, über KI zu sprechen. Und ja, wir berücksichtigen, dass es die modische Technologie in aller Munde ist, aber wir denken, dass das HBM-PIM noch andere Märkte hat, in denen es seine Fähigkeiten ausspielen kann.

Was sind das für Anwendungen? Es dient beispielsweise dazu, die Suche nach Informationen in großen Datenbanken zu beschleunigen, die Hunderte von Unternehmen täglich nutzen und glauben uns, dass es sich um einen riesigen Markt handelt, der jährlich Millionen von Dollar bewegt. Auf nationaler Ebene und im wissenschaftlichen Rechnen sehen wir es jedenfalls nicht, obwohl die Möglichkeit besteht, dass das noch unfertige HBM3 einen Teil der Ideen des HBM-PIM erbt.