Hinter diesem Programm stehen sehr illustre Namen im Bereich der künstlichen Intelligenz, wie Yoshua Bengio, Gewinner des Turing Award 2019, oder Christopher Ré, der in den letzten Jahren dazu beigetragen hat, den Begriff der KI als „Software 2.0“ voranzutreiben. Hyäne erreicht das gleiche wie ChatGPT mit weniger Training und viel weniger Verarbeitung.
Obwohl das OpenAI-Programm ChatGPT all die Bewunderung verdient, die ihm in letzter Zeit zuteil wurde, ist die Realität, dass es kaum komplexere Software als gewöhnlich ist. Aber eins das erfordert eine enorme Menge an Training, um zu funktionieren und erfordert eine bemerkenswerte Kraft, um auf immer komplexere Herausforderungen zu reagieren. Und dann kann es anfangen zu scheitern.
Alles begann im Jahr 2017, als Ashish Vaswani, damals einer der Forschungsleiter von Google, das Transformer-KI-Programm, die Grundlage oder den Vater aktueller KI-Programme, vorstellte. Das Problem ist, dass Transformer hatte einen großen Fehler . Um die Aufgaben auszuführen, verwendet es das, was als „Aufmerksamkeit“ bekannt ist: Das Programm empfängt die Informationen in einer Gruppe von Symbolen, z. B. Wörtern, und verschiebt diese Informationen in eine neue Gruppe von Symbolen, z. B. die Antwort, die wir in ChatGPT sehen.
Diese Aufmerksamkeitsoperation, das wesentliche Werkzeug aller aktuellen Programme, einschließlich ChatGPT und GPT-4, hat eine „quadratische“ Rechenkomplexität. Das bedeutet im Grunde die Zeit, die es braucht für ChatGPT, um eine Antwort zu generieren, steigt mit dem Quadrat der empfangenen Informationen .
Das heißt, wenn zu viele Daten vorhanden sind (zu viele Wörter, viele Chatzeilen oder Pixel eines Bildes), benötigt das Programm mehr Computerleistung, um zu reagieren. Und dieses Bedürfnis multipliziert sich von selbst, bis es eine Grenze erreicht, an der es nicht mehr angemessen reagiert.
Kurz und neuer artikel, Ein Team von Wissenschaftlern der Stanford University und des kanadischen MILA-Instituts schlug eine Technologie vor, die viel effizienter als GPT-4 sein könnte, und nannte sie Hyena. Zu den Autoren gehören Michael Poli von Stanford und Yoshua Bengio, Chief Scientific Officer von MILA und Gewinner des Turing-Preises 2019 (das Informatikäquivalent des Nobelpreises). Bengio wird die Entwicklung des Aufmerksamkeitsmechanismus zugeschrieben, lange bevor Googles Transformer-Programm existierte. Zu ihnen gesellt sich Christopher Ré, der in den letzten Jahren dazu beigetragen hat, den Begriff der KI als „Software 2.0“ zu fördern. Komm schon, eine interessante Auswahl spezialisierter Gehirne.
Leistung mal 100
Um die Fähigkeiten von Hyena zu demonstrieren, unterzogen die Autoren sie verschiedenen Tests. Eines davon ist bekannt als The Pile, eine 825 GB große Sammlung von Texten ( entspricht mehr als 250,000 Büchern ) zusammengestellt im Jahr 2020 von Eleuther.ai, einem gemeinnützigen KI-Forschungsteam. Die Texte stammen aus „hochwertigen“ Quellen wie PubMed, arXiv, GitHub, dem US-Patentamt und anderen, daher sind die Informationen strenger als die Diskussionen, die man sehen kann Twitter.
Das Hyena-Programm erzielte eine gleichwertige Punktzahl wie ChatGPT, jedoch mit 20 % weniger Rechenoperationen. Bei anderen Aufgaben erzielte Hyena Punktzahlen, die einer Version von GPT gleich oder nahe kamen, obwohl dies der Fall war mit weniger als der Hälfte der Daten trainiert.
Aber, und hier kommt das Interessante, als das Team von Poli die Nachfrage nach Hyena erhöhte (mehr Daten wurden angefordert und der Austausch nahm im Laufe der Zeit zu), verhielt sich das Programm besser. Mit 2,048 Token, die man sich als Wörter vorstellen kann, benötigt Hyena weniger Zeit, um eine Sprachaufgabe zu erledigen als GhatGPT, aber bis sie 64,000 Token erreicht haben, stellen die Autoren fest, dass „ Hyena-Beschleunigungen erreichen das 100-fache “, eine Leistungssteigerung. von hundertmal
Als ob all dies nicht genug wäre, ist das Programm viel kleiner als GPT-4 oder sogar GPT-3. Während GPT-3 zum Beispiel 175 Milliarden Parameter hat, hat die größte Version von Hyena nur 1.3 Milliarden. Das heißt, es hat eine hundertfache Leistungssteigerung, wenn es am meisten verlangt wird … mit hundertmal weniger Parametern. Ein mehr als interessanter Fortschritt und einer, der ChatGPT als sehr schöne Erinnerung hinterlassen könnte … solange es dauerte.