Por trás deste programa estão nomes muito ilustres no campo da inteligência artificial, como Yoshua Bengio, vencedor do Turing Award 2019, ou Christopher Ré, que ajudou a promover a noção de IA como “software 2.0” nos últimos anos. Hiena consegue o mesmo que ChatGPT com menos treinamento e muito menos processamento.
Embora o programa OpenAI, ChatGPT, mereça toda a admiração que lhe foi dada ultimamente, a realidade é que dificilmente é um software mais complexo do que o habitual. Mas um que requer uma quantidade enorme de treinamento para funcionar e requer um poder notável para responder a desafios cada vez mais complexos. E é aí que pode começar a falhar.
Tudo começou em 2017, quando Ashish Vaswani, então um dos líderes de pesquisa do Google, apresentou o programa Transformer AI, a fundação ou pai dos atuais programas de IA. O problema é que Transformer tinha uma grande falha . Para realizar as tarefas usa o que se chama de “atenção”: o programa recebe a informação em um grupo de símbolos, como palavras, e move essa informação para um novo grupo de símbolos, como a resposta que vemos no ChatGPT.
Essa operação de atenção, ferramenta essencial de todos os programas atuais, incluindo ChatGPT e GPT-4, tem complexidade computacional “quadrática”. Isso basicamente significa que o tempo que leva para que o ChatGPT gere uma resposta aumenta conforme o quadrado da informação que recebe .
Ou seja, se houver muitos dados (muitas palavras, muitas linhas de chat ou pixels de uma imagem), o programa precisará de mais potência do computador para responder. E essa necessidade se multiplica por si mesma até chegar a um limite em que não responde mais adequadamente.
Em um artigo do artigo recente, uma equipe de cientistas da Universidade de Stanford e do instituto MILA do Canadá propôs uma tecnologia que poderia ser muito mais eficiente que o GPT-4 e a chamou de Hyena. Os autores incluem Michael Poli, de Stanford, e Yoshua Bengio, diretor científico da MILA e vencedor do Prêmio Turing 2019 (o equivalente em ciência da computação ao Prêmio Nobel). Bengio é creditado com o desenvolvimento do mecanismo de atenção muito antes do programa Transformer do Google existir. A eles se junta Christopher Ré, que ajudou nos últimos anos a promover a noção de IA como “software 2.0”. Vamos lá, uma seleção interessante de cérebros especializados.
Desempenho multiplicado por 100
Para demonstrar a habilidade da Hiena, os autores a submeteram a diferentes testes. Um deles é conhecido como The Pile, uma coleção de textos de 825 gigabytes ( equivalente a mais de 250,000 livros ) montado em 2020 pela Eleuther.ai, uma equipe de pesquisa de IA sem fins lucrativos. Os textos são obtidos de fontes de “alta qualidade” como PubMed, arXiv, GitHub, US Patent Office e outros, portanto as informações são mais rigorosas do que as discussões que podem ser vistas em Twitter.
O programa Hyena alcançou uma pontuação equivalente ao ChatGPT, mas com 20% menos operações de computação. Em outras tarefas, a Hyena obteve pontuações iguais ou próximas a uma versão do GPT, embora fosse treinado em menos da metade dos dados.
Mas, e aí vem o interessante, quando a equipe do Poli aumentou a demanda do Hyena (foram solicitados mais dados e a troca foi aumentando com o tempo), o programa se comportou melhor. Com 2,048 tokens, que podem ser considerados como palavras, o Hyena leva menos tempo para concluir uma tarefa de linguagem do que o GhatGPT, mas quando atingem 64,000 tokens, os autores observam que ” Aceleração de hiena atinge 100x ”, uma melhoria de desempenho. de cem vezes
Como se tudo isso não bastasse, o programa é muito menor que o GPT-4 ou mesmo o GPT-3. Enquanto o GPT-3, por exemplo, tem 175 bilhões de parâmetros, a maior versão do Hyena tem apenas 1.3 bilhão. Ou seja, tem cem vezes a melhoria de desempenho quando é mais exigido… com cem vezes menos parâmetros. Um avanço mais do que interessante e que poderia deixar o ChatGPT como uma lembrança muito boa… enquanto durou.