Nous Research revela ferramenta revolucionária para treinamento de IA com eficiência 10.000 vezes maior

Postado em: 28/08/2024 | Por: Emerson Alves

O novo otimizador DisTrO da Nous Research promete transformar o treinamento de modelos de inteligência artificial, permitindo que sejam treinados em redes descentralizadas com até 10.000 vezes mais eficiência.

A Nous Research, uma pequena equipe dedicada ao desenvolvimento de modelos de IA personalizados e de código aberto, chamou atenção com o lançamento recente de sua variante permissiva Llama 3.1, Hermes 3. Agora, o grupo anunciou outro avanço significativo: o DisTrO (Distributed Training Over-the-Internet), um novo otimizador que reduz drasticamente a quantidade de informações que precisam ser trocadas entre unidades de processamento gráfico (GPUs) durante cada etapa do treinamento de um modelo de IA.

Revolução no treinamento de IA

Com o DisTrO, modelos poderosos de IA podem ser treinados fora das grandes corporações, através da web aberta, em conexões de internet de consumo, potencialmente por indivíduos ou instituições ao redor do mundo. De acordo com um artigo técnico da Nous Research, o DisTrO já foi testado e demonstrou uma eficiência 857 vezes maior em comparação com o algoritmo de treinamento popular All-Reduce, além de uma redução massiva na quantidade de dados transmitidos durante cada etapa do treinamento (86,8 megabytes em comparação com 74,4 gigabytes), com uma perda mínima no desempenho geral.

Descentralização e inclusão

O DisTrO pode abrir portas para que mais pessoas possam treinar modelos de IA poderosos conforme desejarem, sem depender de uma única empresa para gerenciar e controlar o processo de treinamento. Isso promove maior liberdade de colaboração e experimentação com novas técnicas, algoritmos e modelos, aumentando a competição, impulsionando o progresso e, em última análise, beneficiando a sociedade.

Os desafios do treinamento de IA: requisitos de hardware

O treinamento de IA, especialmente de modelos generativos grandes, geralmente é uma empreitada cara e complexa, devido à necessidade de clusters de GPUs que trocam informações sobre o modelo e os dados de treinamento de forma eficiente. Tradicionalmente, isso exigia que as GPUs estivessem localizadas próximas umas das outras, em ambientes controlados, para minimizar a latência e maximizar a largura de banda. Esse é um dos motivos pelos quais empresas como Tesla, Meta, OpenAI, Microsoft, Google e Anthropic investem pesadamente em superclusters de GPUs em grandes instalações dedicadas.

No entanto, o DisTrO desafia essa abordagem ao reduzir o overhead de comunicação entre GPUs em quatro a cinco ordens de magnitude, permitindo que o treinamento seja realizado de maneira descentralizada, com conexões de internet de consumo, em vez de infraestrutura centralizada e cara.

Como o DisTrO se diferencia

Enquanto métodos tradicionais de treinamento de IA exigem a sincronização completa dos gradientes entre todas as GPUs e dependem de conexões de alta largura de banda, o DisTrO reduz essa necessidade de comunicação, mantendo o desempenho do modelo. Testes iniciais usando o modelo de linguagem Llama 2, da Meta, com 1,2 bilhão de parâmetros, mostraram que o DisTrO alcançou um desempenho de treinamento comparável aos métodos convencionais, mas com muito menos overhead de comunicação.

Os pesquisadores ainda não revelaram completamente como os algoritmos do DisTrO conseguem essa redução de dados sem comprometer a taxa de convergência do treinamento, mas planejam liberar mais detalhes em breve. A pesquisa sugere que a redução de largura de banda necessária pode alcançar até 1000x a 3000x durante a fase de pré-treinamento de modelos de linguagem e até 10.000x durante a fase de pós-treinamento e ajuste fino, sem degradação perceptível na perda.

Impacto e futuro do DisTrO

Além de permitir o treinamento colaborativo de modelos em redes descentralizadas, o DisTrO também pode ter implicações ambientais, ao otimizar o uso da infraestrutura existente e reduzir a necessidade de grandes centros de dados. Isso pode mudar a forma como os modelos em larga escala são treinados, movendo-se de centros de dados centralizados e intensivos em recursos para abordagens mais distribuídas e colaborativas, aproveitando recursos computacionais diversos e geograficamente dispersos.

A Nous Research está convidando outros pesquisadores a colaborar na exploração do potencial do DisTrO. O relatório preliminar e materiais de apoio estão disponíveis no GitHub, e a equipe busca ativamente colaboradores para refinar e expandir essa tecnologia inovadora.

Com DisTrO, a Nous Research não está apenas avançando nas capacidades técnicas do treinamento de IA, mas também promovendo um ecossistema de pesquisa mais inclusivo e resiliente, com o potencial de desbloquear avanços sem precedentes na inteligência artificial.