Criar
Novo algoritmo do Google reduz o uso de memória em seis vezes. O hardware caro está condenado?

Novo algoritmo do Google reduz o uso de memória em seis vezes. O hardware caro está condenado?

Arkadiy Andrienko

Google Research publicou um artigo sobre o TurboQuant, um algoritmo que reduz a memória necessária para cargas de trabalho de IA em pelo menos seis vezes, tudo isso sem comprometer a precisão das respostas e sem a necessidade de treinamento adicional do modelo.

Durante a geração de texto, os modelos dependem do chamado cache KV—um buffer de memória que armazena dados do mecanismo de atenção previamente computados, permitindo que evitem recalcular isso a cada passo. Mas quanto maior a janela de contexto, mais esse cache cresce. Em certo ponto, ele começa a consumir dezenas de gigabytes de memória, e até mesmo poderosas placas gráficas com muito VRAM ficam impotentes. Métodos tradicionais de quantização têm sido usados há muito tempo para comprimir o cache, mas eles vêm com uma desvantagem oculta: junto com os dados comprimidos, você também precisa armazenar os chamados constantes de quantização—essencialmente uma tabela de consulta, semelhante ao que os arquivadores ZIP ou RAR usam.

Os pesquisadores testaram o TurboQuant em modelos de código aberto como Gemma e Mistral, usando suítes de benchmark de longo contexto como LongBench, Needle In A Haystack, ZeroSCROLLS, RULER e L-Eval. Em tarefas simples, o algoritmo entregou resultados impecáveis, reduzindo o tamanho do cache KV em pelo menos seis vezes. Em cenários mais complexos—como resposta a perguntas, geração de código e sumarização—o ganho não foi tão dramático, mas ainda assim superou o algoritmo de compressão KIVI existente. Em aceleradores NVIDIA H100, a versão de 4 bits do TurboQuant demonstrou um aumento de desempenho de oito vezes.

O mercado já reagiu ao anúncio, com as ações dos principais fabricantes de memória sofrendo uma queda—refletindo uma mudança nas expectativas dos investidores. Se a adoção generalizada do TurboQuant reduzir os requisitos de VRAM, as empresas poderiam cortar custos de hardware ou expandir as janelas de contexto do modelo sem precisar aumentar o poder computacional.

New Google algorithm cuts memory usage sixfold. Is expensive hardware doomed?

Os autores do estudo enfatizam que seu trabalho não é apenas uma solução de engenharia—é uma maneira de conter o consumo de memória em um momento em que a memória está se tornando cada vez mais escassa.

Um algoritmo como este pode realmente ajudar a pôr fim à "crise de memória" no mercado, ou a escassez continuará sendo um problema para os usuários comuns, não importa quais truques de software sejam aplicados? Compartilhe seus pensamentos nos comentários.

    Sobre o autor
    Comentários0