A IA da Microsoft Funciona em CPUs de Baixo Custo, Economizando 6x Memória

A IA da Microsoft Funciona em CPUs de Baixo Custo, Economizando 6x Memória

Arkadiy Andrienko

Especialistas da Microsoft desenvolveram o modelo de linguagem BitNet b1.58 2B4T, que, apesar de seu tamanho compacto, oferece resultados comparáveis aos de modelos maiores. Sua característica principal é a capacidade de funcionar em CPUs padrão sem a necessidade de aceleradores gráficos. Isso abre o acesso a tecnologias de IA para dispositivos com recursos limitados.

Em vez de cálculos padrão de 16 ou 32 bits, o modelo utiliza operações simplificadas de 1 bit com três estados: -1, 0 e +1. Essa abordagem reduz o uso de memória para 400MB — em comparação, o concorrente mais próximo do Google (Gemma 3 1B) requer 1.4GB. As economias são alcançadas por meio de uma abordagem fundamentalmente diferente para o processamento de dados: em vez de operações matemáticas complexas, o sistema se baseia em algoritmos binários otimizados.

Durante os testes, o BitNet foi comparado com modelos da Meta (LLaMa 3.2 1B), Google (Gemma 3 1B) e Alibaba (Qwen 2.5 1.5B). Apesar de seu tamanho menor, o desenvolvimento da Microsoft alcançou uma pontuação média de 54.19 em testes abrangentes, superando LLaMa (44.90) e Gemma (43.74), e apenas ligeiramente atrás do Qwen (55.23), que ocupa 6.5 vezes mais memória. Em tarefas específicas relacionadas à análise de texto, o BitNet se destacou.

Para máxima eficiência, o modelo requer a estrutura especial bitnet.cpp, disponível no repositório aberto do GitHub. Ferramentas padrão como a biblioteca Transformers não desbloqueiam totalmente seu potencial. Os desenvolvedores observam que a versão atual é otimizada para CPUs, mas atualizações futuras adicionarão suporte para neuroprocessadores e GPUs.

O BitNet é um exemplo da tendência em direção a modelos de IA "leves". Essas soluções reduzem o consumo de energia e permitem que algoritmos complexos sejam executados em dispositivos sem acesso a serviços em nuvem. Isso é especialmente relevante para regiões com internet lenta ou ao lidar com dados confidenciais, onde transmitir informações para centros de dados é indesejável. De acordo com os desenvolvedores, seu objetivo é tornar as tecnologias de IA acessíveis sem atualizações de hardware, o que poderia mudar a abordagem para o desenvolvimento de aplicações com IA.

    Sobre o autor
    Comentários0