Em 5 de abril, a Meta revelou as duas primeiras versões do Llama 4: Scout e Maverick. Esses modelos abertos, projetados para serem nativamente multimodais, podem processar texto, imagens e vídeos. Graças a um processo de destilação baseado no Llama 4 Behemoth, o maior e mais poderoso modelo da série ainda em desenvolvimento, eles se destacam por sua rapidez de execução e eficiência.
Ao contrário das versões anteriores do Llama que usavam uma arquitetura baseada nos Transformers, o Llama 4 é baseado em uma arquitetura de Mixture-of-Experts (MoE), onde apenas alguns parâmetros são ativados para cada requisição. Essa abordagem melhora a eficiência e reduz o custo de computação, com Scout e Maverick ativando "apenas" 17 bilhões de parâmetros por requisição. A Meta também ampliou o suporte de idiomas, que passa de 8 no Llama 3.3, apresentado em dezembro passado, para 12. No entanto, deve-se notar que sua base de conhecimento se encerra em agosto de 2024.

Llama 4 Scout: uma janela de contexto inédita

Scout, com 109 bilhões de parâmetros, é o mais leve da série. Seu principal trunfo é uma janela de contexto que pode chegar a 10 milhões de tokens, um salto em relação aos 128.000 tokens do Llama 3. Além disso, ele pode operar em uma única placa Nvidia H100, tornando-se especialmente adequado para empresas com recursos limitados para tarefas como síntese de múltiplos documentos ou análise aprofundada de atividades de usuários. Segundo as avaliações internas da Meta, o Llama 4 Scout oferece desempenho superior ao Gemma 3, Mistral 3.1 e Gemini 2.0 Flash Lite.

Llama 4 Maverick

Maverick, por sua vez, possui 400 bilhões de parâmetros e 128 especialistas, o que o torna mais eficaz. Com uma janela de contexto de 1 milhão de tokens, ele abre caminho para aplicações como:
  • Agentes empresariais inteligentes, capazes de raciocinar e interagir com segurança com diversas ferramentas e fluxos de trabalho;
  • Sistemas de compreensão de documentos, facilitando a extração de dados estruturados a partir de PDFs, digitalizações e formulários;
  • Assistentes multilíngues, oferecendo respostas nuançadas e adaptadas às especificidades culturais;
  • Ferramentas de criação dedicadas à redação de histórias, conteúdos de marketing e textos personalizados.
Segundo a Meta, o Maverick Llama 4 é o melhor modelo multimodal de sua categoria, superando o GPT-4o e o Gemini 2.0 Flash em uma ampla gama de benchmarks. Ele também atinge resultados comparáveis aos do DeepSeek v3 em raciocínio e programação, enquanto usa menos da metade dos parâmetros ativos.
Além disso, o Llama 4 Maverick oferece uma relação custo-benefício excepcional, com uma versão experimental de chat atingindo uma pontuação ELO de 1417 no LMArena.

Llama 4 Behemoth

A Meta também compartilhou uma visão do Llama 4 Behemoth, o modelo professor de 2 trilhões de parâmetros (2.000 bilhões), que serviu de base para essas 2 primeiras versões. Contando com 288 bilhões de parâmetros ativos com 16 especialistas, ele oferece desempenho de ponta, mesmo não sendo um modelo especializado em raciocínio. Ele se destacaria, segundo a empresa, em matemática, multilinguismo e nos benchmarks de imagens.
Segundo suas avaliações, o Behemoth superaria o GPT-4.5, Claude Sonnet 3.7 e o Gemini 2.0 Pro em diferentes benchmarks.

Disponibilidade

Scout e Maverick estão disponíveis no Llama.com e Hugging Face, distribuídos em código aberto sob a licença da Meta que exige, no entanto, que empresas com mais de 700 milhões de usuários ativos mensais solicitem permissão para usá-los. Embora o Llama 4 já alimente o Meta AI, o assistente de IA de suas plataformas WhatsApp, Messenger, Instagram em cerca de quarenta países, os recursos multimodais estão atualmente disponíveis apenas nos Estados Unidos. Na UE, será necessário aguardar...