Meta é acusada de manipular benchmarks de IA do Llama 4

Resultados do Llama 4 em testes chamaram a atenção (ilustração: Vitor Pádua/Tecnoblog)

Especialistas em inteligência artificial observaram que a Meta enviou para um teste de benchmarking uma versão do Llama 4 diferente da que foi liberada para o público. A empresa confirma ter usado uma versão experimental, mas diz fazer o mesmo com muitas variantes customizadas.

Na documentação publicada com o lançamento do Llama 4, a Meta afirma que o teste LMArena foi feito usando uma versão experimental do modelo, “otimizada para conversacionalidade”, nas palavras da própria empresa.

O resultado do Llama 4 no LMArena é muito bom: o modelo é o atual segundo colocado na pontuação Elo. Com 1.417 pontos, ele está acima do 4o da OpenAI e abaixo apenas do Gemini 2.5 Pro, do Google.

Llama 4 foi bem em “batalhas” contra outros modelos de IA (ilustração: Vitor Pádua/Tecnoblog)

O LMArena é uma ferramenta de benchmarking de código aberto e colaborativa. Nos testes, usuários fazem uma mesma pergunta para dois modelos de IA distintos e votam em qual deu a melhor resposta. Quanto maior o número de vitórias na “arena”, maior a pontuação Elo (sim, o mesmo sistema de pontuação usado no xadrez, por exemplo).

Em um email enviado ao The Verge, a Meta confirma ter usado uma versão experimental do Llama 4, mas diz que faz testes “com todos os tipos de variantes customizadas”.

A Llama-4-Maverick-03-26-Experimental é uma dessas e “também teve um bom desempenho no LMArena”, nas palavras de um porta-voz da companhia. Agora, a Meta afirma estar animada para ver o que os desenvolvedores farão com o Llama 4 de código aberto, que pode ser customizado.

O que a LMArena vai fazer a respeito?

Apesar de a Meta minimizar os questionamentos, os administradores do LMArena disseram que “a interpretação da Meta de nossas políticas não corresponde ao que esperamos dos fornecedores de modelos” e que a empresa deveria ter deixado claro que o modelo usado era otimizado.

Por isso, a versão final do Llama 4 Maverick será adicionada às votações, e os resultados devem ser divulgados em breve.

Com informações do TechCrunch, Gizmodo e The Verge

Populares

Britney Spears estrela nova coleção da Balenciaga, com peças de R$ 4 mil a R$ 9 mil

Gabriel Spalone: a mente acelerada de um jovem que pensa sem fronteiras

Projeto “Teste de detecção de DNA-HPV” da UEA realiza exames gratuitos para mulheres

Bispo Geldi Batista ex de Isa Reis apresenta sua nova namorada

Tati Zaqui: Conheça a trajetória de sua carreira que é um sucesso

A vida amorosa de Juliana Caetano, a cantora mais sexy do forró

Saiba porque os Yanomamis corre risco a sua sobrevivência

Porque os franceses odeiam a série Emily em Paris.

Britney Spears estrela nova coleção da Balenciaga, com peças de R$ 4 mil a R$ 9 mil

Shakira consolida posto de maior bilheteria feminina de 2025

Dez produções com Wagner Moura para assistir enquanto espera “O Agente Secreto”

Pabllo Vittar virou mãe! Cabra de Nicole Bahls, que leva nome da drag queen, ganha filhote

Britney Spears estrela nova coleção da Balenciaga, com peças de R$ 4 mil a R$ 9 mil

Dez produções com Wagner Moura para assistir enquanto espera “O Agente Secreto”

Pabllo Vittar virou mãe! Cabra de Nicole Bahls, que leva nome da drag queen, ganha filhote

Oi? Sydney Sweeney lança sabonete produzido com água do próprio banho

Meta é acusada de manipular benchmarks de IA do Llama 4

Britney Spears estrela nova coleção da Balenciaga, com peças de R$ 4 mil a R$ 9 mil

Gabriel Spalone: a mente acelerada de um jovem que pensa sem fronteiras

Projeto “Teste de detecção de DNA-HPV” da UEA realiza exames gratuitos para mulheres

Diddy tentou papel de James Brown antes de escândalo vir à tona, revela ex-assistente em tribunal

#SextouMusical: Miley Cyrus, Lorde, Tate McRae, Ana Castela e muito mais!!!

Alok usará drones para reflorestar a Mata Atlântica em parceria com a SOS Mata Atlântica

Miley Cyrus faz prévia intimista de novo álbum e surpreende fãs com performance ao vivo

Britney Spears estrela nova coleção da Balenciaga, com peças de R$ 4 mil a R$ 9 mil

Gabriel Spalone: a mente acelerada de um jovem que pensa sem fronteiras

Projeto “Teste de detecção de DNA-HPV” da UEA realiza exames gratuitos para mulheres

Dez produções com Wagner Moura para assistir enquanto espera “O Agente Secreto”

Aulão ao vivo do Pré-Vest UEA oferece mais de três horas de conteúdo para candidatos

Populares

O que a LMArena vai fazer a respeito?

Conteúdo Relacionado