Logotipo IT Forum
IT Forum Instituto Itaqui Distrito Itaqui IT Invest
IT Forum - A Comunidade de Tecnologia se Encontra Aqui
  • Todas as notícias
  • Negócios
  • Liderança
  • CIO
  • Carreira
  • IA
  • Cibersegurança
  • Plataformas
  • ESG
  • Vídeos
  • Nossas colunas
  • Colunistas
  • Pesquisas
  • Prêmios
Revistas
  • IT Forum Líderes
  • Series
  • Histórias da TI
  • Ver todos
  • Todos os eventos
  • IT Forum Trancoso
  • IT Forum Forte
  • IT Forum Mata
  • Sobre o HIT
  • Todos os materiais
Todas as notícias Negócios Liderança CIO Carreira IA Cibersegurança Plataformas ESG Vídeos
Nossas colunas Colunistas
Pesquisas Prêmios
Revistas
Todos os videocasts E agora, TI? Entre Tech IT Forum Líderes Series
Todos os eventos Trancoso
Todos os materiais Todos os materiais
  1. Home
  2. Notícias
  3. Inteligência Artificial
  4. Estudo de Oxford alerta que testes de IA podem superestimar capacidades dos modelos
benchmarks
IA
inteligência artificial
Oxford Internet Institute

Estudo de Oxford alerta que testes de IA podem superestimar capacidades dos modelos

Análise de 445 benchmarks aponta falhas metodológicas e falta de rigor científico em avaliações amplamente usadas pela indústria

Publicado:
11/11/2025 às 13:25
Redação
Redação
Leitura
4 minutos
A cena mostra duas telas de computador em um ambiente tecnológico com iluminação azulada, sugerindo um laboratório ou centro de operações avançado. A tela principal exibe código em fundo escuro e uma janela de login com destaque em vermelho, contendo a mensagem “Sign in” e um campo de senha preenchido com caracteres, indicando “UNAUTHORIZED”. A segunda tela também apresenta linhas de código e dados técnicos. Ao fundo, há uma estrutura cilíndrica iluminada, que lembra um equipamento de computação quântica ou servidor de alta tecnologia, reforçando o contexto de segurança cibernética e infraestrutura avançada. (IA)
Imagem: Shutterstock

Um novo estudo do Oxford Internet Institute (OII) coloca em xeque a credibilidade dos testes usados para medir o desempenho de sistemas de inteligência artificial. A pesquisa, realizada em parceria com mais de 30 instituições e publicada na terça-feira (5), analisou 445 benchmarks, os principais testes que servem de base para avaliar a performance de modelos de IA, e concluiu que muitos deles exageram as reais capacidades das máquinas e carecem de rigor científico.

Esses benchmarks são usados por desenvolvedores e pesquisadores para medir avanços técnicos e divulgar conquistas, desde habilidades de programação até raciocínio abstrato. No entanto, o estudo afirma que grande parte desses testes falha em definir com clareza o que pretende medir, reaproveita bases de dados antigas e raramente aplica métodos estatísticos confiáveis para comparar resultados entre modelos.

De acordo com Adam Mahdi, pesquisador sênior do OII e um dos autores principais, muitos testes acabam medindo conceitos diferentes daqueles que dizem avaliar. “Quando pedimos a um modelo de IA para executar uma tarefa, muitas vezes estamos, na prática, medindo algo completamente distinto do que acreditamos estar medindo”, afirmou à NBC News.

Andrew Bean, também coautor do estudo, reforça que até benchmarks amplamente reconhecidos são usados sem a devida cautela. “Devemos desconfiar quando ouvimos afirmações de que um modelo atingiu ‘nível de inteligência de Ph.D.’. Não temos certeza de que essas medições sejam realmente bem-feitas”, disse.

Falta de validade e clareza

Os pesquisadores chamam a atenção para a falta do que denominam “validade de construto”, isto é, a capacidade de um teste realmente medir o fenômeno que se propõe a avaliar. Em muitos casos, os benchmarks reúnem tarefas desconexas sem explicar como elas representam as habilidades que se deseja medir.

Leia mais: Meetkai Brasil lança IA soberana que “raciocina em português”

Um exemplo citado no estudo é o GSM8K, teste amplamente usado para medir raciocínio matemático em modelos de linguagem. Embora os resultados sejam frequentemente interpretados como evidência de competência em matemática, os autores afirmam que isso pode ser um erro de interpretação. “Se uma criança responde corretamente a uma soma simples, não significa que dominou o raciocínio matemático”, observou Mahdi.

Recomendações para melhorar os testes

O estudo propõe oito recomendações para tornar as medições mais precisas e transparentes, entre elas:

  • Definir claramente o escopo e o objetivo de cada benchmark;
  • Criar conjuntos de tarefas que representem melhor as habilidades avaliadas;
  • E, adotar análises estatísticas rigorosas para comparar desempenhos entre modelos.

Nikola Jurkovic, pesquisador do centro METR AI, elogiou as conclusões do trabalho. “Precisamos de mais rigor para interpretar resultados de benchmarks. Essa lista de verificação é um bom ponto de partida para garantir que as medições façam sentido”, afirmou.

O artigo se soma a um movimento crescente dentro da comunidade científica para revisar os métodos de avaliação de IA. Pesquisadores da Anthropic já haviam defendido, em 2024, o uso de testes estatísticos mais robustos para evitar conclusões equivocadas sobre avanços de modelos.

Nos últimos meses, novas abordagens vêm surgindo. A OpenAI, por exemplo, lançou uma série de avaliações que testam o desempenho da IA em tarefas reais de 44 profissões, como corrigir planilhas de vendas ou montar cronogramas de gravação de vídeos. Já o Center for AI Safety, dirigido por Dan Hendrycks, criou benchmarks voltados à automação de trabalhos remotos, buscando medir habilidades com aplicação econômica concreta.

Apesar das críticas, os pesquisadores de Oxford enfatizam que o campo ainda está em construção. “Estamos apenas no início da avaliação científica de sistemas de IA”, concluiu Mahdi.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

Seta para cima
Mais lidas
Notícias

SEIAS moderniza gestão com Sonda Ativas

8 anos atrás

1
Gestão

Embratel é integrada ao grupo Claro empresas e anuncia reestruturação

12 meses atrás

2
Notícias

Gestão de riscos atrai profissionais que buscam qualificação

9 anos atrás

3
Carreira

Coursera: mulheres são apenas 32% dos matriculados em cursos de IA generativa

1 ano atrás

4
CIO

Como usar dados de forma inteligente em iniciativas de open data

4 anos atrás

5
Logo IT Forum
Newsletter
As melhores notícias de tecnologia B2B em primeira mão
Acompanhe todas as novidades diretamente na sua caixa de entrada.
Instagram Linkedin Facebook Tiktok Youtube
1 / 1
benchmarks
IA
inteligência artificial
Oxford Internet Institute
Autor
Redação
Redação
LinkedIn

A redação contempla textos de caráter informativo produzidos pela equipe de jornalistas do IT Forum.

Ver publicações deste autor
Notícias relacionadas
Ver mais Seta para direita
Notícias relacionadas
Ver mais Seta para direita
Capital cognitivo híbrido, o próximo capital das organizações
Gestão
Capital cognitivo híbrido, o próximo capital das organizações

Heriton Duarte

1 mês atrás

Dilema da IA está entre escalar produtividade e preservar confiança
Inteligência Artificial
Dilema da IA está entre escalar produtividade e preservar confiança

Déborah Oliveira

1 mês atrás

“O varejo não compete mais por canal, mas por capacidade de movimentar produtos”, diz CIO da Motz
Inteligência Artificial
“O varejo não compete mais por canal, mas por capacidade de movimentar produtos”, diz CIO da Motz

Pamela Sousa

1 mês atrás

Xerox anuncia nova estrutura global para o mercado da Print
Negócios
Xerox anuncia nova estrutura global para o mercado da Print

Redação

1 mês atrás

Conectando a tecnologia e o futuro dos negócios

Insights e inovações para líderes no IT Forum.

Conteúdos

  • Notícias
  • Colunas
  • Pesquisas
  • Series
  • Revistas
  • Videocasts
  • Eventos

Notícias

  • Todas as notícias
  • Negócios
  • Liderança
  • CIO
  • Carreira
  • Inteligência Artificial
  • Cibersegurança
  • Plataformas
  • Sustentabilidade
  • Vídeos

IT Forum

  • Sobre nós
  • Envie seu Release
  • Mídia Kit
  • Contato
  • Expediente
  • Cultura
  • Distrito Itaqui
  • Anuncie
  • Notícias
  • Colunas
  • Pesquisas
  • Series
  • Revistas
  • Videocasts
  • Eventos
  • Todas as notícias
  • Negócios
  • Liderança
  • CIO
  • Carreira
  • Inteligência Artificial
  • Cibersegurança
  • Plataformas
  • Sustentabilidade
  • Vídeos
  • Sobre nós
  • Envie seu Release
  • Mídia Kit
  • Contato
  • Expediente
  • Cultura
  • Distrito Itaqui
  • Anuncie

Logo do IT Forum
Estr. Dr. Yojiro Takaoka, 4601 - Ingahi, Itapevi - SP, 06696-050
Icone Instagram Icone Linkedin Icone Facebook Icone TikTok Icone YouTube
  • Link Política de privacidade
  • Link Fale conosco
  • Link Termos de uso
  • Link Trabalhe conosco
Copyright © 2026 IT FORUM - Todos os Direitos Reservados