SABERES TRANSDISCIPLINARES E ORGÂNICOS.

sábado, 27 de junho de 2026

Harvard e MIT acabaram de testar como os LLMs raciocinam cientificamente. O que falhou não foi precisão, foi julgamento.



Harvard e MIT acabaram de testar como os LLMs raciocinam cientificamente.
O que falhou não foi precisão, foi julgamento.

No cerne deste artigo está uma pergunta simples: os LLMs realmente podem fazer descobertas científicas, ou eles são apenas bons em falar sobre isso?

Um novo parâmetro científico testou algo que a maioria das avaliações de IA evita.

Não se os modelos de linguagem podem soar inteligentes.
Mas se eles conseguem pensar cientificamente.

O que ela revela deve mudar o quanto confiamos em sistemas de IA confiantes.

O que realmente foi testado

Em vez de perguntas isoladas, os pesquisadores avaliaram modelos de acordo com o pensamento científico.

Os modelos precisavam propor hipóteses, testá-las, interpretar resultados e decidir o que fazer a seguir em múltiplas iterações.

Resumindo: um LLM poderia seguir de forma significativa o método científico de ponta a ponta?

Onde os LLMs tiveram um desempenho razoavelmente bom

Isso não é um resultado de "IA é inútil".

Em diferentes modelos, LLMs podiam gerar hipóteses plausíveis e executar testes quando as instruções estavam claras e o feedback estava estruturado.

Isso explica por que eles já funcionam bem como ferramentas assistivas.

Onde eles quebraram

As falhas eram constantes.

1. Execução sem interpretação
LLMs podiam realizar experimentos, mas tinham dificuldade para entender o significado dos resultados.

Raramente questionavam suposições ou reformulavam experimentos quando as evidências eram ambíguas. A interpretação é onde reside o julgamento científico.

2. Raciocínio ruim de longo prazo
A descoberta científica exige saber quando persistir e quando parar.

Em vez disso, os modelos mantiveram caminhos improdutivos, otimizados localmente e soaram metódicos, mas estavam errados na direção.

3. Eles falharam juntos
Modelos diferentes cometeram os mesmos erros e chegaram às mesmas conclusões erradas.

Isso provavelmente reflete dados compartilhados de treinamento e lacunas compartilhadas nesses dados. Esses sistemas herdam os mesmos pontos cegos.

Quando falham, falham em sincronia.

Por que isso importa além da ciência

Qualquer domínio que dependa do julgamento sob incerteza deveria se importar.

Estratégia. Política. Medicina. Risco. Liderança.

Como realmente devemos usar LLMs

A lição é não parar de usá-los. É para parar de confiar no julgamento deles.

LLMs têm mais dificuldade em interpretar resultados nuançados ou inesperados. Quando as coisas ficam complicadas, eles podem travar no caminho errado e ignorar alternativas melhores.

O modelo mental certo é um recém-formado.

Eles podem fazer muito trabalho de campo.
Eles conseguem explorar ideias rapidamente.
Mas as conclusões deles precisam de supervisão.

LLMs podem testar hipóteses.
Eles ainda não conseguem julgá-los de forma confiável.

E até que isso mude, confiança nunca deve ser confundida com compreensão.

Nenhum comentário:

Postar um comentário