arXiv implements 1-year ban for papers containing incontrovertible evidence of unchecked LLM-generated errors, such as hallucinated references or results. [N]

O principal repositório de pré-publicações científicas do mundo, o arXiv, anunciou uma política de suspensão de um ano para autores que submetam artigos contendo evidências irrefutáveis de erros gerados por LLMs sem checagem — como referências inventadas ou resultados fabricados. A medida não é apenas uma correção de rota acadêmica: ela afeta diretamente a cadeia de produção de conhecimento que alimenta a indústria de IA, cloud e automação no Brasil e no mundo.

O que mudou na política do arXiv

O arXiv sempre teve diretrizes de integridade, mas a novidade é a especificidade e a severidade da punição. Segundo relatos divulgados na comunidade, a penalidade para artigos que contenham evidências incontroversas de alucinações de LLM — especialmente referências bibliográficas que não existem em nenhum banco de dados — é uma proibição de submissão de um ano [3]. Após esse período, o autor ainda precisará que suas submissões seguintes sejam previamente aceitas em um periódico com revisão por pares reconhecida antes de poder publicar novamente no arXiv [5]. Essa barreira extra transforma a infração em algo com consequências profissionais duradouras, não apenas um aviso formal.

O estudo que acendeu o alerta: 146 mil referências falsas

O estopim para a mudança de postura foi um estudo de grande escala que documentou o fenômeno de forma quantitativa. O paper “LLM hallucinations in the wild” analisou massivamente referências em artigos científicos e encontrou um aumento abrupto no número de citações para trabalhos que simplesmente não existem, coincidindo com a adoção generalizada de grandes modelos de linguagem [1]. A estimativa conservadora aponta para pelo menos 146.932 referências alucinadas circulando na literatura [1]. O dado foi repercutido por veículos como a Forbes, que destacou o crescimento alarmante de citações fabricadas e a correlação direta com o uso de ferramentas de IA generativa [2]. Para profissionais que consomem pesquisa como insumo para decisões de produto e arquitetura, esse número é preocupante: significa que uma fatia não trivial da base de conhecimento disponível está contaminada.

Por que isso importa para profissionais de IA e Cloud no Brasil

No ecossistema brasileiro de IA e cloud, o arXiv é uma das principais fontes de referência técnica. Engenheiros de machine learning, arquitetos de soluções e líderes de automação consultam pré-publicações diariamente para avaliar novas abordagens, comparar benchmarks e decidir quais técnicas aplicar em produção. Se essa fonte passa a conter um volume significativo de referências falsas, o risco de decisões técnicas baseadas em fundamentos inexistentes cresce proporcionalmente. Empresas brasileiras que investem em P&D em IA — desde startups até grandes players de banking e varejo que utilizam nuvem para escalar modelos — dependem dessa cadeia de validação. Uma referência alucinada pode levar uma equipe a perseguir uma abordagem teórica que nunca foi demonstrada, desperdiçando meses de trabalho e recursos computacionais pagos em cloud.

O mecanismo das alucinações de referências

LLMs geram texto probabilisticamente, e a criação de citações falsas é um dos modos de falha mais documentados. O modelo combina padrões de formatação acadêmica com nomes de autores plausíveis, títulos coerentes e números de journal que parecem reais, mas que não correspondem a nenhum trabalho publicado. O problema se agrava quando pesquisadores usam LLMs como ferramentas de redação sem verificar manualmente cada citação. O estudo do arXiv mostrou que o pico de referências inexistentes coincide temporalmente com a popularização do ChatGPT e ferramentas similares [1]. Isso não significa que toda referência gerada com auxílio de IA é falsa, mas que a taxa de erro é alta o suficiente para justificar verificação obrigatória — exatamente o que o arXiv agora exige sob pena de banimento.

Impacto na cadeia de automação e MLOps

Profissionais de automação e MLOps operam em um ciclo contínuo de pesquisa, prototipagem e deploy. Quando um pipeline de ML é desenhado com base em um artigo que referencia métodos inexistentes, o problema se propaga: o experimento não reproduz, a métrica não é alcançada e o tempo de entrega do modelo em produção aumenta. Em ambientes de cloud, onde cada hora de GPU tem custo real, a penalidade financeira de seguir uma referência falsa pode ser significativa. Além disso, frameworks de automação que incorporam papers como base de conhecimento — como sistemas RAG que indexam arXiv — passam a ingerir e potencialmente reproduzir essas alucinações, criando um efeito cascata. A medida do arXiv, portanto, não é só acadêmica: ela protege a integridade da cadeia de ferramentas que a indústria constrói sobre a pesquisa aberta.

Como a comunidade técnica está reagindo

A discussão nos fóruns técnicos reflete um espectro de opiniões. No Hacker News, a conversa girou em torno do equilíbrio entre punir o autor descuidado e reconhecer que as ferramentas de IA são novas o suficiente para que muitos pesquisadores ainda não tenham internalizado a necessidade de checagem rigorosa [3]. No Reddit, um thread no subreddit r/MachineLearning trouxe debates sobre se a punição é proporcional ou se o arXiv deveria investir mais em ferramentas automáticas de detecção antes de recorrer a banimentos [3]. Parte da comunidade defende que a medida é necessária como sinalização, enquanto outra parte argumenta que pesquisadores de países em desenvolvimento — incluindo o Brasil — podem ser desproporcionalmente afetados se não tiverem acesso aos mesmos recursos de verificação de referências disponíveis em instituições bem financiadas do hemisfério norte.

O que muda na prática para quem publica e consome pesquisa

Para pesquisadores brasileiros que publicam no arXiv — sejam de universidades como USP, Unicamp e UFRJ, ou de centros de pesquisa corporativos — a mudança exige uma revisão de processo. O uso de LLMs como assistentes de escrita continua permitido, mas a responsabilidade pela verificação de cada citação passa a ser estritamente individual. Na prática, isso significa cruzar cada referência com Google Scholar, Semantic Scholar ou bases como CrossRef antes da submissão. Para quem consome pesquisa, a recomendação é tratar citações em pré-publicações com ceticismo adicional, especialmente em papers que mostram sinais textuais de geração por LLM sem edição cuidadosa — como parágrafos com estruturas repetitivas ou vocabulário estereotipado.

Panorama comparativo de repositórios e políticas

O arXiv não é o único repositório a enfrentar o problema, mas foi o mais agressivo na resposta. A tabela abaixo resume como diferentes plataformas lidam com a questão de conteúdo gerado por IA:

PlataformaPolítica sobre IA generativaPunição por infração
arXivProibição de erros irrefutáveis de LLM (referências falsas, resultados fabricados)Banimento de 1 ano + exigência de aceitação prévia em periódico com peer review [3][5]
PubMed/PMCDeclaração obrigatória de uso de IA, mas sem proibição de ferramentasRetratação ou reject, sem banimento temporal explícito
IEEE XploreIA não pode ser listada como autor; uso deve ser declaradoRejeição do manuscrito, possível banimento por má conduta grave
NeurIPS (conferência)Política em evolução; exige transparência no uso de IARejeição; banimento depende de gravidade da infração

Riscos específicos para o ecossistema brasileiro de IA

O Brasil tem uma comunidade de pesquisa em IA reconhecida globalmente, com participação crescente em conferências de ponta. No entanto, a infraestrutura de verificação bibliográfica nem sempre é a mesma disponível em universidades americanas ou europeias. Ferramentas comerciais de verificação de referências podem ter custos proibitivos para grupos menores, e a dependência de LLMs como apoio à escrita em inglês — idioma dominante no arXiv — é particularmente alta entre pesquisadores lusófonos. Isso cria um cenário onde o risco de alucinação involuntária é maior, e a punição pode atingir desproporcionalmente quem já opera com menos recursos. A comunidade brasileira precisa discutir internamente mecanismos de apoio mútuo, como grupos de revisão de citações antes da submissão, para mitigar esse risco sem abrir mão da produtividade que as ferramentas de IA proporcionam.

O caminho adiante: usar IA com responsabilidade verificável

A mensagem do arXiv não é “não use IA”, mas “use IA sabendo que você é o responsável final pelo que é publicado”. Para profissionais de IA, cloud e automação, isso se traduz em práticas concretas: estabelecer checklists de verificação de referências em pipelines de pesquisa, investir em ferramentas de validação automatizada de citações, e tratar a IA como um assistente de rascunho, não como um coautor. A medida de banimento é severa, mas reflete a gravidade do problema documentado — mais de 146 mil referências falsas não são um erro marginal, são uma corrosão estrutural da base de conhecimento científico [1]. Quem trabalha com IA no Brasil precisa internalizar que a integridade da pesquisa é também um requisito de qualidade de produto.

Perguntas frequentes

O arXiv proibiu totalmente o uso de LLMs na escrita de papers?

Não. A política proíbe especificamente a submissão de artigos que contenham evidências irrefutáveis de erros gerados por LLMs sem checagem, como referências inventadas ou resultados fabricados. O uso de IA como assistente de escrita, revisão ou formatação continua permitido, desde que o autor verifique toda a informação gerada antes da submissão.

Quanto tempo dura o banimento e o que acontece depois?

O banimento é de um ano, durante o qual o autor não pode submeter nenhum trabalho ao arXiv. Após esse período, submissões futuras só serão aceitas se o trabalho já tiver sido aceito em um periódico ou conferência com revisão por pares reconhecida, o que adiciona uma barreira significativa ao retorno [3][5].

Como saber se uma referência é uma alucinação de LLM?

O método mais confiável é buscar a referência diretamente em bases de dados como Google Scholar, Semantic Scholar, DBLP ou CrossRef. Se o título, os autores, o journal e o ano não correspondem a nenhum registro real, trata-se de uma referência alucinada. Sinais textuais como formatação perfeita demais ou combinações improváveis de autores de áreas distintas também podem ser indícios.

Isso afeta apenas a academia ou também a indústria de IA?

Afeta ambas. A indústria de IA depende de pesquisa aberta como insumo para desenvolvimento de produtos, modelos e pipelines de MLOps. Referências falsas podem levar equipes de engenharia a investir tempo e recursos computacionais em abordagens sem fundamentação real. Além disso, sistemas de RAG que indexam o arXiv podem propagar alucinações para aplicações em produção.

Fontes

[1] LLM hallucinations in the wild: Large-scale evidence from non-existent references — arXiv

[2] AI Blamed For Rise In Fabricated Citations Found In Recent Research Papers — Forbes

[3] Discussão sobre a política de banimento do arXiv — Hacker News

[5] arXiv Makes Unchecked AI Errors a One Year Ban Risk — Startup Fortune