En segundo lugar, muchas de las tareas y sus soluciones habrían terminado en los datos de entrenamiento de los principales modelos de IA. Según OpenAI, modelos como GPT-5.2, Claude Opus 4.5 y Gemini 3 Flash Preview fueron capaces de reproducir correcciones casi idénticas de memoria. Por ello, los avances en SWE-bench Verified reflejarían más lo que un modelo ya ha visto que su verdadera habilidad para programar. OpenAI recomienda ahora SWE-bench Pro y señala que está desarrollando evaluaciones propias no públicas.

También podría haber incentivos estratégicos detrás de esta postura. Un benchmark “contaminado” puede hacer que competidores — especialmente modelos open source — parezcan más sólidos y devalúe las clasificaciones. SWE-bench Verified fue durante mucho tiempo una referencia clave para medir capacidades de programación, con OpenAI, Anthropic y Google compitiendo por pequeñas ventajas. En términos generales, el caso subraya que, aunque los benchmarks de IA siguen siendo útiles, su poder explicativo es limitado.