OpenAI cuestiona la fiabilidad del benchmark SWE-bench Verified

Detalles: By Javier Morales; Categoría: Modelos; 3 m; 24 Febrero 2026; 86

OpenAI afirma que el benchmark de programación SWE-bench Verified ha perdido gran parte de su valor como indicador fiable de capacidad para programar. La empresa menciona dos razones principales. En primer lugar, una revisión interna concluyó que al menos el 59,4% de las tareas evaluadas eran defectuosas, ya que las pruebas rechazaban soluciones correctas por exigir detalles específicos de implementación o comprobar funciones no documentadas.

En segundo lugar, muchas de las tareas y sus soluciones habrían terminado en los datos de entrenamiento de los principales modelos de IA. Según OpenAI, modelos como GPT-5.2, Claude Opus 4.5 y Gemini 3 Flash Preview fueron capaces de reproducir correcciones casi idénticas de memoria. Por ello, los avances en SWE-bench Verified reflejarían más lo que un modelo ya ha visto que su verdadera habilidad para programar. OpenAI recomienda ahora SWE-bench Pro y señala que está desarrollando evaluaciones propias no públicas.

También podría haber incentivos estratégicos detrás de esta postura. Un benchmark “contaminado” puede hacer que competidores — especialmente modelos open source — parezcan más sólidos y devalúe las clasificaciones. SWE-bench Verified fue durante mucho tiempo una referencia clave para medir capacidades de programación, con OpenAI, Anthropic y Google compitiendo por pequeñas ventajas. En términos generales, el caso subraya que, aunque los benchmarks de IA siguen siendo útiles, su poder explicativo es limitado.

About The Hosts

Javier Morales

Senior AI Research Analyst

Es investigador y analista senior con base en España. Su trabajo se centra en el estudio de modelos tecnológicos a gran escala, su integración en infraestructuras empresariales y las implicaciones económicas y sociales de su adopción.