Categoría: Análisis
Javier Morales
Share
Listen On

Los modelos Gemini de Google obtienen los mejores resultados en juegos de mesa sociales. Google DeepMind, en colaboración con Kaggle, amplió la plataforma “Game Arena” con dos nuevos juegos: Hombre Lobo y Póker. La plataforma evalúa modelos de IA en juegos estratégicos: el ajedrez mide el razonamiento lógico, Hombre Lobo pone a prueba habilidades sociales como la comunicación y la detección del engaño, y el póker evalúa la gestión del riesgo y la toma de decisiones con información incompleta.

Según el planteamiento del benchmark, estos juegos permiten mediciones más objetivas de capacidades como planificación y decisiones bajo incertidumbre. En las clasificaciones actuales, Gemini 3 Pro y Gemini 3 Flash ocupan los primeros puestos en todas las tablas. Además, el benchmark de Hombre Lobo también se utiliza para investigación de seguridad: sirve para comprobar si los modelos pueden reconocer intentos de manipulación sin exponerlos a riesgos reales. De acuerdo con el CEO de Google DeepMind, Demis Hassabis, la industria necesita pruebas más exigentes para evaluar los modelos más recientes.

Senior AI Research Analyst
Es investigador y analista senior con base en España. Su trabajo se centra en el estudio de modelos tecnológicos a gran escala, su integración en infraestructuras empresariales y las implicaciones económicas y sociales de su adopción.