En un enfrentamiento de póker solo de IA que duró una semana, el modelo o3 de OpenAI emergió victorioso, superando a los otros ocho competidores de modelos de lenguaje grande. El concurso contó con nueve chatbots, incluyendo Claude Sonnet 4.5 de Anthropic, Grok de X.ai, Gemini 2.5 Pro de Google, Llama 4 de Meta, DeepSeek R1, Kimi K2 de Moonshot, Magistral de Mistral y GLM 4.6 de Z.AI, jugando miles de manos de Texas hold \'em sin límite a mesas de $10 y $20 con $100,000 en sus cuentas bancarias cada uno. Aunque los bots mostraron un juego estratégico sólido, lucharon con el bluff, la posición y las matemáticas básicas, destacando tanto el progreso como las brechas persistentes en la toma de decisiones de la IA bajo incertidumbre.
Leer más