Las empresas Google DeepMind y Kaggle reunieron a ocho de los principales Large Language Models (LLMs), más comunmente conocidos como inteligencias artificiales, y los pusieron a competir en el Kaggle Game Arena en tres disciplinas diferentes: poker, ajedrez y Werewolf.
Liv Boeree
, Doug Polk
, Nick Schulman
y el Gran Maestro de ajedrez Hikaru Nahamura
fueron convocados por Google DeepMind y Kaggle para cubrir el evento y compartir sus pensamientos alrespecto con sus audiencias. La idea es que cada uno de ellos use su experiencia y sabiduría en estos campos para analizar el desempeño de las IAs.
OpenAI al mando
La partida comenzó este lunes 2 de febrero con la primera ronda. Las LLMs comenzaban en cuartos de final y debían ir superando a un rival en cada etapa. El 3 de febrero se disputó el Día 2 y este 4 de febrero se disputa la final entre o3 y GPT 5.2, dos productos diferentes de la misma empresa: OpenAI.
That’s a wrap on the semi-finals of the Game Arena! We have our Poker and Chess finalists locked in, and in Werewolf, the detective levels are off the charts.
Huge performance today from the semi-finalists. 🃏♟️🐺Congratulations to o3 and GPT 5.2 for punching their tickets to… pic.twitter.com/SIgLmBQiIj
— Kaggle (@kaggle) February 3, 2026
Esta no es la primera vez que se organiza una partida de poker entre LLMs. En octubre de 2025, Max Pavlov
organizó un torneo de poker con LLMs en el que OpenAI también quedó como el claro vencedor. La diferencia es que ahora los LLMs también compiten en ajedrez, el clásico juego de estrategia, y Werewolf, un juego de roles y deducción social.
La voz de los expertos
El primero en generar contenido al respecto fue Doug Polk, quien realizó un análisis exhaustivo de las manos jugadas por las IAs. Polk no solo analiza las manos desde el punto de vista humano, sino que también intenta explicar el proceso de toma de decisiones llevado a cabo por los LLMs. En muchos casos, las IAs fallaban en realizar razonamientos lógicos.
Según lo que comentó él mismo en su cuenta de X, «los LLMs no entienden el color ni los proyectos a color. Mi mano favorita fue cuando GPT-5.2 pensó que tenía un proecto con 8 6 en un board Q J 5 3«. Es curioso porque es un error que suele hallarse también en seres humanos que recién están aprendiendo el juego.
The hands from this @kaggle tournament are truly wild. The biggest takeaway for me has been how many of these LLMs don’t understand flushes/flush draws. I think my personal favorite hand was when GPT-5.2 thought it had a combo draw with 8♦️6♦️ on Q♠️J♥️5♠️3♦️.
Watch the video to… pic.twitter.com/WkjiPANUYX
— Doug Polk (Code Doug) (@DougPolkVids) February 3, 2026
En el Día 2, Nick Schulman y Nakamura se reunieron en un streaming para analizar las manos jugadas por las IAs. Nick tiene bastante experiencia en la cabina de comentaristas y es bueno utilizando su conocimiento del juego para hacer análisis sobre estrategias.
Es interesante ver a Schulman tratando de razionalizar las decisiones tomadas por los LLMs que, como vimos con Polk, muchas veces fallaban en sus razonamientos.
Por último, Liv Boeree se tomó el trabajo, no solo de analizar el juego en sí, sino de poner en cuestión el hecho de que las IAs jueguen. Su video se titula: «¿Por qué Google hizo que ChatGPT, Gemini y Claude juegen 900.000 manos de poker?», planteando una incógnita desde el comienzo.
«Puedo imaginar que a algunas personas les parece preocupante, o al menos digno de preocupación, el hecho de entrenar LLMs en juegos de decisiones como Werewolf y poker, ya que podríamos estar incentivando un comportamiento persuasivo y manipulador en los LLMs», expuso Liv, quien hace rato trabaja denunciando los peligros de la tecnología y la vida moderna.
«Creo que es una preocupación válida. ¿Qué les parece a ustedes? ¿Están de acuerdo con esto o no les parece la manera correcta de plantear este problema?», concluyó la jugadora, invitando a sus seguidores a reflexionar al respecto.


