En lo que podemos calificar de hito en los enfrentamientos entre hombre y máquina sobre un tablero de juego, una IA ha sido capaz de ganar a otros cinco jugadores (profesionales, todos ellos ganadores de al menos un millón de dólares) en la modalidad de póquer Texas Hold'em sin límite, la primera vez que se logra en un juego así de complejo frente a más de dos jugadores.
En estos últimos años, los juegos de mesa han tenido un papel protagonista en muchos de los hitos de la inteligencia artificial. Dos décadas después de que Deep Blue batiese a Garry Kásparov, las técnicas de aprendizaje por refuerzo, que permiten que sea la propia máquina quien aprenda a jugar compitiendo contra sí misma, están detrás de las últimas victorias de IAs en partidas de ajedrez, shogi y Go.
Pero todos estos hitos se han limitado a juegos para dos jugadores. Sin embargo, concretamente en el caso del póquer lo habitual es jugarlo entre más personas. Pero los juegos de mesa multijugador presentan retos adicionales, ausentes en los de uno contra uno.
La importancia del póquer, por otra parte, reside en que, gracias a los 'faroles' y otros recursos del juego, "ningún otro juego recreativo popular captura los desafíos de la información oculta con la misma eficacia" que el mismo, según explican Noam Brown y Tuomas Sandholm, investigadores de la Univ. Carnegie Mellon y de Facebook. De hecho, varios de los textos más relevantes de la Teoría de Juegos han utilizado el póquer como modo de ilustrar sus conceptos.
La importancia de saber dar respuesta al reto que representa el póquer multijugador radica en que la mayoría de las interacciones estratégicas del mundo real son como este juego: implican información asimétrica y más de dos jugadores, lo que las convierte en algo mucho más complejo.
De ahí la importancia del artículo 'Superhuman AI for multiplayer poker' que acaban de publicar en Science Brown y Sandholm. En el mismo presentan a Pluribus ('muchos', en latín), una IA capaz de derrotar a cinco jugadores profesionales del póquer de la modalidad Texas Hold'em sin límite (una bastante compleja, pues los jugadores desarrollan estrategias de apuestas a largo plazo, que duran decenas de manos).
Lo que tienen en común los juegos que hemos citado antes es que todos ellos, además de ser para dos jugadores, son juegos de suma cero (lo que un jugador pierde, el otro lo gana). Por eso, las IAs exitosas en ese campo ganan adoptando modelos basados en el 'equilibrio de Nash', que parte de asumir que los jugadores están aplicando su mejor estrategia y que ambos conocen la táctica del oponente.
Sin embargo, basarse en el equilibrio de Nash en un juego entre más de dos jugadores suele ser ineficaz, pues resulta bastante complejo por la dificultad para coordinar estrategias entre ellos. De ahí que se imponga la necesidad de cambiar de estrategia.
La combinación de sistemas de aprendizaje reforzado con nuevos algoritmos ha sido clave para dotar de sus capacidades a Pluribus; la IA traza una estrategia para la primera ronda de apuestas en base al resultado de partidas que juega contra otras cinco copias de sí misma en un entorno virtual (unas 10.000 manos a lo largo de 12 días).
Una vez superada esa ronda, Pluribus realiza comprobaciones más detalladas de los posibles movimientos a dar con varias manos de antelación. Sin embargo, no elabora una simulación hasta el final mismo de la partida, dada la gran cantidad de variables a tener en cuenta en un juego como éste.
Esto, según Darren Elias, jugador profesional que posee el récord de títulos del World Poker Tour, permitió al robot "pasar de ser un jugador mediocre a poder competir con los mejores del mundo en unas pocas semanas. Su fortaleza radica en su capacidad para usar estrategias mixtas, del mismo modo en que lo hacen los seres humanos".
Pero, al contrario que nosotros, es capaz de hacerlo de forma perfectamente aleatoria y consistente. Por ejemplo, la IA logró eliminar a sus competidores humanos utilizando con frecuencia apuestas que los humanos acostumbramos a evitar, las llamadas 'donk bets'. En apariencia ilógicas, su único fin es el de confundir al jugador que domina una mano.
Los investigadores creen que la estrategia usada para entrenar a Pluribus puede ir más allá del póquer, y aplicarse en otras situaciones en los que numerosos actores tienen una capacidad limitada para coordinarse, como las subastas, los atascos de tráfico o las finanzas.
Imagen | Pixabay & Facebook
.