No hace mucho tiempo, dominar el antiguo juego chino de Go estaba fuera del alcance de inteligencia artificial. Pero entonces AlphaGo, el jugador de IA de Google DeepMind, comenzó a irse incluso los mejores oponentes humanos en el polvo. Sin embargo, incluso esta IA que bate al mundo necesitaba humanos para aprender. Luego, el miércoles, la nueva versión de DeepMind abandonó a la gente por completo.
AlphaGo Zero ha superado las habilidades de su predecesor, evitando el método tradicional de IA de aprender juegos, que implica ver miles de horas de juego humano. En cambio, simplemente comienza a jugar al azar, perfeccionando sus habilidades jugando repetidamente contra sí mismo. Tres días y 4.9 millones de juegos más tarde, el resultado es la mejor IA de Go-playing del mundo.
"Es más poderoso que los enfoques anteriores porque hemos eliminado las limitaciones del conocimiento humano", dice David Silver, el investigador principal de AlphaGo.
"La humanidad ha acumulado conocimiento de Go de millones de juegos jugados durante miles de años", escriben los autores en su artículo. "En el espacio de unos días ... AlphaGo Zero pudo redescubrir gran parte de este conocimiento de Go, así como estrategias novedosas que proporcionan nuevas ideas sobre los juegos más antiguos".
El enfoque alternativo de AlphaGo Zero le ha permitido descubrir estrategias que los humanos nunca han encontrado. Por ejemplo, aprendió muchos josekis diferentes: secuencias de movimientos que no generan pérdidas netas para ninguno de los lados. Se han escrito muchos josekis durante los miles de años que se ha jugado Go, e inicialmente AlphaGo Zero aprendió muchos de los conocidos. Pero a medida que continuó su auto entrenamiento, comenzó a favorecer secuencias previamente desconocidas.
Para probar estos nuevos movimientos, DeepMind enfrentó a AlphaGo Zero con la versión que venció al campeón mundial de 18, Lee Sedol. En un juego 100 ajuste de cuentas, ganó 100-0. Esto a pesar de solo entrenar durante tres días, en comparación con varios meses para su predecesor. Después de 40 días de entrenamiento, también ganó 89-11 contra una mejor versión de AlphaGo que había derrotado al número uno del mundo Ke Jie (Artículo en Nature, DOI: 10.1038 / nature24270).