Cuando el campeón Billy Mitchell reventaba las máquinas de Pacman y Donkey Kong en los años 80, sus partidas eran una especie de exhibición de la superioridad del cerebro humano frente a la máquina. "A algunos les gustaría que perdiera", aseguraba con cierta chulería el que está considerado como mejor jugador de Arcade de todos los tiempos. "Debería probar a perder alguna vez". Cuarenta años después, un equipo de investigadores acaba de presentar un sistema de Inteligencia Artificial que es capaz de aprender a jugar solo a estos videojuegos y que podría poner en apuros al mismísimo Mitchell.
El sistema ha aprendido a jugar a 49 videojuegos de Atari como 'Space Invaders' o 'Breakout'.
El trabajo se publica este miércoles en la revista Nature y presenta al mundo un dispositivo de Inteligencia Artificial llamado DQN (deep Q-network) que combina el aprendizaje reforzado con un tipo de red neuronal artificial que imita los sistemas biológicos. En concreto, el programa ha sido capaz de aprender por su cuenta a jugar a 49 videojuegos clásicos de Atari (los típicos de las máquinas recreativas) entre los que estaban, por ejemplo, los famosos 'Space Invaders' y 'Breakout'. Y lo más sorprendente: con la única información de los píxeles y la puntuación, el sistema era capaz de jugar al nivel de un probador profesional de videojuegos y alcanzar más de un 75% de la puntuación conseguida de media por los humanos en más de la mitad de las partidas.
El sistema DQQN también ha mejorado la actuación de otros 43 programas similares preexistentes de inteligencia artificial y es capaz de jugar en una amplia variedad de escenarios, desde carreras de coches en 3D, combates de boxeo o juegos de tiradores. Según sus autores, esto demuestra que el programa es capaz de aprender con éxito un buen número de estrategias óptimas en un buen número de escenarios con un conocimiento previo mínimo.
El sistema DQN funciona emulando las redes neuronales y extrae información de la secuencia de cuatro pantallas simultáneamente, que procesa en diferentes capas de computación. El algoritmo hace una aproximación de todas las acciones que puede realizar y escoge el mejor escenario en función de la puntuación. "Una serie de capas ocultas plenamente conectadas", describen los autores, "predicen el valor de las acciones a partir de todas estas características". La última capa es la de salida, la de la acción que elige llevar a cabo, y es específica de cada videojuego, mientras que el resto de capaz son similares en los 49 juegos.
Un aspecto particularmente importante del sistema es que cuenta con un proceso llamado "aprendizaje supervisado". Básicamente el programa cuenta con una especie de refuerzo que consiste en recompensas numéricas: a medida que se acerca a su objetivo, el sistema "aprende" a repetir ese comportamiento y maximizar las futuras recompensas.
Los videojuegos proporcionan tareas en muchas dimensiones y con un entorno ruidoso.
El cerebro humano queda todavía lejos de estos sistemas de Inteligencia Artificial, ya que no siempre se guía por esta especie de supervisión en función de los objetivos y resuelve muchos más problemas a la vez, pero esta es una aproximación muy prometedora para diseñar programas que aprendan solos y que actúen más rápido. En los principios de la Inteligencia Artificial, recuerdan en Nature, vencer a un jugador profesional de ajedrez era la prueba del quince. Una vez conseguido esto el objetivo ha pasado a ser la comprensión de problemas más difíciles para los computadores, en particular la resolución de tareas en muchas dimensiones y con un entorno ruidoso. Los autores de este trabajo han elegido un modelo más complejo que el ajedrez y tal vez sea la mejor herramienta para este objetivo.
Referencia: Human-level control through deep reinforcement learning (Nature) http://dx.doi.org/10.1038/nature14236