La IA curiosa aprende de los errores jugando a los videojuegos

Me pregunto, ¿qué pasará si presiono este botón? Algoritmos armados con un sentido de la curiosidad (sería como una IA curiosa) se les está enseñando a descubrir y resolver problemas que nunca se habían planteado antes.

Ante el nivel uno de Super Mario Bros, una IA curiosa aprendió a explorar, evitar pozos, esquivar y matar enemigos. Esto podría no sonar impresionante, los algoritmos han estado sorprendiendo a los seres humanos en los videojuegos durante unos años, pero las habilidades de esta IA curiosa, que es como la deberíamos llamar, fueron aprendidas gracias a un deseo intrínseco de descubrir más sobre el funcionamiento del juego.

Los algoritmos de IA convencionales se enseñan mediante refuerzo positivo. Son recompensados por lograr algún tipo de objetivo externo, como subir la puntuación en un videojuego en un punto. Esto los anima a realizar acciones que aumentan su puntuación, como pisar a los enemigos en el caso de Mario, y los desalienta de realizar acciones que no aumentan la puntuación, como caer en un hoyo.

maxresdefault 1 Merca2

Este tipo de enfoque, llamado aprendizaje de refuerzo, se utilizó para crear AlphaGo, el ordenador Go-playing de Google DeepMind que venció al maestro coreano Lee Sedol por cuatro partidos a uno el año pasado. Más de miles de juegos reales y simulados, el algoritmo AlphaGo aprendió a seguir las estrategias que llevaron a la recompensa final: una victoria.

Pero el mundo real no está lleno de recompensas, piensa Deepak Pathak, quien dirigió el estudio en la Universidad de California en Berkeley. «En cambio, los seres humanos tienen una curiosidad innata que les ayuda a aprender«, dice, lo cual puede ser la razón por la cual somos tan buenos en dominar una amplia gama de habilidades sin necesariamente esforzarnos por aprender.

Así que, Pathak se propuso dar a su propio algoritmo de aprendizaje de refuerzo un sentido de curiosidad, para ver si eso sería suficiente para permitirle aprender una variedad de habilidades. El algoritmo de Pathak experimenta una recompensa cuando aumenta la comprensión de su entorno, particularmente las partes que directamente lo afectan. Por lo tanto, en lugar de buscar una recompensa en el mundo del juego, el algoritmo es recompensado al explorar y dominar las habilidades que le llevan a descubrir más cosa sobre el mundo o “la realidad”.

Este tipo de enfoque puede acelerar los tiempos de aprendizaje y mejorar la eficiencia de los algoritmos, dice Max Jaderberg de la empresa de Google, DeepMind. La empresa utilizó una técnica similar el año pasado para enseñar a la IA a explorar un laberinto virtual. Su algoritmo aprendió mucho más rápidamente que los enfoques convencionales de aprendizaje de refuerzo. «Nuestro agente es mucho más rápido y requiere mucha menos experiencia del mundo para entrenar, por lo que es mucho más eficiente en los datos», dice.

rexfeatures 8828108ac Merca2

Un alumno aventajado

Imbuido de curiosidad, la propia IA curiosa de Pathak aprendió a pisotear a los enemigos y saltar sobre cajas en el videojuego del Super Mario Bros y también aprendió a explorar habitaciones lejanas y caminar por los pasillos en otro juego similar al Doom. También fue capaz de aplicar sus habilidades recién adquiridas a otros niveles de Mario a pesar de nunca haberlos visto antes.

Pero hasta ahora este algoritmo para IA curiosa solo se puede aplicar en Mario. En promedio, se ha explorado solo el 30 por ciento del nivel uno, ya que no podía encontrar una forma más allá de una serie de fosos, que solo se podía superar a través de una secuencia de más de 15 pulsaciones del botón. En vez de saltar a su propia muerte, la IA curiosa aprendió a volverse sobre sí misma y detenerse cuando alcanzaba ese punto.

La IA curiosa puede haberse quedado desconcertada porque no tenía idea de lo que había más en el nivel para explorar más allá de la fosa, dice Pathak. No aprendió a tomar consistentemente atajos útiles en el juego, ya que la llevaron a descubrir menos de ese nivel por lo que no pudo saciar su impulso de exploración.

Parker está trabajando ahora para ver si los brazos robóticos pueden aprender por curiosidad captar nuevos objetos. «En lugar de que actúe al azar, podría usar eso para ayudarlo a moverse significativamente», dice. También planea ver si un algoritmo similar podría ser utilizado en robots domésticos similares a la aspiradora Roomba.