IA entrenada para jugar Pokémon Rojo se comporta de forma extrañamente humana

Juan Ignacio Boscato

Un único desarrollador de software comenzó un viaje para entrenar a una IA para jugar a Pokémon Rojo. 50.000 horas después, está dando pasos demasiado humanos.

Hace casi una década, Twitch Plays Pokemon cautivó los corazones, las mentes y los dedos de Internet. El legendario fenómeno ha inspirado recreaciones de Mizkif y revivals en TikTok.

Ahora el famoso caos de Twitch Plays Pokemon ha inspirado un nuevo experimento que gira en torno al uso de la IA. Sabemos lo que estás pensando y no tiene nada que ver con el extraño final de Pokemon Escarlata y Púrpura.

IA juega Pokémon Rojo por más de 50.000 horas

Peter Whidden, ingeniero de software afincado en Seattle, se ha sometido al minucioso proceso de entrenar a una IA para que juegue a Pokemon Rojo. Publicó un vídeo explicativo en su canal de YouTube que ha cosechado más de 2,5 millones de visitas.

En el vídeo, Whidden explica que la IA ha jugado ya más de 50.000 horas al juego y es capaz de capturar Pokémon y derrotar a los líderes de gimnasio. La IA se basa en un modelo de refuerzo pavloviano que ofrece “incentivos basados en puntos” para subir de nivel a los Pokémon, explorar nuevas zonas y ganar batallas.

Whidden se ha quedado atónito ante los logros de la programación, pero admite que “más fascinante que sus éxitos son las formas en que fracasa”. La IA interpreta el sistema de recompensas a su manera, lo que da lugar a comportamientos sorprendentemente humanos.

Además de pasar horas admirando el paisaje, la IA experimenta algo comparable a un trauma en un incidente en un Centro Pokemon. Depositar accidentalmente un Pokemon en un PC reduce a la mitad el nivel general de su equipo. Esto desencadena una respuesta negativa que asocia con el Centro Pokemon.

No tiene emociones como un ser humano, pero un único acontecimiento con un valor de recompensa extremo puede tener un impacto duradero en su comportamiento“, explica Whidden. “En este caso, perder su Pokemon una sola vez es suficiente para formar una asociación negativa con todo el Centro Pokemon, y la IA lo evitará por completo en todos los juegos futuros.”

La IA de Whidden aún se encuentra en las primeras fases de su aventura Pokemon tras verse atrapada en la frustrante cueva del Monte Luna. Sin embargo, ha informado a su audiencia de que un cambio reciente en su sistema de recompensas ha permitido a la IA salir de la cueva y llegar por fin a Ciudad Cerúlea.

El ingeniero de software también ha hecho público el código de su proyecto y está “emocionado” por la cantidad de gente que lo está utilizando. Un fan avispado ha sido capaz incluso de aplicar su código a Pokemon Cristal, pero no sabemos cómo le ha ido en la Generación 2.