Reinforcement learning in videogames
Villar Casino, Raúl
Casas Roma, Jordi, dir. (Universitat Autònoma de Barcelona. Departament de Ciències de la Computació)
Universitat Autònoma de Barcelona. Escola d'Enginyeria

Título variante: Reinforcement learning en videojocs
Título variante: Reinforcement learning en videojuegos
Fecha: 2024
Resumen: This work aims to delve into the main Reinforcement Learning (RL) models and explore their potential in environments of varying complexity. As a starting point, an exhaustive review of the state-of-the-art was conducted, covering both tabular methods (Q-Learning, Value Iteration, Monte Carlo) and Deep RL (Deep Q-Learning, PPO). Afterwards, the tabular methods were implemented in the FrozenLake game with the aim of comparing their performance in a simple environment and identifying the most effective one, resulting in Value Iteration as the optimal option in this context. Finally, DRL models were trained to play Breakout from screenshots, comparing Deep Q-Learning and PPO. In this case, PPO showed superior performance, consolidating itself as a powerful option for training agents in image-based environments.
Resumen: Aquest treball pretén aprofundir en els principals models d'aprenentatge per reforç (RL) i explorar el seu potencial en entorns de diversa complexitat. Com a punt de partida, es va realitzar una revisió exhaustiva de l'estat de l'art, abastant tant mètodes tabulars (Q-Learning, Value Iteration, MonteCarlo) com Deep RL (Deep Q-Learning, PPO). Posteriorment, es van implementar els mètodes tabulars al joc FrozenLake amb l'objectiu de comparar el seu funcionament en un entorn senzill i identificar el més eficaç, resultant Value Iteration com l'opció òptima en aquest context. Finalment, es van entrenar models DRL per a jugar a Breakout a partir de captures de pantalla, comparant Deep Q-Learning i PPO. En aquest cas, PPO va demostrar un rendiment superior, consolidant-se com una opció potent per a l'entrenament d'agents en entorns basats en imatges.
Resumen: Este trabajo tiene como objetivo profundizar en los principales modelos de Aprendizaje por Refuerzo (RL) y explorar su potencial en entornos de diversa complejidad. Como punto de partida, se realizó una revisión exhaustiva del estado del arte, abarcando tanto métodos tabulares (Q-Learning, Iteración de Valores, Monte Carlo) como Aprendizaje por Refuerzo Profundo (Deep Q-Learning, PPO). Posteriormente, se implementaron los métodos tabulares en el juego FrozenLake con el objetivo de comparar su rendimiento en un entorno sencillo e identificar el más eficaz, resultando la Iteración de Valores como la opción óptima en este contexto. Finalmente, se entrenaron modelos DRL para jugar Breakout a partir de capturas de pantalla, comparando Deep Q-Learning y PPO. En este caso, PPO mostró un rendimiento superior, consolidándose como una opción poderosa para entrenar agentes en entornos basados en imágenes.
Derechos: Aquest document està subjecte a una llicència d'ús Creative Commons. Es permet la reproducció total o parcial i la comunicació pública de l'obra, sempre que no sigui amb finalitats comercials, i sempre que es reconegui l'autoria de l'obra original. No es permet la creació d'obres derivades. Creative Commons
Lengua: Anglès
Titulación: Grau en Enginyeria Informàtica [2502441]
Plan de estudios: Enginyeria Informàtica [958]
Documento: Treball final de grau ; Text
Área temática: Menció Computació
Materia: Aprenentatge per Reforç ; Mètodes Tabulars ; Solucions Aproximades ; Q-Learning ; Deep Q-Learning ; Value Iteration ; Mètodes Montecarlo ; PPO ; Breakout ; Frozenlake ; Gymnasium ; Reinforcement Learning ; Tabular Methods ; Approximate Solutions ; MonteCarlo ; Aprendizaje por Refuerzo ; Métodos Tabulares ; Soluciones Aproximadas ; Iteración de Valores ; Monte Carlo



13 p, 2.2 MB

El registro aparece en las colecciones:
Documentos de investigación > Trabajos de Fin de Grado > Escuela de Ingeniería. TFG

 Registro creado el 2024-03-13, última modificación el 2024-05-04



   Favorit i Compartir