Learning on-device for autonomous game playing

Fernandes, Gonçalo Alexandre de Matos

http://hdl.handle.net/10400.21/22855

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
GoncaloFernandes_MEIC.pdf		5.24 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Fernandes, Gonçalo Alexandre de Matos

Orientador(es)

Véstias, Mário Pereira

Resumo(s)

Abstract This thesis investigates the deployment of Deep Reinforcement Learning (DRL) algorithms on embedded devices for autonomous game playing. Over the years, DRL has demonstrated remarkable performance in a variety of complex tasks, but its computational demands often restrict its applicability to resource-constrained systems. This work explores the feasibility of adapting and optimising DRL methods for execution on embedded hardware. A diverse set of algorithms, including policy-based, value-based, and actor–critic families, were selected, implemented, and benchmarked in a desktop environment before being deployed on a NVIDIA Jetson Orin Nano embedded platform. Multiple optimisation strategies were applied, including data representation adjustments, hyperparameter tuning, mixed precision operations, and memory management. The evaluation was conducted across three Atari game environments of increasing complexity, Pong, Breakout, and Space Invaders. The results demonstrated that DRL algorithms executed on embedded devices can achieve performances above human averages on some games (e.g., a score of 74 on Breakout using a DDQN, compared to the human average of 31), all within reasonable training times of below 8 hours. Among the tested methods, Double Deep Q-Network (DDQN) obtained the strongest overall results, Proximal Policy Optimisation (PPO) proved the most resource-efficient method (never surpassing 2 GB of RAM), and Deep Q-Network (DQN) offered a balanced compromise between accuracy and efficiency, with scores going up to 37 and a memory consumption of only 3 GB. This work established a reusable framework for training and deploying DRL on embedded devices, providing a foundation for further advancements in reinforcement learning and its applications in real-world autonomous systems.

A presente tese investiga a execução de algoritmos de Deep Reinforcement Learning (DRL) em sistemas embebidos para jogar videojogos de forma autónoma. No decorrer dos anos, os algoritmos de DRL demonstraram desempenhos elevados numa variedade de tarefas complexas, mas as suas exigências computacionais limitam a sua aplicabilidade em sistemas com recursos reduzidos. Este trabalho explora a viabilidade de adaptar e otimizar métodos de DRL para execução em hardware embebido. Foram selecionados, implementados e avaliados num ambiente de trabalho uma vasta seleção de algoritmos, pertencentes às famílias policy-based, value-based e actor-critic, antes de serem transferidos para a plataforma embebida NVIDIA Jetson Orin Nano. Foram também aplicadas múltiplas estratégias de otimização, incluindo ajustes na representação dos dados, afinamento de hiperparâmetros, operações de precisão mista e gestão de memória. A avaliação destes algoritmos decorreu sobre três ambientes de jogo de Atari com uma complexidade crescente, o Pong, o Breakout e o Space Invaders. Os resultados demonstraram que os algoritmos de DRL executados em dispositivos embebidos podem alcançar desempenhos acima da média humana (p.ex., 74 pontos no Breakout utilizando uma DDQN, face à média de 31 pontos) em tempos de treino inferiores a 8 horas. Entre os métodos testados, o Double Deep Q-Network (DDQN) obteve os melhores resultados, o Proximal Policy Optimisation (PPO) revelou-se o mais leve em termos de consumo de recursos (nunca ultrapassando os 2 GB de Random Access Memory (RAM)) e o Deep Q-Network (DQN) apresentou um compromisso equilibrado entre precisão e eficiência, com pontuações até 37 pontos e um consumo de memória de somente 3 GB. Este trabalho estabeleceu uma framework reutilizável para treinar e implementar algoritmos de DRL em dispositivos embebidos, constituindo uma base para futuros avanços na aprendizagem por reforço e nas suas aplicações para sistemas autónomos.

Palavras-chave

Embedded devices Deep reinforcement learning Algorithm optimisation Game environments On-device learning Sistemas embebidos Optimização de algoritmos Ambientes de jogo Aprendizagem no dispositivo

URI

http://hdl.handle.net/10400.21/22855

Coleções

ISEL - Eng. Elect. Tel. Comp. - Dissertações de Mestrado

Licença CC

cclicense-by-nc-nd

Ver registo completo