Name: | Description: | Size: | Format: | |
---|---|---|---|---|
5.15 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
A aprendizagem por reforço define um paradigma de aprendizagem comportamental onde o processo de aquisição de conhecimento por parte de um sistema é realizado de forma autónoma. A partir da interacção com o ambiente, são usadas estratégias de selecção de acção para maximizar uma recompensa cumulativa ao longo do tempo. Nesse sentido, este paradigma detém um grande potencial e relevância em múltiplas áreas de aplicação, como agentes inteligentes, aplicações sociais, financeiras, jogos, multimédia, robótica, veículos autónomos, entre outras.
Contudo, a possibilidade de aplicação geral deste método de aprendizagem é limitada pela elevada complexidade computacional, que se traduz na utilização extensiva de recursos. Esta complexidade inerente ao processo de aprendizagem, dificulta uma aprendizagem eficiente, sobretudo em tempo real, pelo que este trabalho pretende contribuir com um levantamento de propostas e abordagens que se aproximem de uma solução viável para este problema em diferentes cenários de operação.
É objectivo desta dissertação o estudo de métodos de aprendizagem por reforço passíveis de operação em contextos de restrição de recursos computacionais, bem como, a definição das condições em que essa operação é viável. Neste sentido, propõe-se a selecção de alguns dos métodos mais promissores no contexto de operação com recursos limitados e efectuar uma implementação de cada um destes, primeiramente sobre uma plataforma de simulação e, posteriormente, numa plataforma física.
A concretização da plataforma física será realizada sob a forma de um agente robótico simples para teste e obtenção de resultados práticos. Em contexto de operação sobre condições específicas, aspectos de eficiência e eficácia serão analisados e comparados entre os diferentes métodos.
Abstract: Reinforcement learning defines a paradigm of behavioural learning where the process of knowledge acquisition, by a system, is carried out independently. From the interaction with the environment, action selection strategies are used to maximize a cumulative reward over time. In this sense, this paradigm has great potential and relevance in multiple application areas such as intelligent agents, social applications, games and multimedia applications, robotics, autonomous vehicles or financial investments, among others. However, the possibility of general application of this learning method expresses its main feature: high computational complexity; which results in extensive use of computational resources. This inherent complexity in the learning process hinders an effective learning, particularly in real time. This work aims to contribute to a survey of proposals and approaches to reach a viable solution in different scenarios of operation. This thesis aims at the study of reinforcement learning methods capable of operation in computational resource constrained contexts, as well as defining the conditions under which the operation is feasible. Thus, this dissertation proposes a selection of some of the most promising methods with a implementation of each; first on a simulation platform and later in physical platform. The embodiment of the physical platform will be made through a simple robot. In the context of specific operating conditions, efficiency and efficacy issues will be analysed and compared between the different methods.
Abstract: Reinforcement learning defines a paradigm of behavioural learning where the process of knowledge acquisition, by a system, is carried out independently. From the interaction with the environment, action selection strategies are used to maximize a cumulative reward over time. In this sense, this paradigm has great potential and relevance in multiple application areas such as intelligent agents, social applications, games and multimedia applications, robotics, autonomous vehicles or financial investments, among others. However, the possibility of general application of this learning method expresses its main feature: high computational complexity; which results in extensive use of computational resources. This inherent complexity in the learning process hinders an effective learning, particularly in real time. This work aims to contribute to a survey of proposals and approaches to reach a viable solution in different scenarios of operation. This thesis aims at the study of reinforcement learning methods capable of operation in computational resource constrained contexts, as well as defining the conditions under which the operation is feasible. Thus, this dissertation proposes a selection of some of the most promising methods with a implementation of each; first on a simulation platform and later in physical platform. The embodiment of the physical platform will be made through a simple robot. In the context of specific operating conditions, efficiency and efficacy issues will be analysed and compared between the different methods.
Description
Trabalho Final de Mestrado para obtenção do grau de Mestre em Engenharia de Redes de Comunicação e Multimédia
Keywords
Agentes inteligentes Intelligent agentes Inteligência artificial Artificial intelligence Aprendizagem por reforço Reinforcement learning Aprendizagem com recursos limitados Learning with limited resources Processos de decisão de Markov Markov decision processes Modelos de agentes híbridos Hybrid agent models Política comportamental Behavioural policy
Citation
RAMADA, José Miguel Carvalho - Aprendizagem por reforço com recursos limitados. Lisboa: Instituto Superior de Engenharia de Lisboa, 2017. Dissertação de mestrado.
Publisher
Instituto Superior de Engenharia de Lisboa