O objetivo deste projeto é resolver problemas que envolvem tomada de decisões sequenciais sob incerteza por meio da construção de agentes que aprendem por reforço. Problemas dessa natureza envolvem situações em que um agente (seja ele humano, uma organização ou um programa de computador) precisa tomar uma série de decisões ao longo do tempo, e cada decisão pode influenciar as futuras opções disponíveis e os resultados possíveis.
EXEMPLOS DE APLICAÇÃO:
- Investimento financeiro: um investidor que necessita decidir qual ação comprar, quando comprar, vender, e assim por diante;
- Planejamento de rota: um veículo autônomo deve decidir para onde se mover a cada momento, e cada movimento pode abrir ou fechar diferentes caminhos futuros;
- Logística: projeto de um agente de tomada de decisões para controle de estoque em um ambiente de varejo, onde a demanda dos produtos é incerta e o agente precisa otimizar suas decisões de reposição de estoque ao longo do tempo.
RECURSOS DE INFRAESTRUTURA OBRIGATÓRIOS:
- Ambiente e serviços de nuvem;
- Deep Racer da AWS;
- Linguagem Python;
- Visualização de dados com biblioteca gráfica adequada ao projeto;
- Sistema de controle de versão: plataforma GitHub.