Optativa 2025



INTRODUCCION AL APRENDIZAJE PRO REFUERZO


Este curso ofrece una formación en técnicas de modelado estocástico y aprendizaje automático para la toma de decisiones secuenciales, comenzando con nociones fundamentales de probabilidad, cadenas y procesos de Markov. 
Posteriormente, aborda programación dinámica para obtener soluciones óptimas teóricas en problemas de decisiones markovianas (MDPs) y explora la teoría y aplicaciones de los problemas de bandits multi-brazo, claves en la asignación eficiente de recursos bajo incertidumbre.
 El contenido avanza luego hacia métodos "model-free", enseñando técnicas para lograr un equilibrio óptimo entre exploración y explotación (como algoritmos basados en valor o política). Finalmente, cubre estrategias para escalar a espacios de estados grandes, mediante la aproximación de funciones de valor y políticas, utilizando métodos de aproximación paramétricos. 

Finalemente introduce problemas abiertos actuales en el campo.

El programa equilibra fundamentos teóricos con herramientas prácticas para diseñar agentes inteligentes en entornos complejos y dinámicos.

Varios trabajos prácticos en Python completan las clases teóricas. 



Programa



1- Nociones básicas de probabilidad, cadenas y procesos de Markov,
nociones de convergencia al equilibrio, velocidades de convergencia,

2- Nociones de programación dinámica: soluciones teóricas optimales en problemas 
de procesos de decisiones Markovianas

3- Problemas de “bandits”

4- Model free: técnicas para conseguir un equilibrio entre exploración
y explotación.

5- Espacios de estados grandes, aproximaciones de funciones de valor y de políticas

6- Aprendizaje adversarial





BIBLIOGRAFÍA:

Markov Chains: Gibbs Fields, Monte Carlo Simulation, and Queues (Texts in Applied Mathematics),
 Pierre Bremaud (2001-02-01), Springer.

Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto
Second Edition, in progress MIT Press, Cambridge, MA, 2017

Dynamic programing and optimal control, D. Bertsekas,
SA, 2012

Matthieu Jonckheere, Chiara Mignacco, Gilles Stoltz
Transactions on Machine Learning Research Journal, 2025