Pour une

université

ouverte !

Bruno Scherrer, Chercheur. [English version]

Membre de l'équipe BIGS de l'INRIA(1) (Institut National De Recherche en Informatique et Automatique).
Membre de l'équipe Probabilités et Statistiques de l'IECL (Institut Elie Cartan de Lorraine), à l'université de Lorraine(2).
Membre élu au conseil de laboratoire de l'IECL et au comité de centre INRIA Grand Est (accès restreints).
Membre de la commission parité de l'IECL.

Thèmes de recherche: Contrôle optimal stochastique, apprentissage par renforcement, processus de décisions Markoviens, programmation dynamique approchée, analyse d'algorithmes, processus stochastiques.

Journaux auteurs-payeurs (parfois mal nommés "open access") : Pourquoi je refuse d'être relecteur.

Editeurs véreux: Méfiez vous de VDM Publishing (et de ses filiales Editions Universitaires Européennes, Lap Lambert Academic Publishing, etc...); ils acceptent de publier n'importe quoi, comme ce livre bidon généré aléatoirement par mathgen (accès au contenu absurde de ce livre ici).

Adresse électronique : Prénom.Nom@inria.fr (clé PGP ), Téléphone : +33 (0)3 72 74 54 04, Bureau : 219
Adresse postale 1 : Centre de recherche Inria Nancy - Grand Est, 615 rue du Jardin Botanique, 54600 Villers-lès-Nancy, FRANCE.
Adresse postale 2 : IECL, Université de Lorraine, Site de Nancy, B.P. 70239, F-54506 Vandœuvre-lès-Nancy Cedex, FRANCE.

(1) L'INRIA est "inventeur du monde numérique", de l'informatique au pluriel, fossoyeur de l'article défini, et adepte du dialogue de sourd social. Si vous trouvez que cela sent la transpiration dans les couloirs, c'est peut-être tout à fait normal.
(2) L'université de Lorraine est "proche du périmètre d'excellence requis pour les ISITE, mais avec un spectre d'excellence dont la largeur ne permet pas de se qualifier aux IDEX."


Réforme des retraites du gouvernement Philippe:
Reproduction du simulateur macro-économique du COR: github
Simulation de trajectoires micro-économiques: github, document synthétique
Quelques articles explicatifs sur un blog mediapart
Texte: Réforme des retraites: extension du mauvais traitement des professeurs des écoles

Ré/dés-organisations à l'INRIA:
Avis, motions, pétition, etc...
Texte: Antoine Petit, un patron (un peu trop) "optimiste" de l'INRIA ? - Le coût humain des réduction budgétaires

Travaux (une liste plus exhaustive est disponible sur hal)

Habilitation à diriger des recherches, 28 juin 2016. : manuscrit, transparents.

Cours donné au CIMI à Toulouse (Trimestre Machine Learning) et à l'école Polytechnique: "Introduction to Reinforcement Learning" : transparents, code.

Conférence invitée à AWRL 2017, 15 novembre 2017, Séoul. Two Simple Tricks for Improving the Solution to Large RL Problems.

Conférence invitée EWRL 2016, 3 décembre 2016, Barcelone. On Periodic MDPs.

Sur les algorithmes pour les processus de décision Markoviens / jeux de somme nulle

N. Vieillard, T. Kozuno, B. Scherrer, O. Pietquin, R. Munos, M. Geist. Leverage the Average: an Analysis of Regularization in RL. NeurIPS 2020, sélectionné pour présentation orale (taux de sélection: 1.1%)

N. Vieillard, B. Scherrer, O. Pietquin, M. Geist. Momentum in Reinforcement Learning. AISTATS 2020.

R. Postoyan, M. Granzotto, L. Busoniu, B. Scherrer, D. Nesic and J. Daafouz. Stability guarantees for nonlinear discrete-time systems controlled by approximate value iteration. CDC 2019.

M. Geist, B. Scherrer, O. Pietquin. A Theory of Regularized Markov Decision Processes. ICML 2019.

Y. Efroni, G. Dalal, B. Scherrer, S. Mannor. How to Combine Tree-Search Methods in Reinforcement Learning. AAAI 2019. AAAI-2019 Outstanding paper award.

Y. Efroni, G. Dalal, B. Scherrer, S. Mannor. Multiple-Step Greedy Policies in Online and Approximate Reinforcement Learning. NeurIPS 2018.

Y. Efroni, G. Dalal, B. Scherrer, S. Mannor. Beyond the One Step Greedy Approach in Reinforcement Learning. ICML 2018.

J. Pérolat, B. Piot, M. Geist, B. Scherrer, O. Pietquin. Softened Approximate Policy Iteration for Markov Games. ICML 2016.

J. Pérolat, B. Piot, B. Scherrer, O. Pietquin. On the Use of Non-Stationary Strategies for Solving Two-Player Zero-Sum Markov Games. AISTATS 2016.

B. Scherrer. Improved and Generalized Upper Bounds on the Complexity of Policy Iteration. Mathematics of Operations Research, 2016.
--- Une version courte publiée dans NIPS 2013.
--- En français: Quelques majorants de la complexité d'itérations sur les politiques.

J. Perolat, B. Scherrer, B. Piot and O. Pietquin. Approximate Dynamic Programming for Two-Player Zero-Sum Markov Games. ICML 2015.

B. Lesner and B. Scherrer. Tight Performance Bounds for Approximate Modified Policy Iteration with Non-Stationary Policies.
--- Une version courte a été publiée à ICML 2015.

M. Tagorti and B. Scherrer. Rate of Convergence and Error Bounds for LSTD(λ).
--- Une version courte a été publiée à ICML 2015.
--- En français: Vitesse de convergence et borne d'erreur pour l'algorithme LSTD(λ).

B. Scherrer and M. Geist. Local Policy Search in a Convex Space and Conservative Policy Iteration as Boosted Policy Search. ECML 2014.

B. Scherrer. Approximate Policy Iteration Schemes: A Comparison. ICML 2014. code.
--- En français: Une étude comparative de quelques schémas d'approximation de type iterations sur les politiques.

B. Scherrer, M. Ghavamzadeh, V. Gabillon, B. Lesner and M. Geist. Approximate Modified Policy Iteration and its Application to the Game of Tetris. Journal of Machine Learning Research, 2015.
--- Une version courte publiée dans ICML 2012.
--- Quelques-uns des résultats empiriques ont été publiés dans NIPS 2013.

M. Geist and B. Scherrer. Off-policy Learning with Eligibility Traces: A Survey. Journal of Machine Learning Research, 2014.

B. Scherrer. Performance Bounds for Lambda Policy Iteration and Application to the Game of Tetris. Journal of Machine Learning Research, 2013.
--- Une première version de cet article avec une présentation légèrement différente est accessible sous la forme d'un rapport technique de 2007.

B. Scherrer and B. Lesner. On the Use of Non-Stationary Policies for Stationary Infinite-Horizon Discounted Markov Decision Processes. NIPS 2012, sélectionné pour présentation orale (taux de sélection: 1.5%)

M. Geist, B. Scherrer, A. Lazaric and M. Ghavamzadeh. A Dantzig Selector for Temporal Difference Learning. ICML 2012.
--- En français: Un sélecteur de Dantzig pour l'apprentissage par différences temporelles.

V. Gabillon, A. Lazaric, M. Ghavamzadeh and B. Scherrer. Classification-based Policy Iteration with a Critic. ICML 2011.

B. Scherrer. Should one compute the Temporal Difference fix point or minimize the Bellman Residual? The unified oblique projection view. ICML 2010.

C. Thiéry and B. Scherrer. Least-Squares Lambda Policy Iteration: Bias-Variance Trade-off in Control Problems. ICML 2010.
--- Rapport technique associé: Performance bound for Approximate Optimistic Policy Iteration.
--- En français: Least-Squares Policy Iteration : optimisme et compromis biais-variance pour le contrôle optimal.

M. Petrik and B. Scherrer. Biasing Approximate Dynamic Programming with a Lower Discount Factor. NIPS 2008.

Sur le jeu de Tetris:

V. Gabillon, M. Ghavamzadeh, B. Scherrer. Approximate Dynamic Programming Finally Performs Well in the Game of Tetris. NIPS 2013.

C. Thiéry and B. Scherrer. Building Controllers for Tetris. International Computer Games Association Journal, 2009.
C. Thiéry and B. Scherrer. Improvements on Learning Tetris with Cross Entropy. International Computer Games Association Journal, 2009.
--- En français: C. Thiéry and B. Scherrer. Construction d'un joueur artificiel pour Tetris. RIA, 2009.
--- Code source associé, MdpTetris: page web sur INRIA Gforge, téléchargement direct, documentation

En français: A. Dutech, B. Scherrer and C. Thiéry. La carotte et le bâton... et Tetris. Images des Maths (2013), Interstices (2008).

Divers:

A. Boumaza and B. Scherrer. Convergence and Rate of Convergence of a Foraging Ant Model. CEC 2007.
--- Une version étendue.
--- En français: Convergence et taux de convergence d'un algorithme fourmi simple.

A. Boumaza and B. Scherrer. Optimal control subsumes harmonic control. ICRA 2007.
--- Une version étendue.

B. Scherrer. Asynchronous Neurocomputing for optimal control and reinforcement learning with large state spaces. Neurocomputing, 2005.