[PFE en France ]Proposition de stage 2013-2014



Laboratoire/Entreprise : Institut de Systèmes Intelligents et de Robotique
Intitulé du stage : Apprentissage d'un répertoire d'actions sur le robot PR2
Adresse et lieu du stage :  Institut de Systèmes Intelligents et de Robotique, Campus Jussieu, 75005 Paris
Nom de la personne à contacter : Stéphane Doncieux
Tél :+33(0) 144278745
Email : stephane.doncieux@upmc.fr

Contenu du stage :

Comment un robot peut-il apprendre par lui-même un répertoire d'actions pertinentes par rapport à la tâche qu'il a à accomplir ? Cette question est habituellement éludée en fournissant directement au robot des actions atomiques qui seront  ensuite  exploitées  par  des  algorithmes  d'apprentissage  (par  exemple  des  algorithmes  d'apprentissage  par renforcement). Donner la possibilité au robot d'acquérir par lui-même ces actions ouvre de nombreuses perspectives,
cela réduit la dépendance aux compétences initiales données au robot et permet donc de s'adapter à un monde ouvert.
Une approche possible pour aborder cette question est de procéder itérativement et de construire un répertoire d'actions d'efficacité croissante. L'objet de ce stage est de développer une telle méthode d'apprentissage en s'appuyant sur des
algorithmes d'optimisation stochastique (algorithmes évolutionnistes). Associés à des mécanismes de promotion de l'exploration [1], ces algorithmes sont susceptibles de générer des comportements de robots non triviaux. Ils ont également inspiré une méthode d'acquisition et de transfert de connaissances en robotique [2]. Les développements
réalisés pendant ce stage s'inspireront de ces travaux sur un scénario d'interaction avec des objets simples pour un robot de type PR2 disponible à l'ISIR (http://www.willowgarage.com/pages/pr2/overview).
Le scénario consistera à générer automatiquement les actions et leur enchaînement pour que le PR2 mette des objets dans une boite, sachant que plusieurs modalités sont possibles (par exemple saisir les objets un à un, pousser les objets, utiliser un grand objet pour pousser beaucoup d'objets simultanément, etc), offrant ainsi la possibilité d'apprendre des actions de complexité variée.

Références :

[1] Mouret, J.-B., & Doncieux, S. (2012). Encouraging Behavioral Diversity in Evolutionary Robotics: An Empirical
Study. Evolutionary computation, 20(1), 91–133. doi:10.1162/EVCO_a_00048
[2] Doncieux, S. (2013). Transfer Learning for Direct Policy Search : A Reward Shaping Approach. In Proceedings of
the IEEE ICDL-EpiRob conference.

Prérequis :

Une bonne pratique du développement en C++ est un pré-requis obligatoire.
Des connaissances minimales en IA, apprentissage machine et vision sont nécessaires de façon à utiliser efficacement
les bibliothèques nécessaires aux expériences envisagées. Le PR2 utilise le middleware ROS pour lequel de nombreux modules sont disponibles pour la perception et la commande des mouvements du robot (http://wiki.ros.org/). De même, la partie évolutionniste s'appuiera sur le framework logiciel SFERES développé à l'ISIR ( http://sferes2.isir.upmc.fr/).
Les développements seront ainsi limités aux éléments spécifiques à l'approche proposée et s'appuieront, autant que possible, sur des modules disponibles sur étagère pour les aspects non spécifiques.
Plus récente Plus ancienne

Formulaire de contact