>>

Soutenance de thèse : Adrien Jauffret

Titre de la thèse

De l'auto-évaluation aux émotions : Approche neuromimétique et bayésienne de l'apprentissage de comportements complexes impliquant des informations multimodales.

Date et lieu de soutenance

Vendredi 11 juillet 2014, 14h30.

Salle de Conférence, LIMSI-CNRS, Bâtiment 508.
Rue John von Neumann
Campus Universitaire d'Orsay
91405 ORSAY

Résumé

Cette thèse a pour objectif la conception d’une architecture de contrôle bio-inspirée permettant à un robot de naviguer de manière autonome sur de grandes distances. Du point de vue des sciences cognitives, le modèle développé permet également d’améliorer la compréhension des mécanismes biologiques impliqués. De précédents travaux ont montré qu’un modèle de cellules de lieu, enregistrées chez le rat, permettait à un robot mobile d’apprendre des comportements de navigation robustes, tels qu’une ronde ou un retour au nid, à partir d’associations entre lieu et action. L’apprentissage et la reconnaissance d’un lieu ne reposaient alors que sur des informations visuelles. L’ambiguïté de certaines situations visuelles (e.g. un long couloir) ne permettait pas de naviguer dans de grands environnements.

L’ajout d’autres modalités constitue une solution efficace pour augmenter la robustesse de la localisation dans des environnements complexes. Cette solution nous a permis d’identifier les briques minimales nécessaires à la fusion d’informations multimodales, d’abord par le biais d’un conditionnement simple entre 2 modalités sensorielles, puis par la formalisation d’un modèle, plus générique, de prédictions inter-modales. Ce modèle générique permet à un ensemble de modalités d’apprendre à s’inter-prédire dans des situations usuelles. C’est un mécanisme bas niveau qui permet de générer une cohérence perceptive, en ce sens que l’ensemble des modalités sensorielles s’entraident pour ne renvoyer qu’une perception claire et cohérente aux mécanismes décisionnels de plus haut niveau. Les modalités les plus corrélées sont ainsi capables de combler les informations manquantes d’une modalité défaillante (cas pathologique). Ce modèle implique la mise en place d’un système de prédiction et donc une capacité à détecter de la nouveauté dans ses perceptions. Ainsi, le modèle est également capable de détecter une situation inattendue ou anormale et possède donc une capacité d’auto-évaluation : l’évaluation de ses propres perceptions. Partant de ce modèle de prédictions inter-modales, capable d’une première auto-évaluation, nous nous sommes ensuite mis à la recherche des propriétés fondamentales à tout système pour l’évaluation de ses comportements.

La première propriété essentielle a été de constater qu’évaluer un comportement sensorimoteur revient à reconnaître une dynamique entre sensation et action, plutôt que la simple reconnaissance d’un pattern sensoriel. La première brique du modèle encapsule donc ce couplage entre sensation et action, formant ainsi un modèle interne minimaliste des interactions du robot avec son environnement. Ce modèle interne de la dynamique du comportement est la base sur laquelle le système fera des prédictions.

La seconde propriété essentielle est la capacité à extraire l’information importante de ce modèle interne par le biais de calculs statistiques. Il est nécessaire que le robot apprenne à capturer les invariants statistiques en supprimant l’information incohérente. Nous avons donc montré qu’il était possible d’estimer une densité de probabilité par le biais d’une réduction des erreurs quadratiques moyennes, c’est-à-dire un simple conditionnement. Cet apprentissage statistique permet de réaliser l’équivalent d’une inférence bayésienne, puisque le système estime la probabilité de reconnaître un comportement à partir de la reconnaissance d’informations statistiques apprises sur ce comportement. C’est donc par la mise en cascade de simples conditionnements que le système peut apprendre à estimer les moments statistiques d’une dynamique comportementale (moyenne, variance, asymétrie, etc.). La non-reconnaissance de cette dynamique lui permet de détecter qu’une situation est anormale.

Mais détecter un comportement inhabituel ne nous renseigne pas pour autant sur son inefficacité. Le système doit également surveiller l’évolution de cette anomalie dans le temps pour pouvoir juger de la pertinence du comportement. Nous montrerons comment un contrôleur émotionnel peut faire usage de cette détection de nouveauté pour réguler le comportement et ainsi permettre au robot d’utiliser la stratégie la plus adaptée à la situation rencontrée. Pour finir, nous avons mis en place une procédure de frustration permettant au robot de lancer un appel à l’aide lorsqu’il détecte qu’il se retrouve dans une impasse. Ce réseau de neurones permet au robot d’identifier les situations qu’il ne maîtrise pas dans le but d’affiner son apprentissage, à l’instar de certains processus développementaux.

Mots-clefs

robotique bio-inspirée, réseaux de neurones artificiels, navigation sensori-motrice, auto-évaluation, meta-apprentissage, sélection de l’action.

Composition du jury

  • David Filliat, professeur, ENSTA Paris-Tech
  • Nicolas Rougier, directeur de recherche, INRIA
  • Philippe Bonnifait, professeur, Université de technologie de Compiègne
  • Bruno Poucet, professeur, Aix-Marseille Université
  • Michèle Sebag, directrice de recherche, INRIA
  • Philippe Gaussier, professeur, Université de Cergy-Pontoise, ETIS
  • Philippe Tarroux, professeur, Ecole normale supérieur, LIMSI

Retour