Perception visuelle et anticipation motrice dans les systèmes de traitement de l'information biologiques et artificiels (PEVMA)

Funded by :LabEx IMobS3 - Défi 1 (ANR, Région Auvergne, FEDER)
Funding :230000€
Period :2011-2015
Status :In progress
Leaders :Jean-Charles Quinton, Marie Izaute
Partners :Michèle Colomb, Martial Mermillod, Frédéric Bernardin, Kevin Owen Appadoo, Boris Quétard



Project topics:

Active perception


Description

Jusqu'à la dernière décade, les recherches en sciences cognitives et en intelligence artificielle supposaient que le moyen le plus efficace de réaliser des tâches de reconnaissance et de catégorisation visuelle était basé sur un simple processus bottom-up de la perception vers la cognition. Néanmoins des travaux récents en psychologie (Niedenthal, 2007) et en neurosciences cognitives (Gallese, Fadiga, Fogassi, Rizzolatti, 1996 pour des revues de littérature) montrent que des systèmes biologiques évolués utilisent un processus d’incorporation motrice lors de l’anticipation et la compréhension d’actions. L'objectif de cette action transverse est de comprendre l'intérêt computationnel de ce processus d'incorporation motrice pour un système artificiel de reconnaissance visuelle. Deux phases complémentaires (réalisées en parallèles) seront nécessaires pour atteindre cet objectif :

Phase 1 : Carte de saillance perceptive et focalisation attentionnelle

La première phase consistera à déterminer les localisations du champ visuel sur lesquels le système artificiel devra focaliser son attention pour la détection d’événements imprévus en condition normale et dégradée. Des travaux en psychophysique montrent que le vivant oriente automatiquement son attention sur des localisations du champ visuel saillantes en énergie (carte de saillance, Figure 1). L’objectif de cette première série d’étude comportementale sera de déterminer si cette orientation est efficace pour la détection d’événements inattendus (enfants qui traverse la route, animal qui passe devant un tracteur, etc.) en condition normal (beau temps) ou dégradée (pluie, neige, brouillard). Cette partie sera longue mais assez simple méthodologiquement dans la mesure où il suffira d’adapter les protocoles existants (Chauvin, Hérault, & Marendaz, 2002) à des scènes visuelles de conduite automobile normale et dégradée.

Phase 2 : Processus d’incorporation motrice et anticipation d’événements

L’objectif de cette seconde phase est de déterminer un avantage computationnel d’un réseau de neurones artificiels qui fera de l’incorporation motrice (embodied cognition) en comparaison à un réseau de neurones artificiels purement bottom-up lors de la reconnaissance d’événements. Les 2 réseaux sont déjà programmés et devront être adaptés pour être testés en temps réel (Mermillod, Bonin, Mondillon, Alleysson, & Vermeulen, 2010; Mermillod, Vermeulen, Lundqvist, & Niedenthal, 2009). L’objectif de la Phase 1 est donc la localisation de l’événement, l’objectif de la phase 2 est la reconnaissance de cet événement (oiseau, chat, enfant, scooter, sac en plastique, feuilles, jet d’eau, etc.) Sur la base de nos connaissances du réseau qui sera utilisé pour l’embodied cognition (un Simple Recurrent Network), nous pouvons supposer une reconnaissance plus rapide et plus exacte de l’événement mais aussi une meilleure anticipation de la trajectoire de l’événement par rapport au réseau bottom-up (un perceptron multicouches standard).

Par ailleurs, ce réseau sera utilisé pour une reconnaissance plus rapide et plus exacte d’expressions émotionnelles des passagers du véhicule autonome et des piétons présents dans l’environnement (une détection de la peur indiquant un danger potentiel dans l’environnement). Cette partie constituera une piste de recherche prioritaire (devant la détection d’événements inattendus) de ce projet dans la mesure où (i) il s’agit d’une spécialité du LAPSCO et (ii) cet algorithme serait facilement implantable dans un premier temps sur les voitures avec pilote humain (l’objectif étant alors que le système de pilote automatique entre en état d’alerte pour l’aide à la conduite et la mise en sécurité du véhicule au cas où la peur soit détecter sur le visage du pilote (prévenant de la possibilité d’un événement inattendu et dangereux dans l’environnement). Le succès des simulations connexionnistes serait suivi d’une implémentation en hardware de l’interface de reconnaissance émotionnelle (puis de l’interface de reconnaissance visuelle dans un second temps).

Positionnement du projet

On étudie ici comment les êtres humains échantillonnent l'information dans l'environnement à travers leurs actions internes (compétition entre processus cérébraux) ou via leurs actions externes (saccades oculaires ou mouvements du corps). Au niveau implémentation, l'association de l'action du robot (mouvement de caméra par exemple) aux traitements visuels permet d'utiliser des capteurs hétérogènes ou à faible couverture (FoV réduit) mais précision/résolution supérieure.

Cette action est majoritairement expérimentale, se base sur des théories existantes et s'appuie sur une plateforme déjà présente au DLCF (pour la conduite en conditions dégradées), il sera donc possible de mettre rapidement en œuvre les expérimentations. L'implantation des modèles associées peut être logicielle avant d'être matérielle.

Liste des partenaires et disciplines concernés :

  • LAPSCO : psychologie cognitive, perception humaine et modèles neuro-inspirés
  • Centre d'Etude Technique de Lyon (CETE de Lyon) - Département laboratoire de Clermont-Ferrand (DLCF) : vision biologique et conduite automobile
  • Institut Pascal (IP-ISPR) : vision artificielle, architectures matérielles et logicielles, robotique mobile et cognitive