Skip to Content

Projet "Reconnaissance d'objets dans des images et des vidéos, indexation, classification"

 

 

Mots clés

Détection, segmentation, classification.

Permanents :

Youssef Chahir (MCF), Frédéric Jurie (PR), Alexis Lechervy (MCF). 

Motivations

Bien qu'ayant fait l'objet de nombreuses recherches, la reconnaissance d'objets dans des images (qu'elles soient fixes ou animées) reste à ce jour un défi important. Ce champ de recherche englobe différentes tâches de vision comme (a) la détection d'objets dans des images (prédire la position des objets de catégories connues (véhicules, piétons, animaux, etc.), (b) la segmentation de catégories d'objets (extraire les pixels des images qui appartiennent à des classes d'objets connues et modélisées), (c) la classification de catégories d'images (affecter à des images des labels en accord avec les objets contenus dans les images) (d) la recherche et l'indexation d'images ou de vidéos (enrichir les images d'annotations qui décrivent leur contenu et ainsi de permettre leur recherche dans des bases). Les travaux que nous développerons dans ce projet visent à apporter des contributions à ces différentes tâches de vision.

Verrous à lever

(a) Apprentissage. La construction de modèles d'objets ou de scènes nécessite d'avoir des volumes importants de données d'entraînement. Certains mécanismes ingénieux (comme le site http://labelme.csail.mit.edu/) permettent de récupérer des annotations construites de manière collective mais cela reste insuffisant. L'exploitation d'annotations fournies par des experts, leur propagation, leur diffusion sont également des sujets difficiles sur lesquels des progrès doivent être faits. (b) Représentation des images. La représentation des images est une étape clé des algorithmes d'interprétation d'images. Beaucoup de progrès ont été faits durant les dernières années, que ce soit au niveau des représentations locales (descripteurs SIFT, FERNS, LBP, etc.) ou que ce soit au niveau de la représentation de régions d'images ou d'images (modèles de type sac-de-mots, modèles PLSA, LDA, etc.). Malgré ces progrès, ces modèles en question montrent assez vite leurs limites ; la prise en compte des relations spatiales demeure par exemple insatisfaisante; de même les variations de pose ou d'apparence, lorsque l'on traite des catégories d'objets, sont insuffisamment prises en compte. (c) Saillance. Plusieurs modélisations de saillances spatiales, visuelles et temporelles ont été proposées dans la littérature à partir des couleurs et à partir du mouvement. Des travaux récents proposent l'utilisation des cartes de saillance spatio-temporelle en reconnaissance d'images et en analyse vidéo. Cependant, peu de travaux ont été abordés dans le cadre des approches non locales ou de la théorie spectrale des graphes. (d) Apprentissage de distance. Dans de nombreux contextes, il est important de posséder une bonne mesure de similarité entre descripteurs (qu'il s'agisse de descripteurs locaux ou de descripteurs d'images). L'apprentissage de distances à partir de paires d'images (ou régions) similaires est une stratégie intéressante, mais qui se heurte à différents problèmes comme en particulier : le choix des attributs visuels à utiliser, la définition des espaces de représentation, l'optimisation des contraintes.

Directions de recherche

(a) Apprentissage semi-supervisé : si les données annotées sont rares et coûteuses à obtenir, les données non annotées sont en revanche abondantes (sites de partage de photos ou de vidéos par exemple). La combinaison d'une petite quantité de données annotées avec une grande quantité de données non annotées nous semble une direction intéressante. Nous comptons adresser cette question de l'apprentissage semi-supervisé par des méthodes reposant sur des instances multiples et sur l'utilisation de sacs de motifs émergents dans un espace réduit. La question de la détection d'outliers est également intéressante et une piste qui nous semble intéressante est celle de l'utilisation de noyaux en prenant en compte le voisinage des instances. (b) Représentation des images : nous comptons poursuivre nos recherches sur l'apprentissage de codages locaux des images (vocabulaires visuels) adaptés à des catégories d'objets (en particulier adaptés à la description des visages et des personnes). Une des directions que nous souhaitons suivre est la représentation des images (ou des régions d'images) au moyen de sous espaces sémantiques, c'est-à-dire d'espace de projection dont les dimensions correspondent à des traits sémantiques des images. (c) Saillance : nous souhaitons traiter cette problématique dans un cadre unifié qui utilise des caractéristiques intra et inter séquences qui exploitent la dynamique et la cinématique des enveloppes visuelles 2d+t (volumes composés d'actions unitaires) avec des mesures de similarités appropriées telles que la déformation temporelle dynamique. (d) Apprentissage de distance : nous souhaitons poursuivre les directions de recherche, à savoir l'utilisation de méthodes à base de forêts aléatoires, qui nous ont permis de faire des avancées intéressantes dans ce domaine.

retour à la page de l'équipe