VII International Summer School in Multimodal Information Retrieval - Techniques & Sciences [ERMITES]


ERMITES 2012

Representations and Decisions in Cognitive Vision

30, 31th of aug. and 1st of sept. 2012 La Seyne-sur-Mer - Var


Link to ERMITES 2012 online proceedings and YouTube Videos.


BOOK PROCEEDING with video links, 507 pages, .pdf 130 Mo


Link to next ERMITES 2013



Orateurs : Y. LeCun, P. Bessiere, S. Thorpe, M. Van Gerven, M. Perreira, P. Courrieu, F. Chamroukhi, X. Halkias, T. Hannagan

Supported by IUF, l'INRIA, Toulon Provence Mediterranee, CNRS, LSIS, GDR I3, ARIA, FRIAM Federation Recherche Informatique et Interaction Aix Marseille, AFCP, USTV

et sous les patronages de la Fédération de Recherche en Informatique et Interactions (FRIIAM), du PEPS RUPTURE INS2I DYNI 'Scaled Swarm Vision', du Labex ARCHIMEDE, et de l'ANR COGNILEGO
Hôtel Kyriad - La Seyne-sur-Mer, accès direct par bateau bus toutes les quinze minutes depuis l'hyper centre de Toulon.

Programme

« Hierarchical Convolutional Vision and Recognition » (2 h)

L'exposé portera sur les modèles convolutionels et modèles profonds (DBN), notamment inspirés de structure corticale. Nous montrerons que les modèles à contrainte parcimonieuse permettent d'ouvrir une optimisation de connectiques latérales, et multi-représentation, propices à l'émergence de concepts.
« Bayesian modeling of perception, learning, decision and action » (2 h)

We present the principles of a Bayesian approach of sensory-motor systems [Bessiere08][Colas10]. We illustrate these principles with few examples coming either from life modeling or robotics. We will present, for instance, a model for perception of shape from motion [Colas06, Colas08], a model of perception of ego-movement from visuo-vestibular information [Laurens07], a model of sensori-motor loop involved in handwriting and reading [Gilet10, Gilet11] and, finally, a model called BOF (Bayesian Occupancy Filter) used in the automotive industry for obstacles detection and avoidance [Coué03, Coué06].
Réf: [Bessiere08] Probabilistic Reasoning and Decision Making in Sensory-Motor Systems
[Colas10] Common bayesian models for common cognitive issues Colas F., Diard J., Bessiere P. Acta Biotheoretica
[Colas08] An unified probabilistic model of the perception of three-dimensional structure from optic flow Colas F., Droulez J., Wexler M., Bessière P., Biological Cybernetics
[Colas06] Perception des objets en mouvement Composition bayésienne du flux optique et du mouvement de l'observateur, PhD
[Gilet11] Bayesian Action-Perception Computational Model: Interaction of Production and Recognition of Cursive Letters Gilet E., Diard J., Bessiere P., PLoS ONE
[Coué06] Bayesian Occupancy Filtering for Multitarget Tracking: an Automotive Application Coué C., Pradalier C., Laugier C., Fraichard T., Bessière P., Int. Journal of Robotics Research

« Percept Decoding with Sparse Latent Variable Models (2 h)

Functional MRI has an exquisite spatial resolution which offers a unique window into the brain . Using sophisticated machine learning techniques, researchers have shown that visual percepts can be decoded from fMRI BOLD responses. In this talk I will give an overview of the status of this field. Particularly, I will discuss the decoding problem from a probabilistic point of view and make the distinction between discriminative and generative approaches. Next to the discussion of models used by other researchers, I will present a number of approaches we have been developing within my group. These approaches range from simple Gaussian models to more complex deep architectures.
Réf:Van_Gerven_Neural_decoding.pdf

« Spiking Vision » (2 h)

Les modèles neuro-inspirés peuvent expliquer certaines variables de notre système de perception, notamment nos temps de réaction et ou de décision. Nous montrons certains modèles 'spike' expliquant des temps de perception subliminale.
« Codes de Densité, Espaces de Formes et Lecture » (2h)

On sait depuis longtemps que, chez l'humain, la reconnaissance des mots imprimés passe par l'identification des lettres qui les composent (McClelland, 1976), mais il a été établi plus récemment qu'une forme de traitement holistique du mot apporte aussi une contribution significative à la reconnaissance (Lété et Pynte, 2003). Cette contribution holistique pourrait s'avérer encore plus critique pour les mots manuscrits, dans lesquels il n'est pas rare que certaines lettres ne soient tout simplement pas identifiables individuellement. La question se pose alors de savoir quelle forme pourraient prendre les représentations holistiques utilisées par la perception visuelle. De nombreuses possibilités sont envisagées dans la littérature, et je me suis pour ma part concentré sur l'exploration d'une hypothèse de représentation globale des formes par des "codes de densité" (Courrieu, 2006, 2007). Un code de densité est une séquence de points dont la distribution spatiale a une densité proportionnelle à la fonction image qu'elle encode. Par construction, la séquence de points permet la comparaison de formes dans des espaces de formes admettant certains invariants non nécessairement affines. D'assez bons résultats sont obtenus dans des espaces de formes "naturelles" (formes végétales, fractales...), mais les méthodes de comparaison développées à ce jour sont encore insuffisantes pour l'écriture manuscrite, particulièrement si on envisage de les appliquer à un vocabulaire de grande taille comme celui des langues naturelles. Je présenterai mes dernières investigations en la matière, dans le cadre d'un projet visant à l'approximation d'une fonction d'un espace de formes manuscrites vers un espace de codes orthographiques.
Réf:Courrieu07.pdf

« Apprentissage de modèles génératifs à processus latent à partir de séquences » (2 h)

Je présenterai de nouveaux modèles probabilistes à variable latente pour la représentation, la discrimination, le clustering et le suivi temporel de données fonctionnelles (courbes temporelles). La première partie de la présentation concernera la modélisation et la segmentation, aussi bien d'une courbe que d'un ensemble de courbes, par un modèle génératif de régression dynamique incorporant un processus latent. Ce modèle est à formulation dynamique de mélange de densités particulièrement adapté aux données temporelles hétérogènes à changement de régimes. La seconde partie traitera de la classification supervisée et du clustering de telles données. Le cas de classification supervisée (discrimination) est traité via une analyse discriminante effectuée directement dans l'espace des courbes et qui se situe dans le cadre de l'analyse de données fonctionnelles. Le cas non supervisé s'appuie sur une formulation spécifique de mélange de densités où chaque composante du mélange est un modèle génératif de régression par morceaux à processus latent. La troisième partie de la présentation concernera le suivi de séquence de données par un modèle autorégressif dynamique régit par un processus latent (logistique ou markovien non-homogène) et dont l'apprentissage s'effectue hors-ligne et en-ligne via l'algorithme EM. Je terminerai par une formulation bayésienne du modèle présenté avec des extensions notamment parcimonieuses. Les approches développées seront illustrées principalement sur des problématiques de diagnostic et de télésurveillance de système complexe et de robotique assistive par la modélisation de données de mouvements humains (comme l'écriture par exemple).
Ref: PhD, Chamroukhi ADAC 2011, Chamroukhi Neurocomp 2010.

« Modélisation attentionnelle de la vision par diffusion et auto-organisation : aspects computationnels et expérimentaux » (2 h)

Dans un premier temps, nous introduirons ce qu'est la modélisation de l'attention visuelle ainsi que ses différents domaines d'application (publicité, ergonomie, vision par ordinateur, traitement d'images et de vidéo, multimédia, etc.). Puis, nous présenterons une approche originale de la modélisation computationnelle de l'attention. Le modèle présenté, temps réel et orienté vision par ordinateur, utilise les propriétés des phénomènes de diffusion et modèles auto-organisés proies-prédateurs afin de simuler efficacement les aspect dynamiques de l'attention visuelle. Les différentes propriétés du modèle seront abordées, ainsi que différentes démonstrations d'application possibles (segmentation d'images et vidéos, recadrage dynamique, estimation de la complexité des images, etc.). Enfin, nous aborderons le problème de la modélisation de l'attention visuelle d'un point de vue plus expérimental. En particulier nous nous arrêterons sur l'étude des biais de centre et de profondeur dans le cas de la vision stéréoscopique et verrons quelles améliorations peuvent être apportées aux modèles existant si l'on tient compte de ces deux facteurs.
Réf:Thèse

" Symmetry Networks: Three Applications to Cognitive Modeling " (2h)

Symmetry networks [1] are feedforward networks whose outputs are invariant under some transformation of the inputs. I will describe three different encounters with symmetry networks in visual word recognition [2], spoken word recognition, and generic vision. Along the way, I will show in particular how these networks can emerge from supervised or unsupervised learning algorithms, what their relationship to the notion of serial order is, and how they can save computational resources. I will also show how symmetry networks can help us understand some very recent and unsettling fmri results [3]."
Ref:

[1] Shawe-Taylor, J. (1989) Building Symmetries into Feedforward Networks. In: Proceedings of First IEE Conference on Artificial Neural Networks, London.
[2] Hannagan T, Dandurand F, Grainger J (2011) Broken Symmetries in a Location-Invariant Word Recognition Network. Neural Computation 23(1):251-283.
[3] Rauschecker AM, Bowen RF, Parvizi J, Wandell BA (2012) Position sensitivity in the visual word form area. Proc Natl Acad Sci USA 10.1073/pnas.1121304109.

« Domain Adaptation and DBNs in Images and Audio» (2 h)

The goal of the talk is to explore the efficacy of DBNs. Deep Belief Networks (DBN) have been successfully applied on popular machine learning tasks. Specifically, when applied on hand-written digit recognition, DBNs have achieved approximate accuracy rates of 98.8%. In an effort to optimize the data representation achieved by the DBN and maximize their descriptive power, recent advances have focused on inducing sparse constraints at each layer of the DBN. This talk will present a generalized theoretical approach for sparse constraints in the DBN using the sparse mixed norm. We explore how these constraints affect the classification accuracy for digit recognition in three different datasets and provide initial estimations for domain adaptation applications through cross-training and testing of the networks. The goal of the talk is to explore the efficacy of DBNs under a domain adaptation framework applied in both images and audio. We will explore different architectures based on general sparse constraints and attempt to introduce a structured sparsity that will be based on the joint modeling of the different data sets.
Réf:Cognilego bib.


Affiche ERMITES 2012

Inscriptions (closes en juin)

24 inscriptions maximum.
Les inscriptions sont ouvertes dès maintenant par simple courriel à ermites@univ-tln.fr renseignant :
nom, prénom
université / laboratoire / entreprise
adresse
téléphone
courriel
formule retenue (voir tarifs ci-dessous)
mode de paiement : Chèque à l'ordre du "trésorier de l'AFCP" ou Bon de Commande pour l'AFCP (laisser la mention utile).

Envoyer ce bon ou ce chèque (scan) par Email à ermites@univ-tln.fr (sujet "paiement 2012"), et aussi impérativement par courrier papier à cette adresse :
M. J. Razik, LSIS Univ. Sud-Toulon Var, Bat R, Av. de l'Université, BP 20132, 83957 La Garde Cedex France.

Pour information les références de l' AFCP sont: Association Francophone de la Communication Parlée
Etablissement : 30003 Guichet : 00990 N° de compte : 00037268733 Clé RIB 15
IBAN : FR 76 30003 00990 00037268733 15 BIC : SOGEFRPP
Domiciliation : Société Générale - Grenoble
N° SIRET : 440 910 354 00016 - code APE : 913E
Siège social : AFCP, Université d'Avignon - 339, Ch. des Meinajaries 84000 Avignon

Tarifs

Formule pension complète (incluant 2 nuitées, 5 repas, 2 pts déj, 6 pauses café / boisson, actes papier, en chambre studio 2 lits / salle de bain):
D1/ Doctorant, Postdoc, Master = 290 euros
D2/ Autres (titulaire, membre entreprise,...) = 420 euros
S1/ idem D1, mais en chambre simple = 370 euros
S2/ idem D2, mais en chambre simple = 500 euros

Formule demi-pension, 5 repas, 6 pauses cafe / boissons et actes papier :
J1/ Doctorant, Postdoc, Master = 178 euros
J2/ Titulaire, membre entreprise,... = 308 euros

Comité de Programme

H. Glotin (prés.), Pr univ. Sud-Toulon Var & IUF, LSIS
Y. LeCun, Pr univ. New York
P. Bessière, DR Collège de France
S. Thorpe, DR CERCO
F. Chamroukhi, MC USTV, LSIS
S. Paris, MC Aix-Marseille Univ (AMU), LSIS
J. Razik, MC univ. Sud-Toulon Var, LSIS

Comité d'Organisation

F. Chamroukhi (prés.)
H. Glotin
J. Razik
S. Paris
R. Abeille, doctorant DynI
T. Maillot, doctorant LSIS
Y. Doh, doctorant DynI
X. Halkhias, Post-doc DynI
P. Machart, doctorant DynI, LSIS et LIF
J.-M. Prévot, Ing. USTV

Lieu

L'hôtel Kyriad prestige de La Seyne sur Mer est desservi par des navettes régulières au départ du centre Toulon (TGV Paris 3h50, Aeroport TOULON-Hyeres), notamment par bateau bus en 15 minutes (2 euros), ou bus, depuis Toulon centre (horaires sur site du réseau Mistral). Principales lignes pour venir de la gare de Toulon : Ligne principale pour venir de la gare de La Seyne-sur-Mer:

===== Contexte =====


Site web de l'édition 2011 avec actes audiovisuels : http://glotin.univ-tln.fr/ERMITES11
Site web de l'édition 2010 avec actes audiovisuels : http://glotin.univ-tln.fr/ERMITES10

Rappel des programmes des journées ERMITES 2010

Jeanny HERAULT (GIPSA/UJF) « Perception Visuelle, faits et modèles »
Jean PETITOT (EHESS/X) « Modèles neurogéométriques de Vision »
Ugo BOSCAIN (CMAP/X) « Anthropomorphic image reconstruction via hypoelliptic diffusion »
Claude TOUZET (LNIA/UNIV. MED) « Modèles cognitifs de l'attention visuelle »
Jean-Paul GAUTHIER (LSIS/USTV) « Sur les mécanismes mis en oeuvre par le système nerveux central »
Hervé LE BORGNE (CEA-LIST) « Analyse en composantes indépendantes visuelles »
Julien MAIRAL (ENS/INRIA WILOW) « Sparse Coding and Dictionary Learning »
Hervé JEGOU (INRIA/IRISA) « Recherche d'image à grande échelle: procédés d'aggrégation & d'indexation »
Sébastien PARIS (LSIS/UNIV. MED) « Dynamique de la vision & auto-localisation Robotique »

Philosophie d'ERMITES

L'Ecole Recherche Multimodale d'Information : Technologies et Sciences fait intervenir, sur 3 jours, devant des chercheurs et ingénieurs en devenir, une dizaine de spécialistes des analyses conjointes de textes, images, sons et vidéos. La recherche d'information est de plus en plus complexe et hasardeuse compte tenu du volume sans cesse croissant des masses disponibles et de leur nature multimodale (images, sons, musique, parole, bio-acoustique, vidéos). Les buts d'ERMITES sont :
- d'analyser les dernières avancées théoriques, et pratiques, des systèmes robustes de recherche d'information multimodale de grande dimension et sur des masses de données,
- de montrer que ces nouveaux concepts forment une base pour un domaine plus vaste que celui d'origine pour lequel ils ont été développés,
- de sensibiliser les jeunes scientifiques au vaste champ scientifique mis en jeu par ces nouvelles avancées aux problèmes de fiabilité, robustesse, apprentissage, sous contrainte du passage à l'échelle.
L'esprit d'ERMITES est de mettre l'accent sur les analyses jointes (transversales sur diverses modalités), peu prises en compte par la majorité des équipes qui restent plutôt dans le pré carré de leur spécialité.

ClusterMap after ERMITES12 :