VI Summer School for advanced studies in Multimodal Information Retrieval - [ERMITES]

27, 28 & 29th sept 2011, Porquerolles la Perle des Iles d'Or - Var

ERMITES 2011

Sparse Decomposition, Contraction and Structuration

for Complex Scene Analysis

ERMITES 2011 Book & video

Link to previous ERMITES editions.


Speakers : Adam O. ; Bengio Y. ; Glotin H. ; Halkias X. ; Haton J.-P. ; Kowalski S. ; Mallat S. ; Razik J.


Soutenue par l'INRIA, Toulon Provence Mediterranee, CNRS, LSIS, GDR I3, ARIA, AFCP, USTV

et sous les patronages de la Fédération de Recherche en Informatique et Interactions (FRIIAM) et du PEPS RUPTURE CNRS INS2I DYNI 'Vision intelligente a l'échelle'.

Programme

Ouverture dès 10h le 27 septembre, centre IGESA Porquerolles
"Analyse de scène et reconnaissance stochastique de la parole" (2h)

Les difficultés spécifiques de la reconnaissance de la parole sont nombreuses: nombre variable de locuteurs connus ou inconnus, microphones distants, bruit ambiant, effets liés aux locaux (écho, réverbération...). Cet exposé rappellera les principes de la reconnaissance automatique de la parole et présentera les niveaux fonctionnels d'un système : prise de son, paramétrisation, prise de décision. Nous insisterons sur les modèles stochastiques actuellement les plus performants pour la reconnaissance de la parole et présenterons les derniers développements du domaine. L'exposé sera illustré d'exemples pratiques.
"Sparsity and structure for audio signal: a *-lasso therapy" (2h)

We are interested in sparse decomposition/approximation of audio signals in a dictionary of waveforms. A classical variational approach is the use of a l2 data term regularized by a well chosen norm on the synthesis coefficients. The l1 norm (known as the "lasso") is popular to obtain sparse decompositions, but does not favor any kind of structure. We introduce then mixed norms and generalized shrinkage operators to promote some different, structured, forms of sparsity. Relevance of such approaches is illustrated in the context of underdetermined reverberant source separation, where different convex approaches are compared to deal with such a difficult problem.
"Apprentissage non-supervisé de représentations profondes" (4h)

Apprentissage non-supervisé de représentations profondes L'apprentissage non-supervisé de représentations distribuées s'est avéré une clé essentielle des succès récents d'une famille d'algorithme d'apprentissage appelés 'profonds'. Ceux-ci construisent plusieurs niveaux de représentation distribuée, permettant découvrir plusieurs niveaux d'abstractions, et d'améliorer les performance sur des tâches supervisées de prédiction ou de classification (en particulier quand le nombre d'exemples étiquetés est petit), et de transférer les connaissances apprises d'un ou plusieurs domaines (ou tâches) vers d'autres. Le but ultime est de permettre à l'ordinateur de découvrir les facteurs explicatifs des variations présentes dans les données. La présentation inclura une discussion des applications récentes de ces méthodes dans les domaine de la vision, du traitement du langage naturel, de la parole et de la musique.
"Scattering & Matching Pursuit for Acoustic Sources Separation" (3h)

Signal classes are usually invariant to groups of operators such as translations or scalings, and to larger Lie groups of deformations. Invariants and dimensionality reduction play major roles for classification, as opposed to sparse complete representations. Constructing invariants while keeping discriminant information deeply constraints the representation. We introduce a non-linear invariant representation, that reminds quantum scattering. It is implemented through the architecture of a deep neural network, but learning is needed at a single layer, and computed with O(N) operations. State of the art results are shown for object classification of deformed patterns and random textures. Part of this work is described in  http://arxiv.org/abs/1011.3023.
"Apprentissage de dictionnaire : de la parole au chant de baleine" (2h)

L'utilisation des méthodes de dictionary learning non supervisé a montré dans le domaine de l'image être la méthode de l'état de l'art pour des tâches de classification. Dans le domaine de la parole, nous avons montré que ces méthodes permettent également de dépasser les classiques modèles GMM en reconnaissance de phonèmes, tout en restant non supervisé. Nous avons également étudié l'apprentissage non supervisé par dictionary learning dans le cadre de l'analyse et la découverte d'un lexique associé au chant des baleines. L'objectif est d'obtenir des descripteurs plus génériques et plus efficaces que ceux habituellement extraits. Ceci permet également de déterminer des formes récurrentes dans la structure des chants entre les différents individus d'une population et sur plusieurs années. Ces travaux menés en collaboration avec S. Paris et H. Glotin sont illustrés de démonstrations.
"Detection and Tracking of Dolphin Vocalizations" (2h)

Audio processing has widely affected the field of animal bioacoustics. Many audio engineers are now using their knowledge to advance ou r understanding of the world that surrounds us and especially that of animals. This work falls into that category, where the principles of signal processing, communication theory and machine learning are used to analyze the world of marine mammals and specifically dolphins.

In this talk, several algorithms are proposed for the successful detection of dolphin calls in long recordings. Starting with the simple and widely used thresholding detectors, several advancements are proposed, based on the data, leading to more intricate classifiers like Support Vector Machines (SVM) that are known for their robustness.

Lastly, two systems for pitch extraction are provided. The first system is based on a probabilistic framework and deals with the extraction of dolphin whistle calls while providing a first attempt on resolving simple overlaps. The second system assumes that the desired calls have already been detected and proceeds to identify the pitch for both whistle and burst calls using hierarchically driven Hidden Markov Models (HMM).
"Estimation de densité de population de baleine par analyse de leurs chants" (2h)

L'étude des cétacés passe par leurs observations. Plusieurs méthodes sont possibles et récemment le recours à l'acoustique passive a montré un grand intérêt, soit pour des observations d'espèces discrètes et/ou pour des observations à distance et/ou pour des observations continues.

Les techniques développées, relevant de l'acoustique sous-marine, l'instrumentation, du traitement du signal, de la reconnaissance des formes, ont pour but de détecter les sons émis par ces mammifères marins, de les classer, et de localiser lorsque cela est possible.

Nous présenterons une nouvelle activité dans ce domaine qui consiste à estimer la taille du groupe de cétacés à partir de leurs émissions sonores et des extrapolations statistiques. Plusieurs exemples sur différentes espèces seront présentés comme illustrations.
"Suivi et reconstruction du comportement de cachalots par acoustique passive" (2h)

Nous posons la problématique de l'analyse de scène acoustique au travers de la structuration de signaux bioacoustiques acquis dans des conditions variables. Nous nous intéresserons essentiellement au plus grand des odontocètes, le cachalot (45 tonnes, 18 mètres de long). Cet extraordinaire plongeur, qui sonde plus d'une heure à moins 2000 mètres, possède le biosonar le plus puissant.

Avec plusieurs canaux (ici 4 hydrophones), nous montrons qu'il est possible de reconstruire la trajectoire de ses plongées écoutées à plusieurs kilomètres (voir démonstrations 3D ici et ).

Nous montrons aussi que d'autres informations sont mesurables sur un seul canal, comme la taille de l'animal, son comportement. Des démonstrations sont faites sur des signaux que nous avons enregistrés au large de Porquerolles cette année, ou issus de bases de référence de la communauté bioacoustique notamment enregistrées au Bahamas par l'AUTEC.


Clôture des journées le 29 septembre 16h

Lieu - Accès

Ile de Porquerolles, centre IGESA (Var).
Porquerolles est desservie par des navettes régulières au départ de la Tour Fondue, qui est un petit port situé à l'extrémité de la presqu'île de Giens.
Les horaires des navettes sont consultables sur le site de la compagnie TLV/TVM

Inscription


Les places sont limités aux trente premiers.

Les pré-inscriptions sont ouvertes dès maintenant par simple courriel à ermites@univ-tln.fr renseignant :
nom, prénom
université / laboratoire /entreprise
adresse
téléphone
courriel
formule retenue (voir tarifs ci-dessous)
mode de paiement : Chèque à l'ordre du "trésorier de l'AFCP" ou Bon de Commande pour l'AFCP (laisser la mention utile).

Envoyer ce bon ou ce chèque (scan) par Email à ermites@univ-tln.fr (sujet "paiement 2011"), et aussi impérativement par courrier papier à cette adresse :
M. J. Razik, LSIS Univ. Sud-Toulon Var, Bat R, Av. de l'Université, BP 20132, 83957 La Garde Cedex France.

Pour information les références de l' AFCP sont: Association Francophone de la Communication Parlée
Etablissement : 30003 Guichet : 00990 N° de compte : 00037268733 Clé RIB 15
IBAN : FR 76 30003 00990 00037268733 15 BIC : SOGEFRPP
Domiciliation : Société Générale - Grenoble
N° SIRET : 440 910 354 00016 - code APE : 913E
Siège social : AFCP, Université d'Avignon - 339, Ch. des Meinajaries 84000 Avignon

Tarifs

A/  Formule pension complète (incluant 2 nuitées, 5 repas, 2 pts déj, pauses café / boisson, actes papier, en chambre studio 2 lits / salle de bain) :
A1/ Doctorant, Postdoc, Master = 280 euros,
A2/ Autre = 410 euros.

B/  Formule journée avec repas midi, actes, pauses café / boisson :
B1/ Doctorant, Postdoc, Master = 70 euros,
B2/ Autres = 100 euros.

Comité de Programme

H. Glotin (prés.), Pr univ. Sud-Toulon Var & IUF, LSIS
S. Paris, MC univ. Aix-Marseille, LSIS
J. Razik, MC univ. Sud-Toulon Var, LSIS
Y. Bengio, Pr univ. Montréal, LISA
S. Mallat, Ecole Polytechnique
O. Adam, Pr univ. Paris VI, LAM
J.-P. Haton, Pr univ. Nancy & IUF, LORIA

Comité d'Organisation

S. Paris (prés.)
J. Razik
H. Glotin
F. Chamroukhi, MC USTV, LSIS DYNI
R. Abeille, doctorant USTV, LSIS DYNI
M. Chouchane, doctorant, LSIS DYNI
R. Delaye, ingénieur du son
P. Machart, doctorant, LSIS DYNI & LIF
F. Bénard, doctorant, LSIS DYNI
J.-M. Prévot, IE USTV



===== Contexte =====


Site web de l'édition 2010 avec actes audiovisuels : http://glotin.univ-tln.fr/ERMITES10

Rappel des programmes des journées ERMITES 2010

Jeanny HERAULT (GIPSA/UJF) « Perception Visuelle, faits et modèles »
Jean PETITOT (EHESS/X) « Modèles neurogéométriques de Vision »
Ugo BOSCAIN (CMAP/X) « Anthropomorphic image reconstruction via hypoelliptic diffusion »
Claude TOUZET (LNIA/UNIV. MED) « Modèles cognitifs de l'attention visuelle »
Jean-Paul GAUTHIER (LSIS/USTV) « Sur les mécanismes mis en oeuvre par le système nerveux central »
Hervé LE BORGNE (CEA-LIST) « Analyse en composantes indépendantes visuelles »
Julien MAIRAL (ENS/INRIA WILOW) « Sparse Coding and Dictionary Learning »
Hervé JEGOU (INRIA/IRISA) « Recherche d'image à grande échelle: procédés d'aggrégation & d'indexation »
Sébastien PARIS (LSIS/UNIV. MED) « Dynamique de la vision & auto-localisation Robotique »

Philosophie d'ERMITES

L'Ecole Recherche Multimodale d'Information : Technologies et Sciences fait intervenir, sur 3 jours, devant des chercheurs et ingénieurs en devenir, une dizaine de spécialistes qui travaillent sur les analyses conjointes de textes, images, sons et vidéos pour en extraire de l'information. La recherche d'information est de plus en plus complexe et hasardeuse compte tenu du volume sans cesse croissant des informations disponibles et de leur nature multimodale (images, sons, musique, parole, bio-acoustique, vidéos). Nous avons décidé d'organiser ERMITES 2011 avec l'USTV, le support de l'UMR Laboratoire des Sciences de l'Information et des Systèmes (LSIS), du CNRS, de l'INRIA, du GDRI3-ARIA, du CNRS et LSIS, afin :

- d'analyser les dernières avancées théoriques, et pratiques, des systèmes robustes de recherche d'information multimodale de grande dimension et sur des masses de données,

- de montrer que ces nouveaux concepts forment une base pour un domaine plus vaste que celui d'origine pour lequel ils ont été développés (plus particulièrement leur application au domaine audio et audio-vidéo),

- de sensibiliser les jeunes scientifiques au vaste champ scientifique mis en jeu par ces nouvelles avancées aux problèmes de fiabilité, robustesse, apprentissage, sous contrainte du passage à l'échelle.

Chaque spécialiste présentera un condensé de son savoir. L'esprit d'ERMITES étant de mettre l'accent sur les analyses jointes (transversales sur diverses modalités), ceci étant un défi majeur et encore peu pris en compte par la majorité des équipes qui restent plutôt dans le pré carré de leur spécialité de départ.