VI Summer School for advanced studies in Multimodal Information Retrieval - [ERMITES]
27, 28 & 29th sept 2011, Porquerolles la Perle des Iles
d'Or - Var
ERMITES 2011
Sparse Decomposition, Contraction and Structuration
for Complex Scene Analysis
Speakers :
Adam O. ; Bengio Y. ; Glotin H. ; Halkias X. ; Haton J.-P. ;
Kowalski S. ; Mallat S. ; Razik J.
Soutenue
par l'INRIA, Toulon Provence Mediterranee,
CNRS, LSIS,
GDR I3, ARIA,
AFCP, USTV
et sous les patronages de la Fédération de Recherche en Informatique et
Interactions (FRIIAM) et du PEPS RUPTURE CNRS INS2I
DYNI 'Vision intelligente a l'échelle'.
Programme
Ouverture dès 10h le 27 septembre, centre IGESA Porquerolles
- J.-P. Haton - Pr
univ. Nancy - LORIA & Institut Universitaire de France
"Analyse de scène et reconnaissance
stochastique de la parole" (2h)
Les difficultés spécifiques de la reconnaissance de la parole sont nombreuses: nombre
variable de locuteurs connus ou inconnus, microphones distants,
bruit ambiant, effets liés aux locaux (écho, réverbération...).
Cet exposé rappellera les
principes de la reconnaissance automatique de la parole et
présentera les niveaux fonctionnels d'un système : prise de
son, paramétrisation, prise de décision. Nous
insisterons sur les modèles stochastiques actuellement les plus
performants pour la reconnaissance de la parole et présenterons les derniers développements du domaine.
L'exposé sera illustré d'exemples pratiques.
"Sparsity and structure for audio signal: a *-lasso therapy" (2h)
We are interested in sparse decomposition/approximation of audio
signals in a dictionary of waveforms. A classical variational approach
is the use of a l2 data term regularized by a well chosen norm on the
synthesis coefficients. The l1 norm (known as the "lasso") is popular
to obtain sparse decompositions, but does not favor any kind of
structure. We introduce then mixed norms and generalized shrinkage
operators to promote some different, structured, forms of sparsity.
Relevance of such approaches is illustrated in the context of
underdetermined reverberant source separation, where different convex
approaches are compared to deal with such a difficult problem.
"Apprentissage non-supervisé de représentations profondes" (4h)
Apprentissage non-supervisé de représentations profondes
L'apprentissage non-supervisé de représentations distribuées s'est avéré une clé
essentielle des succès récents d'une famille d'algorithme d'apprentissage appelés
'profonds'. Ceux-ci construisent plusieurs niveaux de représentation distribuée,
permettant découvrir plusieurs niveaux d'abstractions,
et d'améliorer les performance sur des tâches supervisées de prédiction
ou de classification (en particulier quand le nombre d'exemples étiquetés est petit),
et de transférer les connaissances apprises d'un ou plusieurs
domaines (ou tâches) vers d'autres. Le but ultime est de permettre à l'ordinateur
de découvrir les facteurs explicatifs des variations présentes dans les données.
La présentation inclura une discussion des applications récentes de ces méthodes
dans les domaine de la vision, du traitement du langage naturel, de la parole et de la musique.
"Scattering & Matching Pursuit
for Acoustic Sources Separation" (3h)
Signal classes are usually
invariant to groups of operators such as translations or
scalings, and to larger Lie groups of deformations. Invariants
and dimensionality reduction play major roles for
classification, as opposed to sparse complete representations.
Constructing invariants while keeping discriminant information
deeply constraints the representation. We introduce a non-linear
invariant representation, that reminds quantum scattering. It is
implemented through the architecture of a deep neural network,
but learning is needed at a single layer, and computed with O(N)
operations. State of the art results are shown for object
classification of deformed patterns and random textures. Part of
this work is described in http://arxiv.org/abs/1011.3023.
- J. Razik - MC univ. Sud-Toulon Var - LSIS
"Apprentissage de dictionnaire : de
la parole au chant de baleine" (2h)
L'utilisation des méthodes de
dictionary learning non supervisé a montré dans le domaine de
l'image être la méthode de l'état de l'art pour des tâches de
classification. Dans le domaine de la parole, nous avons montré
que ces méthodes permettent également de dépasser les classiques
modèles GMM en reconnaissance de phonèmes, tout en restant non
supervisé. Nous avons également étudié l'apprentissage non
supervisé par dictionary learning dans le cadre de l'analyse et
la découverte d'un lexique associé au chant des baleines.
L'objectif est d'obtenir des descripteurs plus génériques et
plus efficaces que ceux habituellement extraits. Ceci permet
également de déterminer des formes récurrentes dans la structure
des chants entre les différents individus d'une population et
sur plusieurs années. Ces travaux menés en collaboration avec S.
Paris et H. Glotin sont illustrés de démonstrations.
- X. Halkias - Columbia univ. - Rosa Lab et post-doc DYNI
univ. Sud-Toulon Var
"Detection and Tracking of Dolphin
Vocalizations" (2h)
Audio processing has widely
affected the field of animal bioacoustics. Many audio engineers
are now using their knowledge to advance ou r understanding of
the world that surrounds us and especially that of animals. This
work falls into that category, where the principles of signal
processing, communication theory and machine learning are used
to analyze the world of marine mammals and specifically dolphins.
In this talk, several
algorithms are proposed for the successful detection of dolphin
calls in long recordings. Starting with the simple and widely
used thresholding detectors, several advancements are proposed,
based on the data, leading to more intricate classifiers like
Support Vector Machines (SVM) that are known for their
robustness.
Lastly, two systems for pitch
extraction are provided. The first system is based on a
probabilistic framework and deals with the extraction of dolphin
whistle calls while providing a first attempt on resolving
simple overlaps. The second system assumes that the desired
calls have already been detected and proceeds to identify the
pitch for both whistle and burst calls using hierarchically
driven Hidden Markov Models (HMM).
- O. Adam -
Pr univ. Paris6 - LAM (Equipe Lutherie Acoustique Musicale) et
CNPS (Centre de Neuroscience de Paris-Sud)
"Estimation de densité de
population de baleine par analyse de leurs chants" (2h)
L'étude des cétacés passe par
leurs observations. Plusieurs méthodes sont possibles et
récemment le recours à l'acoustique passive a montré un grand
intérêt, soit pour des observations d'espèces discrètes et/ou
pour des observations à distance et/ou pour des observations
continues.
Les techniques développées,
relevant de l'acoustique sous-marine, l'instrumentation, du
traitement du signal, de la reconnaissance des formes, ont pour
but de détecter les sons émis par ces mammifères marins, de les
classer, et de localiser lorsque cela est possible.
Nous présenterons une nouvelle
activité dans ce domaine qui consiste à estimer la taille du
groupe de cétacés à partir de leurs émissions sonores et des
extrapolations statistiques. Plusieurs exemples sur différentes
espèces seront présentés comme illustrations.
- H. Glotin - Pr univ. Sud-Toulon Var - LSIS & Institut Universitaire de France
"Suivi et reconstruction du comportement de cachalots par acoustique
passive" (2h)
Nous posons la problématique de
l'analyse de scène acoustique au travers de la structuration de
signaux bioacoustiques acquis dans des conditions variables.
Nous nous intéresserons essentiellement au plus grand des
odontocètes, le cachalot (45 tonnes, 18 mètres de long). Cet
extraordinaire plongeur, qui sonde plus d'une heure à moins 2000
mètres, possède le biosonar le plus puissant.
Avec plusieurs canaux (ici 4
hydrophones), nous montrons qu'il est possible de reconstruire
la trajectoire de ses plongées écoutées à plusieurs kilomètres
(voir démonstrations 3D ici et
là).
Nous montrons aussi que
d'autres informations sont mesurables sur un seul canal, comme
la taille de l'animal, son comportement. Des démonstrations sont
faites sur des signaux que nous avons enregistrés au large de
Porquerolles cette année, ou issus de bases de référence de la
communauté bioacoustique notamment enregistrées au Bahamas par
l'AUTEC.
Clôture des journées le 29
septembre 16h
Lieu - Accès
Ile de
Porquerolles,
centre IGESA
(Var).
Porquerolles est desservie par des navettes régulières au départ
de la
Tour
Fondue, qui est un petit port situé à l'extrémité de la
presqu'île de Giens.
Les horaires des navettes sont consultables sur le
site
de la compagnie TLV/TVM
Inscription
Les places sont limités aux trente premiers.
Les pré-inscriptions sont ouvertes
dès maintenant par simple courriel à
ermites@univ-tln.fr renseignant
:
nom, prénom
université / laboratoire /entreprise
adresse
téléphone
courriel
formule retenue (voir tarifs ci-dessous)
mode de paiement : Chèque à l'ordre du "trésorier de l'AFCP" ou
Bon de Commande pour l'AFCP (laisser la mention utile).
Envoyer ce bon ou ce chèque (scan) par Email à ermites@univ-tln.fr
(sujet "paiement 2011"), et aussi impérativement par courrier papier à
cette adresse :
M. J. Razik, LSIS Univ. Sud-Toulon Var, Bat R, Av. de l'Université, BP 20132, 83957 La Garde Cedex France.
Pour information les références
de l' AFCP sont:
Association Francophone de la Communication Parlée
Etablissement : 30003 Guichet : 00990 N° de compte : 00037268733
Clé RIB 15
IBAN : FR 76 30003 00990 00037268733 15 BIC : SOGEFRPP
Domiciliation : Société Générale - Grenoble
N° SIRET : 440 910 354 00016 - code APE : 913E
Siège social : AFCP, Université d'Avignon - 339, Ch. des
Meinajaries 84000 Avignon
Tarifs
A/ Formule pension complète
(incluant 2 nuitées, 5 repas, 2 pts déj, pauses café / boisson,
actes papier, en chambre studio 2 lits / salle de bain) :
A1/ Doctorant, Postdoc, Master = 280 euros,
A2/ Autre = 410 euros.
B/ Formule journée avec repas midi, actes, pauses café / boisson
:
B1/ Doctorant, Postdoc, Master = 70 euros,
B2/ Autres = 100 euros.
Comité de Programme
H. Glotin (prés.), Pr univ.
Sud-Toulon Var & IUF, LSIS
S. Paris, MC univ. Aix-Marseille, LSIS
J. Razik, MC univ. Sud-Toulon Var, LSIS
Y. Bengio, Pr univ. Montréal, LISA
S. Mallat, Ecole Polytechnique
O. Adam, Pr univ. Paris VI, LAM
J.-P. Haton, Pr univ. Nancy & IUF, LORIA
Comité d'Organisation
S. Paris (prés.)
J. Razik
H. Glotin
F. Chamroukhi, MC USTV, LSIS DYNI
R. Abeille, doctorant USTV, LSIS DYNI
M. Chouchane, doctorant, LSIS DYNI
R. Delaye, ingénieur du son
P. Machart, doctorant, LSIS DYNI & LIF
F. Bénard, doctorant, LSIS DYNI
J.-M. Prévot, IE USTV
===== Contexte =====
Site web de l'édition 2010 avec actes audiovisuels : http://glotin.univ-tln.fr/ERMITES10
Rappel des programmes des journées ERMITES 2010
Jeanny HERAULT (GIPSA/UJF) «
Perception Visuelle, faits et modèles »
Jean PETITOT (EHESS/X) « Modèles neurogéométriques de Vision »
Ugo BOSCAIN (CMAP/X) « Anthropomorphic image reconstruction via
hypoelliptic diffusion »
Claude TOUZET (LNIA/UNIV. MED) « Modèles cognitifs de l'attention
visuelle »
Jean-Paul GAUTHIER (LSIS/USTV) « Sur les mécanismes mis en oeuvre
par le système nerveux central »
Hervé LE BORGNE (CEA-LIST) « Analyse en composantes indépendantes
visuelles »
Julien MAIRAL (ENS/INRIA WILOW) « Sparse Coding and Dictionary
Learning »
Hervé JEGOU (INRIA/IRISA) « Recherche d'image à grande échelle:
procédés d'aggrégation & d'indexation »
Sébastien PARIS (LSIS/UNIV. MED) « Dynamique de la vision &
auto-localisation Robotique »
Philosophie d'ERMITES
L'Ecole Recherche Multimodale
d'Information : Technologies et Sciences fait intervenir, sur 3
jours, devant des chercheurs et ingénieurs en devenir, une dizaine
de spécialistes qui travaillent sur les analyses conjointes de
textes, images, sons et vidéos pour en extraire de l'information.
La recherche d'information est de plus en plus complexe et
hasardeuse compte tenu du volume sans cesse croissant des
informations disponibles et de leur nature multimodale (images,
sons, musique, parole, bio-acoustique, vidéos). Nous avons décidé
d'organiser ERMITES 2011 avec l'USTV, le support de l'UMR
Laboratoire des Sciences de l'Information et des Systèmes (LSIS),
du CNRS, de l'INRIA, du GDRI3-ARIA, du CNRS et LSIS, afin :
- d'analyser les dernières avancées théoriques, et pratiques, des
systèmes robustes de recherche d'information multimodale de grande
dimension et sur des masses de données,
- de montrer que ces nouveaux concepts forment une base pour un
domaine plus vaste que celui d'origine pour lequel ils ont été
développés (plus particulièrement leur application au domaine
audio et audio-vidéo),
- de sensibiliser les jeunes scientifiques au vaste champ
scientifique mis en jeu par ces nouvelles avancées aux problèmes
de fiabilité, robustesse, apprentissage, sous contrainte du
passage à l'échelle.
Chaque spécialiste présentera un condensé de son savoir. L'esprit
d'ERMITES étant de mettre l'accent sur les analyses jointes
(transversales sur diverses modalités), ceci étant un défi majeur
et encore peu pris en compte par la majorité des équipes qui
restent plutôt dans le pré carré de leur spécialité de départ.