LSISUMR
Sciences |
|
Ecole Recherche Multimodale
d’Information
Techniques
& Sciences
ERMITES
2007
du
4 sept 10h, au 6 sept 2007 16h.
La
Badine - Presqu’île de Giens – Var
Spécial Campagnes
Technolangue, Technovision, NIST et
TREC.
clôture de 16
inscriptions: 15
juin 2007
avec les
soutiens du LSIS,
du dpt informatique UFR S&T USTV, du Conseil Régional
PACA, de l'USTV
et de l'Association
Francophone de la Commmunication Parlée (AFCP).
Présentation |
Programme |
Inscription |
Site |
home ERMITES |
L’Ecole
Recherche Multimodale d’Information-Techniques & Sciences se
centre cette année sur les méthodes et performances
des systèmes de RI inter-modalités, en s'appuyant sur les campagnes
d'évaluation dont Technolangue (parole), Technovision
(image), NIST et TREC.
ERMITES 2007 réunit des chercheurs y ayant participé
afin de présenter les bases communes entre ces systèmes,
et de jeter des ponts entre les différentes disciplines sollicitées.
Cette dizaine de spécialistes d'analyses conjointes
de textes, images, sons ou vidéos intervient sur 3 jours, avec
discussions et démonstrations ouvertes. L'un des objectifs d’ERMITES,
via ces exposés théoriques et empiriques, est de conduire de futurs
chercheurs à concevoir des systèmes RI
multimodaux qui deviennent incoutournables de part la diffusion de plus
en plus anarchique de l'information.
L'originalité
d’ERMITES est de mettre l'accent sur les analyses jointes ou
transversales sur diverses modalités, montrant l'intérêt
de sortir d'un pré-carré spécifique. ERMITES
permet à faible coût de se familiariser avec plusieurs
disciplines sur cette problématique commune. ERMITES a lieu
sur le superbe VVF de La
Badine - Presqu’île de Giens – Var,
(accès TGV Toulon), privilégiant la création de
relations. Des PC sur
internet sont disponibles. Le bilan, contenu et
photos d'ERMITES 2006 sont disponibles sur ERMITES06.
Des pauses plages ou catamarans sont prévues au pied des bungalows du
VVF.
Intervenants (surs) |
Mots clefs / projets |
Titres/ Résumés |
Patrick |
Analyses
séquences, Réseaux bayesiens,
RI images Pascal, ANR AVEIR TI__ |
Méthodes statistiques pour l'apprentissage de structure. La théorie de l'analyse des séquences et appliqué à la recherche d'information, notamment des exemples sont donnés dans le cadre d'analyses de structure de documents du web. |
Pierre Dir. VA Medical Center & EBIRE, Martinez, Californie, USA. |
Audition, speech, noise, Gesture Movies
Demos __SV |
Gestes
articulatoires et représentation de la parole. L'analyse des mouvements articulatoires montrent que la parole est produite par des gestes spécifiques, synchronisés suivant une choréographie complexe. Chacun de ces gestes dynamiques évoluent à un taux peu élevé, et influencent le signal de sortie, soit la source, soit les caractéristiques de résonance du tube vocal. Basés entièrement sur ces gestes, des systèmes de synthèse ont été développés, mais leur utilisation comme outil d'analyse, c'est à dire de décomposition temporelle du signal parlé, n'a pas (encore ?) déclanché l'intérêt qu'elle aurait mérité. Cet exposé présente nos premiers résultats de codage de la parole basées sur les gestes. Les vertus d'une telle transformée sont multiples, avec, en tête, la séparation des sources de parole simultanées facilitées par des interpolations plus robustes pendant les périodes à rapport signal-à-bruit faible. |
Jean-François |
Reconaissance automatique des locuteurs, RI audio. ESTER TechnoLangue. T_S_ |
Reconnaissance du Locuteur / Indexation de Documents Audio. Ce cours présente les bases de la reconnaissance du locuteur et de l'indexation selon le locuteur. Après une introduction au domaine, présentant les informations spécifiques du locuteur et un panorama des méthodes utilisées, l'approche statistique est décrite. Elle regroupe les modélisations de type GMM et HMM, l'apprentissage des modèles, les mesures de similarités et les techniques de normalisation couramment utilisées. Les techniques utilisées en indexation sont également présentées. Des exemples basés sur le logiciel "open source" ALIZE/LIA_SpkDet/LIA_Seg permettent d'illustrer la mise en oeuvre de ces techniques. Le contexte expérimental des campagnes d'évaluations fait l'objet de la deuxième partie du cours. La dernière partie du cours montre une généralisation des éléments présentés à la recherche et à la caractérisation de différents événements sonores. |
RI
images. Machine Learning and VisionTORCH VISION (responsable). TI__ |
Torchvision: the machine vision package of Torch Torchvision (http://torch3vision.idiap.ch) is a machine vision library, written in simple C++ and based on the Torch (www.torch.ch) machine-learning library. Torchvision is free, modular (based on the concept of ipCore) and contains a lot of nice features such as read/write/grab basic image/video formats, basic image processing and feature extraction algorithms (edge detection, 2D DCT, 2D FFT, 2D Gabor, PCA to do Eigen-Faces, LDA to do Fisher-Faces), and a framework for face detection and recognition. We will present an overview of main concepts of Torchvision and how it is based on Torch. We will also illustrate several features using source code examples and results of simulations. |
|
Pierre-Alain |
RI
images. Technovision ImagEval (responsable). TI__ |
Analyses d'images: dernières avancées à l'échelle. Nous présentons et comparons les méthodes et performances des systèmes testés lors de la campagne ImagEval (Xerox, LSIS, INRIA,LIST...), sur de nombreuses tâches : recherche d'objet, recherche de thèmes,... |
Bernard |
RI
Vidéo. TrecVid. _I_V |
Indexation Multimédia. Des exemples sont donnés dans el cadre de la campagne TRECVID, notamment sur les émissions de journaux télévisuels. |
Guillaume |
RAP et
thématisation vidéo. ESTER TechnoLangue. __SV |
Reconnaissance
Automatique de la
Parole et applications. - Analyse monomédia/monomodale sur l'analyse du contenu
sonore,
développement des aspects reconnaissance de parole et
couplages TALN/RAP, avec aspects de détection et suivi de
classes sonores (parole, musique, applaudissements, locuteurs,
etc.). |
Hélène |
Mémoires
associatives multimodales, Réseaux de neurones temporels. _IS_ |
Mémoires associatives multimodales et temporelles. On montre comment les réseaux de neurones artificiels permettent de tirer parti de la fusion entre données images et sons. D'autre part, on introduit la notion de réseaux de neurones temporels (spiking neurons) en montrant leurs avantages pour la reconnaissance de formes spatio-temporelles. |
Hervé
|
Perceptions multimodales visuelles/ acoustiques. ANR AVEIR, ANR ANCL, ESTER TechnoLangue, ImagEval, TechnoVision, MM classification. TIS_ |
Recherche Robuste d'Information dans des Scènes Acoustiques ou Visuelles. Les systèmes de RI multimodales doivent faire face non
seulement à la contamination des signaux par des bruits de différentes
nature, mais aussi aux grandes dimensions des espaces analysés. Malgré
leur efficacité, les systèmes de classification ou de régression en
pâtissent, et sont plus performants après un prétraitement/sélection
adaptative des percepts. Dans ce cadre nous montrons comment extraire
les traits
les plus discriminants de concepts
recherchés dans des d'images mal
annotées et mal segmentées ou dans des scènes
acoustiques bruitées. Nous montrerons également un exemple de codage
parcimonieux pour la parole reposant sur les mêmes principes. Des
démonstrations sont faites, sur des corpus à l'échelle,
pour la recherche textuo-visuelle d'images du web, le tracking de
cachalots (en
relation avec US Navy) par acoustique passive, et la reconnaissance du
locuteur. |
Kermorvant |
IA, TAL. RIMES, TechnoVision. |
Analyse d'Image et Intelligence Artificielle. On montre comment IA et TAL se fusionnent pour segmenter, structurer et transcrire des documents manuscrits de toute nature. Des applications industrielles sont demontrées. |
Philippe |
RI
conceptuelle. ANR AVEIR. TI__ |
Indexation & Recherche Sémantique d'Images. De nombreux travaux dans le domaine de l'indexation et
la recherche d'images fixes ou mobiles se sont basés sur des
aspects de bas niveau. Ils ont permis de défricher une
partie de l'énorme difficulté liée à ces
tâches, sans vraiment résoudre le point
fondamental qui est, comme pour tout système de recherche
d'information, d'aller vers la satisfaction de l'utilisateur. Depuis la
fin des années 90 des travaux se
sont attaqués à réduire le gouffre existant
entre représentation mentale des utilisateurs et
représentation interne de la machine. Ces travaux tentent soit
de représenter les images et requêtes par des structures
représentatives plus abstraites que de simples exemples
visuels, alors que d'autres se basent sur de l'apprentissage pour
définir des descriptions symboliques compréhensibles
directement par l'utilisateur. Nous faisons dans ce cours un survol de
ces approches non-symboliques et symboliques en insistant davantage
sur les travaux sur les images fixes, et nous explicitons certains
verrous scientifiques non encore levés par l'état de
l'art de l'indexation et la recherche d'images. |
Jerôme |
Ident.
auto. des langues ESTER, ANR, MISTRAL, NIST Language Recognition Evaluation. __SV |
Identification & Classification Automatique de Langues. L'identification automatique des langues est une
problématique du traitement automatique de la parole dont le
but est de parvenir à discriminer la langue parlée dans
un échantillon sonore. L'analyse linguistique du problème
met en évidence que les sources d'informations utilisables se
situent principalement aux niveaux : - acoustique (la
répartitions des différents sons et leur fréquence
d'apparition) - phonotactique (l'enchaînement des sons entre
eux) - prosodique (l'intonation et le rythme). Après avoir
présenté les différentes caractéristiques
et réalisations de ces sources d'informations dans un cadre
multilingue, les méthodes de modélisation automatiques
adaptées sont présentées : réseau
de neurones, méthodes génératives (modélisation
du langage, GMM, HMM), méthodes discriminatives (SVM). Nous présentons
des applications dans
le cadre de NIST et de recherche d'information multimédia. |
Début des inscriptions : mai 2007,
limitées, pour rester convivial, aux 16 premières,
en postant ce formulaire (cliquer ici) avec votre paiement, et sa copie sur ermites@univ-tln.fr (sujet = [ERMITES07]).
Clôture des inscriptions: 15 juin 2007.
nb: AUDIENCE: 30 (MAXIMUM) ; dont Enseignants/Chercheurs, Industriels, et Etudiants (PostDoc, Doc., Master R ou P)