LSISUMR Sciences
de l'Information & Systèmes


Ecole Recherche Multimodale d’Information
Techniques & Sciences


ERMITES 2007
du 4 sept 10h, au 6 sept 2007 16h.
La Badine - Presqu’île de Giens – Var

Spécial Campagnes Technolangue, Technovision, NIST et TREC.
clôture de 16 inscriptions: 15 juin 2007
avec les soutiens du LSIS, du dpt informatique UFR S&T USTV, du Conseil Régional PACA, de l'USTV
et de l'
Association Francophone de la Commmunication Parlée (AFCP).

Présentation
Programme
Inscription
Site
home ERMITES

  L’Ecole Recherche Multimodale d’Information-Techniques & Sciences se centre cette année sur les méthodes et performances des systèmes de RI inter-modalités, en s'appuyant sur les campagnes d'évaluation dont Technolangue (parole), Technovision (image), NIST et TREC. ERMITES 2007 réunit des chercheurs y ayant participé afin de présenter les bases communes entre ces systèmes, et de jeter des ponts entre les différentes disciplines sollicitées. Cette dizaine de spécialistes d'analyses conjointes de textes, images, sons ou vidéos intervient sur 3 jours, avec discussions et démonstrations ouvertes. L'un des objectifs d’ERMITES, via ces exposés théoriques et empiriques, est de conduire de futurs chercheurs à concevoir des systèmes RI multimodaux qui deviennent incoutournables de part la diffusion de plus en plus anarchique de l'information.
       L'originalité d’ERMITES est de mettre l'accent sur les analyses jointes ou transversales sur diverses modalités, montrant l'intérêt de sortir d'un pré-carré spécifique. ERMITES permet à faible coût de se familiariser avec plusieurs disciplines sur cette problématique commune. ERMITES a lieu sur le superbe VVF de La Badine - Presqu’île de Giens – Var, (accès TGV Toulon), privilégiant la création de relations. Des PC sur internet sont disponibles. Le bilan, contenu et photos d'ERMITES 2006 sont disponibles sur ERMITES06. Des pauses plages ou catamarans sont prévues au pied des bungalows du VVF.


Programme ( ICI dernière mise à jour .pdf ) : En plus d'experts universitaires, Christopher Kermorvant qui est chercheur chez A2IA sera present, leader mondial du traitement des chéquiers et documents manuscrits. Le tableau contient des mots clefs, dont les modalités traitées conjointement (T : texte, I : image, S : son, V : vidéo).

Intervenants (surs)

Mots clefs / projets

Titres/ Résumés

Gallinari

Patrick

Pr, LIP6,
UMR CNRS.

Analyses séquences,  Réseaux bayesiens, RI images
Pascal,
ANR AVEIR

TI__

Méthodes statistiques pour l'apprentissage de structure.

La théorie de l'analyse des séquences et appliqué à la recherche d'information, notamment des exemples sont donnés dans le cadre d'analyses de structure de documents du web.

Divenyi

Pierre

Dir. VA Medical Center & EBIRE, Martinez, Californie,  USA.

Audition, speech, noise, Gesture Movies

Demos

__SV
Gestes articulatoires et représentation de la parole.

L'analyse des mouvements articulatoires montrent que la parole est produite par des gestes spécifiques, synchronisés suivant une choréographie complexe. Chacun de ces gestes dynamiques évoluent à un taux peu élevé, et influencent le signal de sortie, soit la source, soit les caractéristiques de résonance du tube vocal. Basés entièrement sur ces gestes, des systèmes de synthèse ont été développés, mais leur utilisation comme outil d'analyse, c'est à dire de décomposition temporelle du signal parlé, n'a pas (encore ?) déclanché l'intérêt qu'elle aurait mérité.
Cet exposé présente nos premiers résultats de codage de la parole basées sur les gestes. Les vertus d'une telle transformée sont multiples, avec, en tête, la séparation des sources de parole simultanées facilitées par des interpolations plus robustes pendant les périodes à rapport signal-à-bruit faible.

Bonastre

Jean-François

MC, HDR LIA,
Membre Institut Univ. de France

Reconaissance automatique des locuteurs,
RI audio.

ESTER TechnoLangue.

T_S_

Reconnaissance du Locuteur / Indexation de Documents Audio.

Ce cours présente les bases de la reconnaissance du locuteur et de l'indexation selon le locuteur. Après une introduction au domaine, présentant les informations spécifiques du locuteur et un panorama des méthodes utilisées, l'approche statistique est décrite. Elle regroupe les modélisations de type GMM et HMM, l'apprentissage des modèles, les mesures de similarités et les techniques de normalisation couramment utilisées. Les techniques utilisées en indexation sont également présentées. Des exemples basés sur le logiciel "open source" ALIZE/LIA_SpkDet/LIA_Seg permettent d'illustrer la mise en oeuvre de ces techniques. Le contexte expérimental des campagnes d'évaluations fait l'objet de la deuxième partie du cours. La dernière partie du cours montre une généralisation des éléments présentés à la recherche et à la caractérisation de différents événements sonores.

Marcel

Sebastien

CEA IDIAP
 Paris

RI images.
Machine Learning and VisionTORCH VISION
(responsable).

TI__

Torchvision: the machine vision package of Torch

Torchvision (http://torch3vision.idiap.ch) is a machine vision library, written in simple C++ and based on the Torch (www.torch.ch) machine-learning library. Torchvision is free, modular (based on the concept of ipCore) and contains a lot of nice features such as read/write/grab basic image/video formats, basic image processing and feature extraction algorithms (edge detection, 2D DCT, 2D FFT, 2D Gabor, PCA to do Eigen-Faces, LDA to do Fisher-Faces), and a framework for face detection and recognition. We will present an overview of main concepts of Torchvision and how it is based on Torch. We will also illustrate several features using source code examples and results of simulations.

Moellic

Pierre-Alain

CEA LIST
 Paris

RI images.

Technovision
ImagEval
(responsable).

TI__

Analyses d'images: dernières avancées à l'échelle.

Nous présentons et comparons les méthodes et performances des systèmes testés lors de la campagne ImagEval (Xerox, LSIS, INRIA,LIST...), sur de nombreuses tâches : recherche d'objet, recherche de thèmes,...

Merialdo

Bernard

Pr EURECOM
Nice

RI Vidéo.

TrecVid.

_I_V

Indexation Multimédia.

Des exemples sont donnés dans el cadre de la campagne TRECVID, notamment sur les émissions de journaux télévisuels.

Gravier

Guillaume

CR CNRS
INRIA
Rennes

RAP et thématisation vidéo.

ESTER TechnoLangue.

__SV

Reconnaissance Automatique de la Parole et applications.

- Analyse monomédia/monomodale sur l'analyse du contenu sonore, développement des aspects reconnaissance de parole et couplages TALN/RAP, avec aspects de détection et suivi de classes sonores (parole, musique, applaudissements, locuteurs, etc.).
- Analyse multimodale de séquence vidéos : présentation de méthodes d'analyse multimodale de séquences vidéo pour leur structuration. Les techniques RAP AV, MMC (MMC multiflux, modèles de segments multiflux) dans un cadre multimédia pour l'analyse de vidéos. Illustration avec les projets RIAM FERIA.
- Couplage entre médias et bases de données : beaucoup de progrès on été faits en matière d'indexation efficace de descripteurs d'images par l'emploi d'algorithmes de recherche approximative.

Paugam-Moisy

Hélène

Pr, LIRIS
UMR CNRS

Mémoires associatives multimodales,
Réseaux de neurones temporels.

_IS_

Mémoires associatives multimodales et temporelles.

On montre comment les réseaux de neurones artificiels permettent de tirer parti de la fusion entre données images et sons. D'autre part, on introduit la notion de réseaux de neurones temporels (spiking neurons) en montrant leurs avantages pour la reconnaissance de formes spatio-temporelles.

Glotin

Hervé

MC,
LSIS
UMR CNRS


Perceptions multimodales visuelles/ acoustiques.

ANR AVEIR, ANR ANCL, ESTER TechnoLangue,
ImagEval, TechnoVision,
MM classification.

TIS_

Recherche Robuste d'Information dans des Scènes Acoustiques ou Visuelles.

Les systèmes de RI multimodales doivent faire face non seulement à la contamination des signaux par des bruits de différentes nature, mais aussi aux grandes dimensions des espaces analysés. Malgré leur efficacité, les systèmes de classification ou de régression en pâtissent, et sont plus performants après un prétraitement/sélection adaptative des percepts. Dans ce cadre nous montrons comment extraire les traits les plus discriminants de concepts recherchés dans des d'images mal annotées et mal segmentées ou dans des scènes acoustiques bruitées. Nous montrerons également un exemple de codage parcimonieux pour la parole reposant sur les mêmes principes. Des démonstrations sont faites, sur des corpus à l'échelle, pour la recherche textuo-visuelle d'images du web, le tracking de cachalots (en relation avec US Navy) par acoustique passive, et la reconnaissance du locuteur.

Kermorvant

Christopher

PhD R&D,
A2IA Paris

IA, TAL.

RIMES, TechnoVision.

Analyse d'Image et Intelligence Artificielle.

On montre comment IA et TAL se fusionnent pour segmenter, structurer et transcrire des documents manuscrits de toute nature. Des applications industrielles sont demontrées.

Mulhem

Philippe

CR CNRS, IMAG

RI conceptuelle.

ANR AVEIR.

TI__

Indexation & Recherche Sémantique d'Images.

De nombreux travaux dans le domaine de l'indexation et la recherche d'images fixes ou mobiles se sont basés sur des aspects de bas niveau. Ils ont permis de défricher une partie de l'énorme difficulté liée à ces tâches, sans vraiment résoudre le point fondamental qui est, comme pour tout système de recherche d'information, d'aller vers la satisfaction de l'utilisateur. Depuis la fin des années 90 des travaux se sont attaqués à réduire le gouffre existant entre représentation mentale des utilisateurs et représentation interne de la machine. Ces travaux tentent soit de représenter les images et requêtes par des structures représentatives plus abstraites que de simples exemples visuels, alors que d'autres se basent sur de l'apprentissage pour définir des descriptions symboliques compréhensibles directement par l'utilisateur. Nous faisons dans ce cours un survol de ces approches non-symboliques et symboliques en insistant davantage sur les travaux sur les images fixes, et nous explicitons certains verrous scientifiques non encore levés par l'état de l'art de l'indexation et la recherche d'images.

Farinas

Jerôme

MC,
SAMOVA IRIT
UMR CNRS

Ident. auto. des langues
 
ESTER, ANR, MISTRAL,
NIST Language Recognition Evaluation.

__SV

Identification & Classification Automatique de Langues.

L'identification automatique des langues est une problématique du traitement automatique de la parole dont le but est de parvenir à discriminer la langue parlée dans un échantillon sonore. L'analyse linguistique du problème met en évidence que les sources d'informations utilisables se situent principalement aux niveaux : - acoustique (la répartitions des différents sons et leur fréquence d'apparition) - phonotactique (l'enchaînement des sons entre eux) - prosodique (l'intonation et le rythme). Après avoir présenté les différentes caractéristiques et réalisations de ces sources d'informations dans un cadre multilingue, les méthodes de modélisation automatiques adaptées sont présentées : réseau de neurones, méthodes génératives (modélisation du langage, GMM, HMM), méthodes discriminatives (SVM). Nous présentons des applications dans le cadre de NIST et de recherche d'information multimédia.


Inscription : Le forfait inclut les actes, l'hébergement et la restauration en terrasse vue sur mer au VVF de la presqu'île de Giens -"la Badine". L'hébergement est en bungalow avec 2 chambres doubles séparées par un couloir, avec salle de bain et terrasses, une chambre par personne.

Début des inscriptions : mai 2007,

limitées, pour rester convivial, aux 16 premières,

en postant ce formulaire (cliquer ici) avec votre paiement, et sa copie sur ermites@univ-tln.fr  (sujet = [ERMITES07]).

Clôture des inscriptions: 15 juin 2007.

Tarifs 2007: (incluant 2 nuits chambre personnelle, 7 repas, 2 petits dej., 6 pauses boissons / cafés, actes):
Doctorant, Postdoc, Master = 260 euros.
Autres = 390 euros.
Paiement par chèque ou Bon de Commande à l'AFCP ( voir formulaire ).
** 2 BOURSES de 150 euros sont offertes par l'AFCP **, faire la demande lors de votre inscription.

Site: l'école se déroule en fin d'été qui est une période particulièrement agréable dans le sud de la France (Hyères/Giens). Le VVF est localisé en bout de la presqu'île de Giens, en face des îles de Porquerolles et Port-Cros (bateaux toutes les heures, chaque jour). Adresse: VVF Vacances "La Badine" Presqu'île de Giens 83408 Hyères-Les-Palmiers France; Tél:+33(0)4.94.58.21.51, Fax:+33(0)4.94.58.96.38.

Acces (carte) :

  • EN TRAIN : Gare SNCF de Hyeres (10 km de Giens, liaison directe avec PARIS par TGV) ou Gare SNCF de Toulon (30 km de Giens)
  • EN AVION : Aeroport de Toulon ` Hyeres (8 km de Giens)
  • EN VOITURE : depuis Nice (env. 2h), prendre la direction "Marseille", puis "Toulon", puis Hyeres, puis "presqu'ile de Giens" ou "les iles Porquerolles" ou "Tour Fondue". depuis Marseille (env. 1h30), prendre direction Toulon (traverser Toulon), puis direction Nice, puis Hyeres, puis "presqu'ile de Giens" ou "les iles Porquerolles" ou "Tour Fondue."
Attention : les bus vers hyeres ne sont pas tres frequents (voir les horaires de passage des bus sur le site du reseau mistral)
  • De la gare SNCF de Hyeres : prendre le bus 67 ` l'arret "Gare SNCF" direction "TOUR FONDUE" s'arreter ` l'arret "ESTEREL" (35 minutes).
  • De la gare SNCF de Toulon : de la gare routiere (` gauche en sortant de la gare SNCF) prendre le bus 102 ou 103, descendre ` l'arret "Hyeres centre" (30 minutes), puis le bus 67 direction "TOUR FONDUE" s'arreter ` l'arret "ESTEREL" (40 minutes).
  • De l'aeroport de Toulon ` Hyeres : prendre un taxi ou bien marcher 1km environ sur le Bd de la marine en direction du sud jusqu'a l'Av. de l'Aeroport, prendre le bus 67 a l'arret "ARROMANCHES" direction "TOUR FONDUE" s'arreter ` l'arret "ESTEREL" (20 minutes).
Voir la CARTE Google __
Organistateurs:
Hervé Glotin & Jacques Le Maitre - USTV-LSIS BP20132, 83957 La Garde cedex 20.
Contact: Hervé Glotin Tél. : 04 94 14 28 24 / E-mail : glotin@univ-tln.fr
Comité de Programme: Hervé Glotin, Jacques Le Maitre.
Comité d’Organisation: Hervé Glotin, Jacques Le Maitre, Betty Gamma, Sabrina Tollari.

nb: AUDIENCE: 30 (MAXIMUM) ; dont Enseignants/Chercheurs, Industriels, et Etudiants (PostDoc, Doc., Master R ou P)


Situation: