Soutenue par l’INRIA, le GDRI3, le CNRS (DR12), l'Ass. Francophone de la Comm. Parlée (AFCP),

l’UMR Sciences de l’Information & des Systèmes (LSIS), l'Univ. Sud-Toulon Var (USTV)

4ième Ecole Recherche Multimodale d'Information

Techniques & Sciences

[ ERMITES ]

22-23-24 sept. 2009

Presqu'île de Giens – Var

Thème: RI dans les Scènes Audio-Visuelles

Proceedings 2009 (100 pages 16Mo .pdf)

 

ERMITES 2009 présente, et analyse avec pédagogie, la vaste problèmatique de la Recherche d'Information (RI) dans des scènes multimodales (vidéo, page multimédia, …). Cette école, ouverte aux masters, doctorants, postdocs, ingénieurs et chercheurs, s'appuie sur les campagnes d'évaluation ESTER (Technolangues), ImageCLEF et TRECVID NIST. Elle synthètise les points communs entre différentes instances de systèmes de RI par le contenu, et lance des ponts entre les nombreuses disciplines complémentaires qui les élaborent.

L'originalité d'ERMITES est de mettre l'accent sur les analyses inter-modalités, démontrant ainsi l'intérêt de sortir d'un pré-carré spécifique. Nous pensons que cette démarche favorise l’ouverture et l’innovation en recherche. Les doctorants sont invités à présenter leurs travaux (poster et table ronde). Ils pourront intégrer les 20h de cours dans leur doctoriale.

Le site et les détails sur les éditions précèdentes sont sur http://glotin.univ-tln.fr/ERMITES

 

 

Résumés des interventions (2h chacune environ)

 Jean-Paul Haton (IUF & LORIA www.loria.fr/~jph/ )

"Du Signal de la Parole à sa Sémantique"

Les systèmes actuels d'interaction homme-machine (intelligence ambiante, moteurs de recherche, etc.) font appel aux entrées-sorties vocales (reconnaissance et synthèse de la parole), simultanément avec d'autres médias d'interaction. Les difficultés spécifiques pour la reconnaissance sont nombreuses: nombre variable de locuteurs connus ou inconnus, microphones distants, bruit ambiant, effets liés aux locaux (écho, réverbération). Cet exposé rappellera les principes de la reconnaissance automatique de la parole et présentera les niveaux fonctionnels d'un système : prise de son, paramétrisation, analyses syntaxiques et sémantiques, en insistant sur les modèles stochastiques actuellement les plus performants.

 

Jean-Paul Gauthier (LSIS http://people.sissa.it/~rossifr/jpg/ )

"Neurogéométrie Déterministe d’Illusions Visuelles"

 

Je présente un algorithme de reconstruction d'images altérées basé sur la théorie neurogéométrique de Petitot. Pour cela, il faut calculer le noyau de la chaleur correspondant à la métrique de Carnot-Carathéodory, ce que je fais explicitement en terme des fonctions trigonométriques de Mathieu. Le calcul effectif des solutions de l'équation de la chaleur se réduit ensuite à une série d'intégrales, qui donne lieu à un développement explicite en transformées de Fourier-Bessel.

J'explique ces calculs très faciles, et je présente des résultats d'extrapolation d'images, qui produisent exactement ce que l'on attendait, notamment dans le cas d’illusions visuelles classiques. Préalablement, je présente brièvement (ce que j'ai compris de) la théorie neuro-géométrique de Petitot en résumant ses aspects psycho-visuels.

 

Eric Gaussier (LIG http://mrim.imag.fr/eric.gaussier/ )

"Modèles Probabilistes pour la Recherche d’Information"

L’approche probabiliste pour la RI est très diversifiée. Elle peut à la fois servir à établir des modèles de langage, d’ontologie, mais aussi à mesurer les distances documents/requêtes. Nous présentons les principales méthodes en question, en mettant l'accent sur les contraintes caractéristiques des modèles de RI et leurs liens avec les propriétés empiriques des collections de documents. Cette présentation sera l'occasion de passer en revue l'utilisation, en recherche d'information, des modèles de langue (Language Modeling Approach) et des modèles issus de la divergence par rapport à l'aléatoire (Divergence from Randomness Models).

 

Hervé Le Borgne (CEA LIST www.eeng.dcu.ie/~hlborgne/ )

"Recherche d'Information dans les Images"

 

Dans un premier temps, nous présenterons un historique et un état de l'art de la recherche d'information concernant les

images fixes, en particulier en ce qui concerne la "recherche d'images par le contenu".

La seconde partie présentera plus spécifiquement des techniques de recherche d'images au sein de pages web (évaluées dans le cadre de la campagne ImageCLEF 2008 et 2009, tâche WikipediaMM) combinant la recherche d'information textuelle, la recherche par le contenu et l'exploitation de ressources externes.

 

Georges Quenot (LIG http://mrim.imag.fr/georges.quenot )

"Indexation et Apprentissage Actif sur des Masses de Vidéo  type TRECVid NIST"

La plupart des méthodes d'indexation par le contenu des images et des vidéos fonctionnent par apprentissage supervisé. La performance des systèmes dépend de la qualité des algorithmes d'apprentissage et de classification mais aussi de la quantité et de la qualité des annotations disponibles, lesquelles sont coûteuses à obtenir à cause de l'intervention hunaine qu'elle nécessitent. L'apprentissage actif consiste à utiliser un système de classification pour sélectionner les échantillons les plus informatifs pour l'entraînement de ce même système. Ce cours comprend deux parties. L'introduction décrit les principes, l'histoire et les principales applications de l'apprentissage actif. Puis nous donnons une analyse détaillée d'une application de l'apprentissage actif à l'annotation de corpus et à l'indexation de concepts dans les vidéos dans le cadre de TRECVID.

 

Jérôme Farinas (IRIT www.irit.fr/~Jerome.Farinas/ )

"Méthodes Spectrales pour l'Indexation Audiovisuelle"

 

Les données multimodales font généralement partie d’une variété de faible dimensionalité emboîtée dans un espace de haute dimension. Ces représentations peuvent fournir des informations utiles sur la nature et l’organisation des données, exploitables en tâches de classification ou regroupement.

Nous présentons les méthodes spectrales de réduction de la dimensionalité qui construisent ces représentations. Nous en analysons les résultats sur des informations acoustiques (musique, parole). Nous étudions la dimensionalité intrinsèque des vecteurs ainsi que la variance originale retenue dans les composantes principales de leurs représentations de faible dimensionalité. Nous montrons aussi l’efficacité de cette théorie du regroupement spectral dans le cas de séquences audio, et en donnons les perspectives pour la RI multimodale.

 

Bernard Merialdo (EURECOM www.eurecom.fr/people/merialdo.fr.htm )

"Résumé Haut-niveau de Vidéo – TRECVid NIST"

 

Cette présentation s'attachera au problème du résumé de séquences audio-visuelles. Nous traiterons des méthodes générales, ainsi que du cas de données particulières, comme les films ou les journaux télévisés. Nous étudierons la question fondamentale de l'évaluation. Enfin, nous donnerons quelques indications sur le résumé multi-vidéo. Une partie de ce travail est fait dans le cadre de la campagne d'évaluation TRECVID.

 

Jacques Le Maitre (LSIS www.univ-tln.fr/~lemaitre/ )

"RI (semi-)Structurée: Indexation de page web par leur contenu et rendu visuel"

Les concepteurs de page web organisent les informations qu'elles contiennent de façon à faciliter leur consultation par les utilisateurs. Une page web peut être vue comme un ensemble de blocs contenant des informations multimédia (texte, image, vidéo). L'apparence visuelle d'un bloc (fonte, couleur de fond...) et sa position dans la page fournit une information sur son importance. De plus, un bloc peut apporter de l'information à un autre bloc (voisin, englobant, etc.). Par exemple, le texte entourant une image ou la référençant peut être utilisé pour indexer cette image. Un autre avantage de la prise en compte du découpage d'une page en blocs est la possibilité de localiser les réponses à une requête : les blocs les plus similaires sont retournés plutôt que les pages dans leur totalité. La précision et l'exhaustivité des réponses à une requête à des pages web pourraient donc être significativement améliorées en prenant en compte le rendu visuel de ces pages en plus de leur contenu sémantique. Dans cet exposé seront présentés : les principales techniques de segmentation d'une page web à partir le leur arbre DOM, les techniques d'évaluation de l'importance d'un bloc dans une page et le modèle d'indexation d'une page au LSIS.

 

--

Comité de Programme: les orateurs, avec Hervé Glotin (prés.).

Comité d’Organisation: Jacques Le Maitre (prés.), Frédéric Bernard, Azeddine Zidouni, Salam Fraihat, Hervé Glotin

==============================================

* BON d' INSCRIPTION *

Ecole Recherche Multimodale d’Information - Techniques & Sciences

Spéciale Analyse de Scènes - http://glotin.univ-tln.fr/ERMITES09
du 22 au 24 sept 2009 -

Actes complets ERMITES 2009 (100 pages 16Mo .pdf)

Presqu’île de Giens - Var
avec les soutiens de l’INRIA, du CNRS/GDRI3, du LSIS, de l’AFCP,  et de l’USTV

Limitée aux 32 premiers inscrits.

Envoyer ce bon par Email à glotin@univ-tln.fr (sujet ERMITES09), et par courier postal avec le paiement (bon de commande ou chèque à l'ordre du trésorier de l'AFCP) à H. GLOTIN, LSIS Univ. Sud-Toulon Var, Av. de l’Université, BP 20132, 83957 La Garde Cedex France.

Nom et Prénom de l’inscrit:

Université / Laboratoire / Entreprise:

Adresse:

Tél:

Email:

Entourer votre choix de formule (qui inclue 2 nuitées, 7 repas, 2 pts déj, pauses cafés, actes papier, connections wifi, …):

A/ Formule en chambre partagée (2 lits simples séparés):

Doctorant, Postdoc, Master = 270 euros,

Autres = 400 euros.

B/ Formule en chambre simple:

Doctorant, Postdoc, Master = 310 euros,

Autres = 440 euros.

C/ Formule avec repas midi et soirs, actes, sans nuitées ni petits déj. = 170 euros.

Mode de paiement:

/_/ par chèque à l’ordre du « Trésorier de l’AFCP »,

/_/ par Bon de Commande pour l'AFCP (Réf. ci-dessous).

Organisme responsable du réglement (adresse, tél. & Email du contact):

 

 

 

 


---------------
* PROGRAMME *

* Mardi 22 septembre
11h-12h : ouverture + exposé introductif
12h15-13h30 : repas
13h30-15h00 : Jean-Paul Haton (LORIA & IUF, Nancy) "Du signal de la parole à sa sémantique"
15h-15h15 : pause
15h15-16h45 : Hervé Le Borgne (CEA LIST, Fontenay aux Roses) "Recherche d'information dans les images"

* Mercredi 23 septembre
9h00-10h30 : Jean-Paul Gauthier (LSIS, Toulon) "Neurogéométrie déterministe d'illusions visuelles"
10h30-10h45 : pause
10h45-12h15 : Jérôme Farinas (IRIT, Toulouse) "Méthodes spectrales pour l'indexation audiovisuelle"
12h15-16h : repas + temps libre
16h00-17h30 : Eric Gaussier (LIG, Grenoble) "Modèles probabilistes pour la recherche d'information"
17h30-17h45 : pause
17h45-19h15 : Jacques Le Maitre (LSIS, Toulon) "Recherche d'information dans des pages web tenant compte de leur présentation et de leur contenu"

* Jeudi 24 septembre
9h00-10h30 : Bernard Merialdo (EURECOM, Sophia Antipolis) "Résumé haut-niveau de vidéo - TRECVid NIST"
10h30-10h45 : pause
10h45-12h15 : Georges Quenot (LIG, Grenoble) "Indexation et apprentissage actif sur des masses de vidéo type TRECVid NIST"
12h15-13h30 : repas + pause
13h30-14h30 : clôture - bilan et perspectives
==============================

__________________________________________________

Références AFCP

Association Francophone de la Communication Parlée

Etablissement : 30003 Guichet : 00990 N° de compte : 00037268733 Clé RIB 15

IBAN : FR 76 30003 00990 00037268733 15 BIC : SOGEFRPP

Domiciliation : Société Générale – Grenoble

N° SIRET : 440 910 354 00016 – code APE : 913E

Siège social : AFCP, Université d’Avignon – 339, Ch. des meinajaries 84000 Avignon

__________________________________________________