Soutenue par l’INRIA,
le GDRI3, le CNRS (DR12), l'Ass. Francophone de la Comm. Parlée (AFCP),
l’UMR Sciences de
l’Information & des Systèmes (LSIS), l'Univ. Sud-Toulon Var (USTV)
4ième Ecole Recherche Multimodale d'Information
Techniques & Sciences
[ ERMITES ]
22-23-24 sept. 2009
Presqu'île de Giens –
Var
Thème: RI dans les Scènes Audio-Visuelles
Proceedings
2009 (100 pages 16Mo .pdf)
ERMITES 2009 présente, et analyse avec pédagogie, la vaste problèmatique de la
Recherche d'Information (RI) dans des scènes multimodales (vidéo, page multimédia, …). Cette école, ouverte aux masters,
doctorants, postdocs, ingénieurs et chercheurs,
s'appuie sur les campagnes d'évaluation ESTER (Technolangues), ImageCLEF et
TRECVID NIST. Elle synthètise les points communs entre différentes
instances de systèmes de RI par le contenu, et lance
des ponts entre les nombreuses disciplines complémentaires qui les
élaborent.
L'originalité
d'ERMITES est de mettre l'accent sur les analyses inter-modalités, démontrant
ainsi l'intérêt de sortir d'un pré-carré spécifique. Nous pensons que cette démarche favorise l’ouverture et l’innovation en recherche. Les doctorants sont invités à
présenter leurs travaux (poster et table ronde). Ils pourront intégrer les 20h de cours dans leur doctoriale.
Le site et
les détails sur les éditions précèdentes sont sur http://glotin.univ-tln.fr/ERMITES
Résumés
des interventions (2h chacune environ)
Jean-Paul Haton (IUF & LORIA www.loria.fr/~jph/ )
"Du Signal de la Parole
à sa Sémantique"
Les systèmes actuels d'interaction
homme-machine (intelligence ambiante, moteurs de recherche, etc.) font appel
aux entrées-sorties vocales (reconnaissance et synthèse de la parole),
simultanément avec d'autres médias d'interaction. Les difficultés spécifiques
pour la reconnaissance sont nombreuses: nombre variable de locuteurs connus ou
inconnus, microphones distants, bruit ambiant, effets liés aux locaux (écho,
réverbération). Cet exposé rappellera les principes de la reconnaissance
automatique de la parole et présentera les niveaux fonctionnels d'un système :
prise de son, paramétrisation, analyses syntaxiques et sémantiques, en
insistant sur les modèles stochastiques actuellement les plus performants.
Jean-Paul Gauthier (LSIS http://people.sissa.it/~rossifr/jpg/ )
"Neurogéométrie
Déterministe d’Illusions Visuelles"
Je présente un algorithme de
reconstruction d'images altérées basé sur la théorie neurogéométrique de Petitot.
Pour cela, il faut calculer le noyau de la chaleur correspondant à la métrique
de Carnot-Carathéodory, ce que je fais explicitement en terme des fonctions
trigonométriques de Mathieu. Le calcul effectif des solutions de l'équation de
la chaleur se réduit ensuite à une série d'intégrales, qui donne lieu à un
développement explicite en transformées de Fourier-Bessel.
J'explique ces calculs très faciles,
et je présente des résultats d'extrapolation d'images, qui produisent
exactement ce que l'on attendait, notamment dans le cas d’illusions visuelles
classiques. Préalablement, je présente brièvement (ce que j'ai compris de) la
théorie neuro-géométrique de Petitot en résumant ses aspects psycho-visuels.
Eric Gaussier (LIG http://mrim.imag.fr/eric.gaussier/ )
"Modèles Probabilistes
pour la Recherche d’Information"
L’approche probabiliste pour la RI est très
diversifiée. Elle peut à la fois servir à établir des modèles de langage,
d’ontologie, mais aussi à mesurer les distances documents/requêtes.
Nous présentons les principales méthodes en question, en mettant l'accent sur les contraintes caractéristiques des modèles de RI et leurs liens avec les propriétés empiriques des collections de documents. Cette présentation sera l'occasion de passer en revue l'utilisation, en recherche d'information, des modèles de langue (Language Modeling Approach) et des modèles issus de la divergence par rapport à l'aléatoire (Divergence from Randomness Models).
Hervé Le Borgne (CEA LIST www.eeng.dcu.ie/~hlborgne/ )
"Recherche
d'Information dans les Images"
Dans un premier temps, nous
présenterons un historique et un état de l'art de la recherche d'information
concernant les
images fixes, en particulier en ce qui
concerne la "recherche d'images par le contenu".
La seconde partie présentera plus
spécifiquement des techniques de recherche d'images au sein de pages web
(évaluées dans le cadre de la campagne ImageCLEF 2008 et 2009, tâche
WikipediaMM) combinant la recherche d'information textuelle, la recherche par
le contenu et l'exploitation de ressources externes.
Georges Quenot (LIG http://mrim.imag.fr/georges.quenot )
"Indexation et
Apprentissage Actif sur des Masses de Vidéo type TRECVid NIST"
La plupart des
méthodes d'indexation par le contenu des images et des vidéos fonctionnent par
apprentissage supervisé. La performance des systèmes dépend de la qualité des
algorithmes d'apprentissage et de classification mais aussi de la quantité et
de la qualité des annotations disponibles, lesquelles sont coûteuses à obtenir
à cause de l'intervention hunaine qu'elle nécessitent.
L'apprentissage actif consiste à utiliser un système de classification pour
sélectionner les échantillons les plus informatifs pour l'entraînement de ce
même système. Ce cours comprend deux parties. L'introduction décrit les
principes, l'histoire et les principales applications de l'apprentissage actif.
Puis nous donnons une analyse détaillée d'une application de l'apprentissage
actif à l'annotation de corpus et à l'indexation de concepts dans les vidéos
dans le cadre de TRECVID.
Jérôme Farinas (IRIT www.irit.fr/~Jerome.Farinas/ )
"Méthodes Spectrales
pour l'Indexation Audiovisuelle"
Les données multimodales font
généralement partie d’une variété de faible dimensionalité emboîtée dans un
espace de haute dimension. Ces représentations peuvent fournir des informations
utiles sur la nature et l’organisation des données, exploitables en tâches de
classification ou regroupement.
Nous présentons les méthodes
spectrales de réduction de la dimensionalité qui construisent ces
représentations. Nous en analysons les résultats sur des informations
acoustiques (musique, parole). Nous étudions la dimensionalité intrinsèque des
vecteurs ainsi que la variance originale retenue dans les composantes
principales de leurs représentations de faible dimensionalité. Nous montrons
aussi l’efficacité de cette théorie du regroupement spectral dans le cas de
séquences audio, et en donnons les perspectives pour la RI
multimodale.
Bernard Merialdo (EURECOM www.eurecom.fr/people/merialdo.fr.htm )
"Résumé Haut-niveau de
Vidéo – TRECVid NIST"
Cette présentation s'attachera au
problème du résumé de séquences audio-visuelles. Nous traiterons des méthodes
générales, ainsi que du cas de données particulières, comme les films ou les journaux
télévisés. Nous étudierons la question fondamentale de l'évaluation. Enfin,
nous donnerons quelques indications sur le résumé multi-vidéo. Une partie de ce
travail est fait dans le cadre de la campagne d'évaluation TRECVID.
Jacques Le Maitre (LSIS www.univ-tln.fr/~lemaitre/ )
"RI
(semi-)Structurée: Indexation de page web par leur contenu et rendu
visuel"
Les
concepteurs de page web organisent les informations qu'elles contiennent de
façon à faciliter leur consultation par les utilisateurs. Une page web peut
être vue comme un ensemble de blocs contenant des informations multimédia
(texte, image, vidéo). L'apparence visuelle d'un bloc (fonte, couleur de
fond...) et sa position dans la page fournit une
information sur son importance. De plus, un bloc peut apporter de l'information
à un autre bloc (voisin, englobant, etc.). Par exemple, le texte entourant une
image ou la référençant peut être utilisé pour indexer cette image. Un autre
avantage de la prise en compte du découpage d'une page en blocs est la
possibilité de localiser les réponses à une requête : les blocs les plus
similaires sont retournés plutôt que les pages dans leur totalité. La précision
et l'exhaustivité des réponses à une requête à des pages web pourraient donc
être significativement améliorées en prenant en compte le rendu visuel de ces
pages en plus de leur contenu sémantique. Dans cet exposé seront présentés :
les principales techniques de segmentation d'une page web à partir le leur
arbre DOM, les techniques d'évaluation de l'importance d'un bloc dans une page
et le modèle d'indexation d'une page au LSIS.
--
Comité de Programme: les orateurs, avec Hervé Glotin (prés.).
Comité d’Organisation: Jacques Le Maitre (prés.), Frédéric Bernard,
Azeddine Zidouni, Salam Fraihat, Hervé Glotin
==============================================
* BON d' INSCRIPTION *
Ecole Recherche Multimodale d’Information - Techniques &
Sciences
Spéciale Analyse de Scènes - http://glotin.univ-tln.fr/ERMITES09
du 22 au 24 sept 2009 -
Presqu’île de Giens
- Var
avec les soutiens de l’INRIA, du
CNRS/GDRI3, du LSIS,
de l’AFCP, et
de l’USTV
Limitée
aux 32 premiers inscrits.
Envoyer
ce bon par Email à glotin@univ-tln.fr (sujet ERMITES09), et par
courier postal avec le paiement (bon de commande ou chèque à l'ordre du trésorier
de l'AFCP) à H. GLOTIN, LSIS Univ. Sud-Toulon Var,
Av. de l’Université, BP 20132, 83957 La Garde Cedex France.
Nom
et Prénom de l’inscrit:
Université
/ Laboratoire / Entreprise:
Adresse:
Tél:
Email:
Entourer
votre choix de formule (qui inclue 2 nuitées, 7 repas, 2 pts déj, pauses cafés,
actes papier, connections wifi, …):
A/
Formule en chambre partagée (2 lits simples séparés):
Doctorant, Postdoc,
Master = 270 euros,
Autres = 400 euros.
B/ Formule en
chambre simple:
Doctorant, Postdoc,
Master = 310 euros,
Autres = 440 euros.
C/
Formule avec repas midi et soirs, actes, sans nuitées
ni petits déj. = 170 euros.
Mode de paiement:
/_/ par chèque à l’ordre du « Trésorier de l’AFCP »,
/_/
par Bon de Commande pour l'AFCP (Réf. ci-dessous).
Organisme responsable du réglement (adresse, tél. & Email du
contact):
__________________________________________________
Références AFCP
Association
Francophone de la Communication Parlée
Etablissement :
30003 Guichet : 00990 N° de compte : 00037268733 Clé RIB 15
IBAN : FR 76
30003 00990 00037268733 15 BIC : SOGEFRPP
Domiciliation :
Société Générale – Grenoble
N° SIRET : 440 910 354 00016 – code
APE : 913E
Siège social :
AFCP, Université d’Avignon – 339, Ch. des meinajaries 84000 Avignon
__________________________________________________