Publications
Authors:
  • Jérôme Fuselier , Boris Chidlovskii , Jean-Charles Marty
Citation:
MajeCSTIC, Manifestation des Jeunes Chercheurs francophones dans les domaines des STIC, Rennes, France, 16-18 novembre 2005.
Abstract:
De plus en plus de sociétés désirent moderniser
leur système de gestion de fond documentaire. Le
problème qui se pose à ces entreprises concerne la migration
de leurs documents vers un format plus ouvert et offrant
plus de possibilités. La tâche de conversion est rendue
difficile d une part à cause de la grande hétérogénéité
des documents et d autre part à cause du très grand volume
de données à traiter.
Dans ce papier nous présentons une approche permettant
de réaliser des conversions de documents orientés
présentation vers des documents sémantiques. L intérêt
de la méthode consiste à automatiser le processus de
conversion en utilisant des techniques d apprentissage
supervisé pour découvrir des règles de transformations
applicables pour une collection de documents. Nous
décomposons la conversion en deux étapes pour simplifier
le problème, une première étape d annotation
sémantique des éléments textuels du document d origine
et une seconde étape qui consiste à faire émerger la
structure sémantique du document en respectant une
grammaire cible qui décrit le langage à utiliser pour
les documents finaux. L approche est probabiliste pour
permettre une plus grande robustesse.
Year:
2005
Report number:
2005/040
Attachments: