Publication Search Form

Keywords

Authors

Year

We found publication with these paramters.

Méthode d apprentissage pour la conversion automatique de documents structurés

Jérôme Fuselier, Boris Chidlovskii, Jean-Charles Marty
De plus en plus de sociétés désirent moderniser leur système de gestion de fond documentaire. Le problème qui se pose à ces entreprises concerne la migration de leurs documents vers un format plus ouvert et offrant plus de possibilités. La tâche de conversion est rendue difficile d une part à cause de la grande hétérogénéité des documents et d autre part à cause du très grand volume de données à traiter. Dans ce papier nous présentons une approche permettant de réaliser des conversions de documents orientés présentation vers des documents sémantiques. L intérêt de la méthode consiste à automatiser le processus de conversion en utilisant des techniques d apprentissage supervisé pour découvrir des règles de transformations applicables pour une collection de documents. Nous décomposons la conversion en deux étapes pour simplifier le problème, une première étape d annotation sémantique des éléments textuels du document d origine et une seconde étape qui consiste à faire émerger la structure sémantique du document en respectant une grammaire cible qui décrit le langage à utiliser pour les documents finaux. L approche est probabiliste pour permettre une plus grande robustesse.
MajeCSTIC, Manifestation des Jeunes Chercheurs francophones dans les domaines des STIC, Rennes, France, 16-18 novembre 2005.
2005
2005/040

Attachments

majecstic_.pdf (396.47 kB)