Keywords

Authors

Year

M?thode d apprentissage pour la conversion automatique de documents structur

Authors: J Fuselier, Boris Chidlovskii, Jean-Charles Marty
MajeCSTIC, Manifestation des Jeunes Chercheurs francophones dans les domaines des STIC, Rennes, France, 16-18 novembre 2005.
De plus en plus de soci?t?s d?sirent moderniser leur syst?me de gestion de fond documentaire. Le probl?me qui se pose ? ces entreprises concerne la migration de leurs documents vers un format plus ouvert et offrant plus de possibilit?s. La t?che de conversion est rendue difficile d une part ? cause de la grande h?t?rog?n?it? des documents et d autre part ? cause du tr?s grand volume de donn?es ? traiter. Dans ce papier nous pr?sentons une approche permettant de r?aliser des conversions de documents orient?s pr?sentation vers des documents s?mantiques. L int?r?t de la m?thode consiste ? automatiser le processus de conversion en utilisant des techniques d apprentissage supervis? pour d?couvrir des r?gles de transformations applicables pour une collection de documents. Nous d?composons la conversion en deux ?tapes pour simplifier le probl?me, une premi?re ?tape d annotation s?mantique des ?l?ments textuels du document d origine et une seconde ?tape qui consiste ? faire ?merger la structure s?mantique du document en respectant une grammaire cible qui d?crit le langage ? utiliser pour les documents finaux. L approche est probabiliste pour permettre une plus grande robustesse.
Year: 2005
Report number: 2005/040

Attachments

majecstic_.pdf (396.47 kB)