M?thode d apprentissage pour la conversion automatique de documents structur
Authors:
J Fuselier, Boris Chidlovskii, Jean-Charles Marty
MajeCSTIC, Manifestation des Jeunes Chercheurs francophones dans les domaines des STIC, Rennes, France, 16-18 novembre 2005.
De plus en plus de soci?t?s d?sirent moderniser
leur syst?me de gestion de fond documentaire. Le
probl?me qui se pose ? ces entreprises concerne la migration
de leurs documents vers un format plus ouvert et offrant
plus de possibilit?s. La t?che de conversion est rendue
difficile d une part ? cause de la grande h?t?rog?n?it?
des documents et d autre part ? cause du tr?s grand volume
de donn?es ? traiter.
Dans ce papier nous pr?sentons une approche permettant
de r?aliser des conversions de documents orient?s
pr?sentation vers des documents s?mantiques. L int?r?t
de la m?thode consiste ? automatiser le processus de
conversion en utilisant des techniques d apprentissage
supervis? pour d?couvrir des r?gles de transformations
applicables pour une collection de documents. Nous
d?composons la conversion en deux ?tapes pour simplifier
le probl?me, une premi?re ?tape d annotation
s?mantique des ?l?ments textuels du document d origine
et une seconde ?tape qui consiste ? faire ?merger la
structure s?mantique du document en respectant une
grammaire cible qui d?crit le langage ? utiliser pour
les documents finaux. L approche est probabiliste pour
permettre une plus grande robustesse.
Year:
2005
Report number:
2005/040
Attachments
majecstic_.pdf (396.47 kB)