Résumé
Ce stage se déroule dans un cadre d'une collaborationentre l'Institut de Recherche enInformatique de Toulouse (IRIT) et l' Équipe de Recherche en Syntaxe et Sémantique
(ERSS). Notre objectif est de développer un outil informatique pour la construction
automatique des corpus à partir du web en utilisant les outils analyse linguistique
existés. Il s'agit de la construction d'un crawl focalisé du web et de l'intégration des
outils d'analyse linguistique pour analyser les pages Web. Dans un premier temps,
nous présentons un modèle de crawl focalisé qui parcourait le Web pour télécharger
les pages concernées à un sujet spécifique. Le crawl doit faire sortie deux résultats
importants: les contenus textuelle des pages Web et le graphe des hyperliens des pages
Web. Dans un deuxième temps, nous faisons une études sur les outils d'analyse
linguistique TreeTagger, Syntex et Upery et les int égrons dans le système pour
l'analyse des pages Web. Nous effectuons aussi le prétraitement des textes récupérés
par le crawl avant de les passer à des outils linguistique. Lerésultat final est des corpus
analysés qui parlent d'un sujet spécifique.
Download
Tags:
rapports