[PDF] Rapport PFE MODULE D'EXTRACTION FOCALISE ET ANALYSE AUTOMATIQUE LINGUISTIQUE DU WEB


Résumé

Ce stage se déroule dans un cadre d'une collaborationentre l'Institut de Recherche en
Informatique de Toulouse (IRIT) et l' Équipe de Recherche en Syntaxe et Sémantique
(ERSS). Notre objectif est de développer un outil informatique pour la construction
automatique  des  corpus  à  partir  du  web  en  utilisant  les  outils  analyse  linguistique
existés. Il s'agit de la construction d'un crawl focalisé du web et de l'intégration des
outils  d'analyse  linguistique  pour  analyser  les  pages  Web.  Dans  un  premier  temps,
nous présentons un modèle de crawl focalisé qui parcourait le Web pour télécharger
les  pages  concernées  à  un  sujet  spécifique.  Le  crawl  doit  faire  sortie  deux  résultats
importants: les contenus textuelle des pages Web et le graphe des hyperliens des pages
Web.  Dans  un  deuxième  temps,  nous  faisons  une  études sur  les  outils  d'analyse
linguistique  TreeTagger,  Syntex  et  Upery  et  les  int égrons  dans  le  système  pour
l'analyse des pages Web. Nous effectuons aussi le prétraitement des textes récupérés
par le crawl avant de les passer à des outils linguistique. Lerésultat final est des corpus
analysés qui parlent d'un sujet spécifique.
Download


Plus récente Plus ancienne

Formulaire de contact