[Rapport de Stage ]Indexation plein texte de nombreux formats de documents contenant du texte, et leurs métadonnées

INTRODUCTION

De plus en plus de gens publient leurs articles, photos, vidéos et autres documents sur le web.
Ceci leur permet de les partager avec qui ils veulent, mais aussi d’y avoir accès de n’importe où, il
suffit d’une simple connexion internet. Aujourd’hui, de nombreux sites Internet proposent
d’héberger nos documents (souvent spécialisés pour un certain type : photo, vidéo, …) et beaucoup
sont très célèbres dans le monde du web.

Si le fait de mettre ses documents en ligne nous semble évident de nos jours, c’était loin d’être
le cas, il y a quelques années, quand ipernity a commencé le projet.
Un des points qui permet à ces sites de se démarquer par rapport aux concurrents est la valeur
ajoutée aux documents présentés : tag, géolocalisation, commentaires, affichage des
métadonnées... ipernity propose déjà ce genre de fonctionnalités pour les photos et les vidéos,
mais a souhaité faire de même avec les documents textes.
Pour ce faire, leur souhait fut de trouver des systèmes pour extraire le texte brut et les
métadonnées des documents pour pouvoir faire des recherches, mais aussi de chercher des
moyens de les rendre facilement visualisables aux visiteurs et ce pour le plus grand nombre de documents « texte » possible (Microsoft Word et PowerPoint, OpenDocument, code source, …).
C’est pour effectuer ces recherches et pour y trouver des solutions concrètes que cette entreprise
m’a pris en stage pour l’été 2007.
Dans la suite de ce rapport, dans un premier temps, je vous présenterai ipernity, son histoire,
ses projets, sa situation actuelle, … Ensuite, je détaillerai l’objectif de mon stage, les contraintes et
les moyens dont je pouvais disposer et bien évidemment, la solution que j’ai proposée. Enfin, je décrirai les différentes étapes de mes recherches et du développement ainsi que les problèmes que
j’ai pu rencontrer tout au long du stage.

Download

[Rapport de Stage ]Indexation plein texte de nombreux formats de documents contenant du texte, et leurs métadonnées

INTRODUCTION

Formulaire de contact