Session

Indexer ses documents bureautique avec la suite Elastic et FSCrawler

Vous avez sous la main des tonnes de documents Open Office, Microsoft Office, PDF voire des images... et vous aimeriez être capable de chercher dans leurs meta-données et dans le contenu lui-même. Comment faire ? Surtout depuis l'annonce de la fin de Google Search Appliance.

Dans cette session, David expliquera comment Apache Tika peut fournir ce service et comment combiner cette fantastique librairie avec elasticsearch :

* Elasticsearch [ingest-attachment processor](https://www.elastic.co/guide/en/elasticsearch/reference/current/attachment.html)
* [FSCrawler](https://github.com/dadoonet/fscrawler)
* Connecteur [Workplace Search](https://www.elastic.co/workplace-search) pour FSCrawler afin de disposer sur étagère d'une interface utilisateur puissante pour vos documents.

Nous lancerons également des recherches hybrides sur notre base documentaire à l'aide de modèles d'IA et nous serons ainsi capable de faire de la recherche sémantique en complément de la "recherche traditionnelle par termes". Et enfin, nous demanderons à OpenAI de nous fournir une réponse intelligible aux questions que nous venons de poser.

Auteur du projet depuis plus de 10 ans, je n'en ai jamais vraiment fait la promotion alors qu'il devient assez populaire (env. 1000 stars sur Github).
Il est temps de remédier à cela, surtout qu'il apporte des solutions utiles pour des cas d'usage assez courants en entreprise, à savoir, comment indexer du contenu tel que des documents PDF, Open Office, ...

Format 20% slides et 80% démo.

J'expliquerai les différentes stratégies de code par lesquelles je suis notamment passé, comme passer d'un monolithe maven à un projet multi-modules, de l'introduction de Docker pour les tests d'intégration, de la mécanique de "watching de répertoires" que j'ai implémentée avec les failles d'une telle implémentation ainsi que l'avenir du projet.

David Pilato

Developer | Evangelist @ elastic

Cergy, France

Please note that Sessionize is not responsible for the accuracy or validity of the data provided by speakers. If you suspect this profile to be fake or spam, please let us know.

Jump to top