CrawlJobs Logo

Consultant Data Vision-Langage & Extraction de Connaissance

https://www.inetum.com Logo

Inetum

Location Icon

Emplacement:
France, Nantes

Category Icon
Catégorie:
Informatique - Développement de logiciels

Job Type Icon

Type de contrat:
Non fourni

Salary Icon

Salaire:

Non fourni
Enregistrer l'offre
Save Icon
Postuler

Description du poste:

Dans le cadre d'un programme d'accélération de l'Intelligence Artificielle mené par un grand acteur du secteur bancaire, construire une base de connaissance à partir de documents non structurés (PDF, Word, HTML), afin de formaliser la connaissance de manière agnostique et réutilisable à long terme.

Responsabilités:

  • Extraire du texte depuis des fichiers PDF, Word, HTML via des librairies adaptées
  • Nettoyer et normaliser les contenus (suppression de bruit, OCR si nécessaire)
  • Segmenter les textes en unités de connaissance structurées (sections, blocs)
  • Enrichir les unités avec des métadonnées (source, date, thème, typologie)
  • Concevoir un format pivot standardisé (Markdown enrichi ou JSON)
  • Documenter le format et les choix de structuration
  • Collaborer avec l'équipe KM pour affiner les modèles de structuration
  • Mettre en place un pipeline automatisé et réutilisable pour traiter de nouveaux documents

Exigences:

  • Maîtrise des outils et librairies d'extraction de texte (PDFMiner, Apache Tika, BeautifulSoup, etc.)
  • Expérience en traitement de documents non structurés et en nettoyage de données textuelles
  • Connaissance des techniques d'OCR (Tesseract ou équivalent)
  • Compréhension des modèles Vision-Langage (VLM) et de leur application à la structuration de contenu
  • Capacité à concevoir des formats de données structurés (JSON, Markdown enrichi)
  • Bonnes compétences en scripting (Python, etc.) pour automatiser les traitements
  • Expérience significative en Knowledge Management, Data Engineering, ou Traitement Automatique du Langage (TAL)
  • Autonomie, rigueur, et capacité à documenter clairement les choix techniques
  • Bon relationnel pour collaborer avec des équipes pluridisciplinaires

Souhaitable:

Connaissance de Domino Data Lab appréciée

Informations supplémentaires:

Offre publiée:
30 septembre 2025

Type d'emploi:
Temps plein
Type de travail:
Travail sur site
Partager le lien de l'offre:
Bienvenue sur CrawlJobs.com
Votre plateforme mondiale de découverte d'emploi
Chez CrawlJobs.com, nous simplifions le processus de recherche de votre prochaine opportunité de carrière en vous apportant directement des offres d'emploi de tous les coins du web. En utilisant une IA de pointe et des technologies de crawling web, nous recueillons et sélectionnons des offres d'emploi provenant de diverses sources à travers le monde, en vous assurant un accès aux offres les plus récentes en un seul endroit.