👨🏻‍💻 postech.work

Data Engineer (NLP & Données Non Structurées)

Cognizant • 🌐 In Person

In Person Posted 1 day, 8 hours ago

Job Description

À propos du poste

Dans le cadre d’une mission stratégique pour un grand compte du secteur Life Sciences, vous rejoindrez une équipe projet dédiée à la mise en place de solutions d’IA générative pour répondre à des besoins concrets : automatisation, recherche intelligente et valorisation des données non structurées (documents, scans, emails, multimédia).

Votre rôle sera clé pour concevoir et déployer des pipelines de données robustes, permettant d’ingérer, traiter, enrichir et servir des contenus variés au service de cas d’usage NLP, RAG et analytiques.

Vous intégrerez notre practice Data \& AI, en collaboration avec des experts techniques et métiers, pour développer des outils innovants qui facilitent la rédaction automatique, la recherche d’informations et l’analyse avancée, tout en garantissant la sécurité et la conformité des données. Ce poste est à pourvoir en CDI*

Vos responsabilités

Ingestion \& Normalisation

Mise en place de flux d’ingestion évolutifs depuis différents systèmes (partages de fichiers, ECM, boîtes mail, API), traitement des documents PDF et images (OCR/Textract), nettoyage des textes et protection des données personnelles (PII).

Transformation \& Curation

Développement de pipelines Python pour la tokenisation, enrichissement des métadonnées, reconnaissance d’entités nommées (NER), mapping d’ontologies et standardisation des schémas.

Vectorisation \& Indexation

Génération d’embeddings, découpage des contenus (chunking) et publication des données dans des bases vectorielles (FAISS, Elastic, OpenSearch) pour alimenter moteurs de recherche et applications RAG.

Qualité \& Traçabilité

Contrôles qualité, catalogage et traçabilité des données, automatisation des tests et de la réconciliation pour garantir la fiabilité des traitements.

Orchestration \& Opérations

Construction et optimisation des workflows CI/CD (Azure DevOps), planification des jobs, mise en place de l’observabilité, pilotage des coûts et de la performance (FinOps).

Sécurité \& Gouvernance

Application des règles de confidentialité et d’IA responsable (classification, consentement, masquage), garantie de l’auditabilité et définition des politiques d’accès pour assurer la conformité et la sécurité des données.

Profil recherché

Compétences requises

Diplôme universitaire ou école d’ingénieur en informatique, mathématiques, data science ou domaine connexe.

Minimum 5 ans d’expérience dans des environnements similaires.

Solide maîtrise de Python et SQL ; pipelines documents/OCR.

Pratique du NLP pour données non structurées (NER, résumé, recherche sémantique).

Expérience dans la mise en place de solutions RAG.

Ce qui fera la différence

Connaissance des knowledge graphs et des requêtes (SPARQL, Cypher).

Familiarité avec les cas d’usage traduction/grounding via OpenSearch Memories.

Expérience en environnement réglementé (ex. : sciences de la vie).

Modèle de travail : hybride

Chez Cognizant, nous privilégions le modèle hybride et nous nous efforçons d’offrir autant de flexibilité que possible. Il s’agit d’un poste hybride nécessitant une présence de 3 jours par semaine dans les locaux du client ou de Cognizant à La Défense.

Quel que soit votre mode de travail, nous sommes là pour soutenir un bon équilibre vie professionnelle/vie personnelle.

Les modalités de travail pour ce poste sont exactes à la date de publication. Elles peuvent évoluer en fonction du projet sur lequel vous serez engagé, ainsi que des besoins métier et client. Soyez assuré·e que nous serons toujours transparents sur les attentes liées au poste.Nous sommes impatients de rencontrer des profils techniques curieux et engagés. Même si vous ne répondez pas à tous les critères, n’hésitez pas à postuler : vos expériences transférables et votre envie d’apprendre peuvent faire la différence.

Get job updates in your inbox

Subscribe to our newsletter and stay updated with the best job opportunities.