Développeur IA / NLP — POC Chatbot et IA métier
CDIParis - 8ème arrondissement
UMANTIC TECHNOLOGIES
Publiée le 16 Octobre 2025
Missions
- Cartographier & préparer les données
o Identifier les sources internes (BDD visibles et non exposées), corpus normatifs internationaux et documents non structurés.
o Définir la stratégie d'ingestion, de normalisation et de gouvernance (qualité, traçabilité, métadonnées, RGPD).
- Concevoir le POC de chatbot conversationnel
o Évaluer des approches LLM (RAG, fine-tuning léger, réécriture de requêtes) adaptées aux cas d'usage.
o Prototyper une interface (CLI/terminal et/ou web minimaliste) avec recherche sémantique, citations et vérifiabilité.
- Proposer l'architecture cible
o Définir l'architecture technique (orchestration, vector store, pipelines ETL/ELT, observabilité, sécurité).
o Établir les prérequis d'industrialisation (coûts, MLOps, monitoring qualité, lifecycles des modèles).
- Développer \"GPT métier\"
o Concevoir un outil en ligne de commande (IAmétier\") pour retrouver rapidement les occurrences historiques d'événements similaires à des phénomènes actuels, en interrogeant directement les données structurées (PostgreSQL et BDD internes) et non structurées (normes internationales, PDF, docs).
- Contrôle qualité assisté par IA
o Mettre en place des vérifications automatiques (cohérence, complétude, détection d'anomalies textuelles ou de champs).
o Génération de résumés factuels et analyses automatiques dans les workflows de recherche.
Livrables attendus
- Cartographie des données + plan de remédiation qualité.
- Prototype fonctionnel (chatbot + CLI \"GPT métier\") avec journal de sources et évaluation.
- Dossier d'architecture (schémas, choix techno, sécurité, coûts) + plan d'industrialisation.
- Kit de présentation (démo, métriques, ROI attendu) pour parties prenantes.
* 4-6+ ans en développement IA/NLP (ou expérience équivalente démontrable par projets/références).
* À l'aise avec données structurées et non structurées, extraction depuis PDF/normes, indexation & recherche sémantique.
* Maîtrise de Python (FastAPI/Flask, tooling data), conteneurisation Docker, PostgreSQL (SQL avancé).
* Pratique des LLM (hébergés ou API), embeddings, RAG, évaluation et observabilité (logs, traces, métriques).
* Culture MLOps (environnements, reproductibilité, gestion des versions de données et modèles).
* Autonomie, sens produit, pédagogie pour l'accompagnement d'équipes non expertes.
Bonus appréciés
* Expérience secteur réglementaire/scientifique ou open data.
* Sécurité & conformité (contrôle d'accès, PII, RGPD, politiques de rétention).
* Traitement de documents longs (chunking avancé, tables/figures), OCR.
* Mise en place de benchmarks internes (Groundedness, Answer Relevancy, Latency/cost).
Indicateurs de succès du POC
* Pertinence & vérifiabilité : réponses sourcées, taux de grounding élevé.
* Couverture des principales sources (structurées/non structurées) et latence acceptable.
* Transférabilité : architecture claire, coûts maîtrisés, plan d'industrialisation réaliste.
* Adoption : démonstration convaincante pour sponsors et pays membres.
Environnement technique
- OS & Infra : Linux Debian, Docker (containers, compose), CI/CD basique.
- Données : PostgreSQL, formats hétérogènes (CSV/JSON/PDF), index vectoriels.
- Langages : Python, PHP (pour intégrations existantes).
- IA/NLP : pipelines d'ingestion, embeddings, RAG, évaluation de réponses (faithfulness, grounding).