Aller au contenu
Logo
RAG documents

RAG et recherche sémantique sur vos documents

Vos documents internes interrogeables en langage naturel, avec citation obligatoire vers la source.

  • pgvector si vous tournez déjà sur PostgreSQL, Qdrant au-delà du million de chunks
  • Citation obligatoire dans la réponse, vérifiée contre les sources retournées
  • Eval recall@k et faithfulness mesurés à chaque déploiement

Le contexte

Pourquoi c'est dur à bien faire

Une PME de 50 personnes a trois ans de documents éparpillés sur Drive, Notion et Slack. Personne ne retrouve la procédure support de l'an dernier, le contrat signé avec ce client, ou la décision technique de 2024. Le réflexe "on demande à Marie" ne scale pas, et Marie part en vacances.

Brancher un assistant générique sur un export Drive donne des réponses qui ressemblent à la vérité et qui sont fausses. C'est pire qu'une absence de réponse parce que personne ne sait que c'est faux.

Mon approche

Comment je le fais

Pipeline complète d'ingestion depuis vos sources (Drive, Notion, Confluence, PDF, base interne) avec découpage qui respecte la structure du document. Embeddings choisis selon la langue principale de votre corpus. Stockage dans pgvector si vous êtes déjà sur PostgreSQL, Qdrant si on dépasse le million de chunks ou s'il faut du filtrage multi-tenant.

Recherche sémantique avec reranking, génération sous contrainte de citation, vérification post-génération que chaque citation existe dans les sources retournées. Pipeline d'indexation incrémentale pour ne pas tout rebâtir à chaque mise à jour. Eval recall@k et faithfulness mesurés sur un dataset golden que vous validez au cadrage.

Stack & outils

pgvectorQdrantMistral EmbedOpenAI EmbeddingsAnthropic ClaudeRagasLangfusePythonPostgreSQLDocker

Cas d'usage

Ce que ça donne en vrai

1

Assistant sur jurisprudence ou contrats internes

Recherche sur plusieurs années de contrats ou de délibérations internes. Réponse avec l'extrait exact cité et un lien vers le document d'origine. Quand le corpus ne contient pas la réponse, le système le dit au lieu de combler le vide.

2

Onboarding développeurs sur codebase legacy

Indexation de la doc, des PR mergées et des ADR de votre codebase. Un nouveau dev pose sa question, obtient une réponse avec liens vers le code concerné. Les seniors arrêtent de répéter les mêmes explications trois fois par semaine.

3

Support produit B2B sur documentation technique

Réponse aux questions d'intégration en citant la doc API publique, avec lien direct vers la section. Le ticket de niveau 1 baisse sans cacher la doc derrière un chatbot frustrant : le lien reste là, le client peut vérifier.

Questions fréquentes

Ce qu'on me demande sur ce sujet

pgvector ou Qdrant, comment choisir ?

pgvector si vous avez déjà PostgreSQL et moins d'un million de chunks. Une dépendance en moins à opérer, des requêtes hybrides faciles avec le reste de votre schéma métier. Qdrant au-delà, ou quand vous avez besoin de filtrage multi-tenant fin ou de réplicas dédiés à la recherche.

Comment vous garantissez que les réponses ne sont pas hallucinées ?

Citation obligatoire dans le prompt système, vérification post-génération que chaque citation existe dans les sources retournées, eval continue sur un dataset de questions de référence. Une réponse non sourçable est rejetée ou marquée incertaine côté UI plutôt qu'affichée comme un fait.

Combien de documents au maximum ?

L'infra tient des millions de chunks sans effort. La vraie limite, c'est la qualité du découpage et la pertinence du modèle d'embedding sur votre vocabulaire métier. Au cadrage on valide ça sur un échantillon représentatif avant d'industrialiser l'ingestion complète.

On en parle ?

Premier échange gratuit, sans engagement. On regarde ensemble si ce service est le bon pour votre besoin.