LockPIC - Assistant Cybersécurité pour le RSSI

Le projet AEGIS vise à solutionner la surcharge de travail du Responsable de la Sécurité des Systèmes d'Information (RSSI), souvent seul pour gérer la sécurité de centaines d'employés. En développant un assistant IA basé sur une architecture RAG (Retrieval-Augmented Generation), cet outil ingère les politiques de sécurité de l'entreprise pour répondre directement et précisément aux questions des collaborateurs, libérant ainsi le RSSI des tâches répétitives et lui permettant de se concentrer sur des missions à plus haute valeur ajoutée.

Fonctionnalités

Système RAG pour des réponses basées sur les documents de sécurité de l'entreprise.

Extraction de données de documents PDF et Word avec OCR (Mistral OCR).

Gestion des utilisateurs et des rôles avec une base de données PostgreSQL.

API basée sur FastAPI et MongoDB pour l'intégration et la communication avec le système.

Benchmark approfondi pour sélectionner les meilleurs modèles d'embedding (voyage-3) et de génération (gemini-2.0-flash).

Intégration prévue avec des plateformes collaboratives comme Slack et Teams.

Défis

Choisir le modèle d'embedding le plus performant pour la sémantique spécifique des politiques de sécurité.

Sélectionner le LLM offrant le meilleur compromis entre performance, coût, et faible taux d'hallucination.

Extraire de manière fiable le texte et les tableaux de documents au format hétérogène.

Assurer la pertinence des informations extraites (chunks) pour chaque question utilisateur.

Mettre en place un système de test robuste pour évaluer objectivement la qualité des réponses générées.

Déployer une application fonctionnelle de bout en bout, fiable, multi-tenant et sécurisée.

Solutions

Création d'un benchmark sur un cas d'usage RSSI pour évaluer plusieurs modèles d'embedding, menant au choix de voyage-3.

Utilisation de l'outil open-source Giskard pour implémenter des tests et évaluer les LLMs sur des métriques clés (Correctness, Faithfulness, Hallucination).

Comparaison d'outils d'extraction de données (PDFplumber, Mistral OCR) pour optimiser la qualité de l'ingestion.

Implémentation d'une architecture RAG pour ancrer les réponses du LLM dans des sources documentaires vérifiées.

Définition d'un score pondéré pour classer les modèles et sélectionner gemini-2.0-flash comme la solution la plus équilibrée.