Retour aux projets
Deep Learning pour la Spectrométrie de Masse

Deep Learning pour la Spectrométrie de Masse

Stage
PythonPyTorchDeep-LearningTransformersMSBERTAnalyse de donnéesPandas

Collaborateurs

Peter Lin

Ce stage à l'INERIS a porté sur l'application de modèles de fondation, comme MSBERT, pour automatiser l'identification de substances chimiques à partir de leurs spectres de masse. Le projet a consisté à adapter ces modèles, initialement prévus pour des données DDA, aux données complexes de type DIA (Data-Independent Acquisition) utilisées par l'institut pour la surveillance environnementale, notamment l'analyse d'échantillons d'eau de rivière.

Fonctionnalités

  • Adaptation du modèle de fondation MSBERT pour l'analyse de spectres.
  • Développement d'une méthodologie pour comparer des spectres DIA à une bibliothèque de spectres DDA.
  • Création d'un score de similarité basé sur les embeddings de MSBERT, plus nuancé que les scores traditionnels.
  • Analyse et visualisation de l'espace latent pour vérifier la pertinence chimique des regroupements.
  • Pipeline de traitement de données pour l'ingestion de fichiers mzML et de bibliothèques spectrales.

Défis

  • Gérer l'hétérogénéité des données spectrales provenant de différentes sources et conditions expérimentales.
  • Adapter un modèle conçu pour des spectres DDA (un composé) à des spectres DIA (mélange de composés).
  • Identifier et caractériser le bruit dans les échantillons pour améliorer la modélisation.
  • Comprendre la rationalité de l'espace latent et l'interprétabilité des opérations vectorielles.

Solutions

  • Inspiration de la méthodologie d'une solution existante pour extraire les signaux pertinents des spectres DIA.
  • Utilisation de fichiers de 'blancs' pour caractériser et potentiellement soustraire le bruit de fond.
  • Comparaison des scores MSBERT aux scores traditionnels (cosinus) pour démontrer sa robustesse.
  • Projection des embeddings via UMAP/T-SNE pour l'analyse visuelle des clusters de molécules.