Création du premier modèle permettant de traiter le langage biomédical Français OpenSource !

“DrBERT”, premier modèle de traitement automatique du langage spécifiquement conçu pour le domaine biomédical et clinique en français. Fruit d’une collaboration entre des chercheurs de l’Université d’Avignon, du Laboratoire Informatique d’Avignon, du Laboratoire des Sciences du Numérique de Nantes, et du CHU de Nantes, DrBERT s’appuie sur l’architecture RoBERTa et a été présenté lors de conférences scientifiques telles que DEFT 2023, CORIA-TALN 2023, et l’Association for Computational Linguistics (ACL).
L’étude associée, intitulée “DrBERT: A Robust Pre-trained Model in French for Biomedical and Clinical domains”, se concentre sur les modèles de langage pré-entraînés (PLM) en français dans le contexte médical. Les chercheurs comparent les performances des PLM entraînés à partir de données publiques disponibles sur le web et de données privées provenant d’établissements de santé. Ils mettent à disposition du public les modèles DrBERT ainsi que le corpus de données médicales open source sur lequel ils ont été entraînés, en choisissant de publier uniquement les poids des modèles provenant de données exclusivement open source pour respecter le RGPD.
DrBERT, basé sur l’architecture RoBERTa, est un modèle de langage pré-entraîné sur des données publiques et privées. Les données publiques proviennent du corpus biomédical open source NACHOS, tandis que les données privées désidentifiées autorisées par la CNIL proviennent de l’entrepôt de données du CHU de Nantes.
L’évaluation de DrBERT sur 11 applications biomédicales en français a montré des performances supérieures à celles du modèle généraliste français CamemBERT. Les chercheurs notent cependant des limitations potentielles dans d’autres applications et travaillent sur un jeu de données de référence pour une vingtaine de tâches afin d’évaluer plus largement les capacités du modèle.
Richard Dufour, co-auteur de l’étude, explique que l’objectif est de développer un modèle génératif de langue pour le domaine médical français avec le projet “MALADES”, sélectionné dans le cadre de l’Appel à Projets Thématiques Spécifiques en Intelligence Artificielle (TSIA) – Edition 2023. Ce projet vise à créer des modèles adaptatifs et souverains pour les acteurs de la santé dans un contexte de ressources contraintes, avec un accent particulier sur les questions-réponses. Le projet prendra également en compte les aspects légaux et éthiques en France liés au développement et à l’utilisation de ces modèles.