L’intelligence artificielle : traducteur et expert juridique du droit français ?

Le
Laboratoire AMURE
IA

Dans une étude publiée en janvier 2025 sur le blog  du Library Innvovation lab (lil) de l’université de droit d’Harvard, Kristi Mukk, Matteo Cargnelutti respectivement bibliothécaire et informaticien au laboratoire lil et Betty Queffelec, enseignante-chercheuse en droit de la mer au laboratoire AMURE, se sont intéressé à l’utilisation de l’intelligence artificielle (IA) pour la recherche d’information en droit français, et plus largement dans le cas de recherche multilingue.

Les 3 points à retenir :

  • L’étude évalue le potentiel de l’IA comme outil de recherche juridique en droit français pour des non-spécialistes et non-francophones, grâce un modèle de langage (LLMs) enrichi par une architecture RAG ;
  • La méthodologie se base sur un corpus de dix questions juridiques, en français et en anglais, avec et sans RAG, posées à Chat GPT-4 et Llama2, pour comparer les données ;
  • Les résultats montrent un certain potentiel de l’IA pour la recherche d’information juridique multilingue, mais soulignent des limites, notamment sur la fiabilité et la pertinence des réponses en général et des sources en particulier.

La recherche d’information juridique par des non-spécialistes peut s’avérer complexe, surtout dans un contexte multilingue. L’intelligence artificielle (IA) peut être un outil d’aide pour accompagner la recherche d’information, et a alors deux fonctions : traducteur et expert juridique. Dans le cadre de cette étude, les auteurs se basent notamment sur deux technologies spécifiques de l’IA : le LLMs et le RAG (voir encadré).

L’étude, réalisée en 2023, est menée par trois experts, chacun avec des spécialités différentes, mais complémentaires, qui permettent d’analyser comment les LLMs, couplés à une architecture RAG créée pour l’occasion, peuvent être utilisés pour accéder à des informations juridiques pointues dans une langue étrangère et à les comprendre. Ici, ils proposent un focus sur le droit français. Pourquoi ? Les particularités du droit français lui confèrent une structure adaptée à la configuration RAG. En effet, le droit français se base davantage sur des textes juridiques, spécialement les lois,  que sur la jurisprudence. Il a donc une nature plus prévisible, cohérente avec le mode de fonctionnement de l’IA. Mais ces textes juridiques sont  disponibles en français, ce qui constitue un obstacle pour les non-francophones. Ces particularités en font un terrain d’étude scientifique favorable.

Le Large Language Models (LLMs), ou grand modèle de langage, est un type de machine learning spécifiquement appliqué au langage, qui se base sur un très grand nombre de paramètres pour prédire précisément la syntaxe ou la sémantique du langage humain. Cette technologie est notamment utilisée pour la mise en œuvre d’agents conversationnels.

Le Retrieval Augmented Generation (RAG), ou génération augmentée de récupération, est un processus qui consiste à compléter les données du LLMs avec des informations supplémentaires récupérées ailleurs, afin d’optimiser les réponses qu’il génère.

L’étude, réalisée en 2023, est menée par trois experts, chacun avec des spécialités différentes, mais complémentaires, qui permettent d’analyser comment les LLMs, couplés à une architecture RAG créée pour l’occasion, peuvent être utilisés pour accéder à des informations juridiques pointues dans une langue étrangère et à les comprendre. Ici, ils proposent un focus sur le droit français. Pourquoi ? Les particularités du droit français lui confèrent une structure adaptée à la configuration RAG. En effet, le droit français se base davantage sur des textes juridiques, spécialement les lois,  que sur la jurisprudence. Il a donc une nature plus prévisible, cohérente avec le mode de fonctionnement de l’IA. Mais ces textes juridiques sont  disponibles en français, ce qui constitue un obstacle pour les non-francophones. Ces particularités en font un terrain d’étude scientifique favorable.

Du code et des données pour faire parler l’IA

La première étape du processus, menée par Matteo Cargnelutti, ingénieur logiciel au Library innovation lab, consiste en la création d’un dispositif expérimental répondant au besoin de l’expérience. Ce dispositif prend en compte deux paramètres essentiels : les sources pour l’IA et les questions qui lui seront posées.

Les sources sont ici constituées d’une base de données de 841 761 entrées présentes sur LegiFrance, la plateforme du gouvernement français qui recense l’ensemble des textes de la législation et de la réglementation nationale. Différents traitements sont appliqués à ces données via des chaînes de traitement informatique. Les textes sont notamment découpés pour accompagner l’analyse de l’IA sur des extraits de textes.

Une fois la base de données constituée, il est nécessaire de définir les prompts, soit des commandes spécifiques à l’IA pour définir les questions qui lui seront posées. Quatre prompts sont définis, en français et en anglais, avec et sans RAG.

L’infrastructure réalisée ici se base sur des modèles existants fiables et déjà entraînés, adaptés à la problématique de l’étude : la traduction et l’analyse du droit français pour un utilisateur anglophone. Le code source obtenu est disponible en libre accès sur Github.

Un protocole expérimental pour tester les compétences juridiques de l’IA

Défini par Kristi Mukk, coordinatrice de l'assistance aux utilisateurs à la bibliothèque de l’université de droit de Harvard, le protocole expérimental se base sur un corpus de dix questions juridiques, chacune en français et en anglais, plus ou moins complexes, c’est-à-dire qui demandent d’aller chercher des réponses dans une ou plusieurs sources, avec plus ou moins de nuance juridique. En fonction de la complexité, les questions sont divisées en 7 catégories.

Exemples de questions :

  • Identifie si une étude d’impact est nécessaire pour ouvrir un camping.

  • Qui a l'obligation de réparer les dommages causés à un champ de maïs par des sangliers sauvages ?

  • Une vache peut-elle être considérée comme un immeuble ?

  • Identifie et résume le droit applicable à la création d’aires protégées en droit de l’environnement.

L’évaluation des résultats constitue une étape cruciale. Des critères fiables sont définis afin d’évaluer l'exactitude de la réponse, la fidélité au contexte fourni, la pertinence de la réponse, ainsi que la précision et le rappel du contexte par l’IA.

Une IA juridique qui a du potentiel, mais aussi des limites

Une fois la méthodologie et l’expérimentation mise en place auprès de l’IA, vient l’étape d’analyse. Betty Queffelec a réalisé une étude portant notamment sur l’examen des sources citées dans les réponses, et le relevé et la classification des erreurs. Ces analyses sont réalisées sur les réponses aux 10 questions, en français et en anglais, et pour les prompts avec et sans RAG, dans deux modèles d’IA (GPT-4 and Llama 2), soit 80 réponses à analyser.

Globalement, environ la moitié des réponses incluent des sources, et celles-ci ne sont pas toujours pertinentes. Concernant la fiabilité des réponses, la plupart d’entre elles sont seulement partiellement correctes : 10% complètement exactes (mais parfois incomplètes), 77,5% partiellement exactes et 12,5% complètement inexactes. Cependant, l’étendue limitée de l’étude (10 questions) invite à prendre avec précaution ces résultats statistiques.

Dans son analyse, Betty Queffelec propose également différentes comparaisons pour définir des tendances. Ainsi, elle remarque que les réponses en anglais sont un peu plus performantes que celles en français, incorporer le RAG augmente un peu l’efficacité des réponses, mais entraîne de nouvelles erreurs ou encore que GPT-4 est plus performant que Llama 2. Finalement, la combinaison GPT-4 avec RAG a donné les meilleures performances globales en termes de précision et de pertinence même si de nombreuses erreurs demeurent présentes. Globalement, les auteurs observent une prévalence de réponses partiellement exactes composées d’un mélange d’affirmations vraies et fausses combinant différents types d’inexactitudes.

Au final, il existe un potentiel de l’IA en usage multilingue comme outil de recherche complémentaire, mais avec des limites importantes. Les réponses paraissent presque toujours plausibles et cohérentes, elles comportent souvent des erreurs y compris des hallucinations notamment sur les références. De ce fait, les auteurs soulignent que la vérification des sources et l’évaluation systématique de la véracité et du caractère complet des réponses est essentielle. Ils avancent que de ce fait, l’usage des LLM comme outil de recherche complémentaire peut se révéler particulièrement chronophage. Finalement, ils concluent que dans ce contexte, l’usage des LLM semble plus utile pour les experts en droit que pour les novices. Ils alertent sur le fait que ce sont des outils plutôt à destination des experts car la vérification systématique des informations requiert un bon niveau de recherche juridique traditionnelle (poser les bonnes questions, savoir vérifier les informations, savoir interpréter les textes juridiques). Leur étude montre également les limites des RAG standards sans optimisation manuelle. Enfin, les auteurs concluent sur l’importance de prendre en compte l’impact social et environnemental notable des LLM au regard des bénéfices qui peuvent en être tirés.