Ingérence de l'intelligence artificielle dans la recherche scientifique

22/10/2023 - 11 min. de lecture

Ingérence de l'intelligence artificielle dans la recherche scientifique - Cercle K2

Cercle K2 neither approves or disapproves of the opinions expressed in the articles. Their authors are exclusively responsible for their content.

Daniel Guinier est Expert de justice honoraire et ancien expert près la Cour Pénale Internationale de La Haye.

---

Soutenues par la convergence technologique[1], les avancées spectaculaires en intelligence artificielle (IA) semblent offrir des opportunités pour la recherche et la connaissance scientifiques, notamment avec les grands modèles de langage génératifs qui constituent une des approches les plus prometteuses. Les futurs systèmes d'IA pourraient accompagner les chercheurs dans leurs activités, vu la croissance non contenue de la littérature scientifique, avec actuellement plusieurs millions d'items publiés annuellement. Il s'agit avant tout de pallier les limitations de la faculté à retrouver, analyser et comprendre ces informations, et combler l'écart grandissant entre la croissance considérable du nombre d'articles scientifiques publiés et la constance de la capacité cognitive humaine. Le processus scientifique serait décomposé en tâches remarquables pour récupérer et synthétiser des connaissances externes, en tenant compte des objectifs, des préférences et connaissances propres aux chercheurs[2]. À terme, ces derniers n'auraient qu'à exploiter des systèmes d'IA pour surmonter les limites de leurs capacités cognitives, détecter les sources et les articles pertinents, mais aussi pour générer des hypothèses, suggérer des orientations, etc.

Un tel changement de paradigme, pouvant être considéré comme une ingérence dans la science, capable de bouleverser la recherche scientifique et d'en influencer la trajectoire, invite à une réflexion de fond. Il s'agit de s'interroger sur la capacité de l'IA de conduire à un enrichissement ou, au contraire, à une réduction de la pensée scientifique humaine, et son impact sur la découverte scientifique. La question ultime sera de savoir qui rédigera à terme les articles scientifiques[3] : un chercheur humain ou une IA générative…

 

Introduction

Des modèles d'IA apparaissent maintenant capables d'apprendre à partir d'informations non structurées, au point de suggérer de bousculer les processus de la recherche scientifique dont les bases fondamentales sont restées inchangées pendant plusieurs siècles. Toutefois, des défis fondamentaux demeurent dans la représentation et la synthèse des connaissances scientifiques, autant que dans la modélisation face à la diversité des tâches, des contextes et des processus cognitifs impliqués dans la production des connaissances scientifiques et les découvertes.

Actuellement, les domaines explorés sont limités par des biais cognitifs[4] et le manque d'outils pour guider et élargir l'attention des chercheurs, constituant ainsi des lacunes en termes de connaissances. Un écosystème scientifique élargi par l'IA serait en mesure d'améliorer les performances des chercheurs sur des tâches essentielles et d'ouvrir un espace à explorer plus étendu dans davantage de directions. La découverte de perspectives inédites portant leur attention vers des sujets opportuns dépend de modèles d'apprentissage automatique et de prédiction capables de récupérer et synthétiser les connaissances par de nouvelles approches informatiques computationnelles. Il est beaucoup attendu des grands modèles de langage génératifs (LLM) et de leurs progrès dans la capacité à raisonner sur des tâches complexes.

 

La recherche des connaissances scientifiques

Le monde scientifique, constitué en communautés, génère des connaissances formelles de diverses façons : publications, actes de conférences, dépôts en ligne, etc., mais aussi des traces numériques de la pensée et du comportement. Ceux-ci sont associés à des signes d'intérêt : citations, téléchargements, et à des échanges et critiques lors de discussions au travers divers canaux de communications publics (ex : médias sociaux) et privés (ex : courriels, messages en ligne). La façon dont les chercheurs utilisent ces informations pour générer des idées relève d'un ensemble de processus cognitifs complexes, associés à leurs propres connaissances et préférences, et à des biais partiellement compris.

Essentiellement toutes les connaissances scientifiques ont migré dans l'espace numérique. Le volume d'informations qui en résulte, confronté à une capacité cognitive insuffisante pour l'assimiler, aboutit à une surcharge d'informations qui contribue à consumer l'attention des chercheurs. Cette tendance peut les entraîner dans des choix de domaines plus restreints ou dans des perspectives spécifiques sans envisager d'alternatives ou d'exploration de sujets nouveaux. Par ailleurs, les décisions reposent sur une évaluation subjective de la faisabilité des objectifs de recherche et sur des intérêts et des facteurs psychologiques personnels. Ceci montre la complexité d'atténuer les biais et les limitations de renforcer les mécanismes créatifs.

Aussi, des outils de récupération de connaissances scientifiques sont envisagés, guidés par des tâches et des activités scientifiques remarquables. T. Hope, et al. (2023) ont montré les possibilités de certains dans des tâches d'identification et de hiérarchisation des problèmes, de formulation de directions, de recherches dans la littérature scientifique, d'assimilation de nouveaux concepts, d'expérimentation et d'analyse (ex : modélisation, prédiction), de production (ex : techniques, théories), et de communication de résultats de recherche (ex : articles, communications). Ils ont indiqué les limites des outils existants et les défis restants, tout en soulignant que "de petits progrès débloqueront d'immenses opportunités pour réaliser des avancées aux frontières de la science". À ce jour, on est encore loin de systèmes disposant d'une intelligence artificielle générale (IAG) complète, bien qu'aucune définition d'IAG ne soit encore exempte de controverses. 

Concernant la recherche dans la littérature scientifique, des systèmes d'IA sont à développer en utilisant les technologies de compréhension du langage naturel pour aider les chercheurs à obtenir des éléments pertinents et à accélérer le processus de revue systématique. Les modèles neuronaux de traitement du langage construits à partir d'un apprentissage basé sur de grands corpus de publications ont déjà permis d'améliorer les performances, et même d'ajouter de nouvelles fonctionnalités aux systèmes documentaires les plus avancés. Ils ont également été formés pour faire correspondre les aspects abstraits de paires d'articles et de récupérer automatiquement des éléments similaires. Des résultats remarquables ont ainsi été obtenus avec une représentation alignée sur la pensée scientifique dans plusieurs domaines (ex : biologie, informatique).

Dans le futur, ces systèmes devraient pouvoir automatiquement identifier, filtrer et classer les informations pertinentes pour les chercheurs. Ils devraient aussi faciliter la collaboration et le partage des données, des résultats et des idées, et faciliter la communication scientifique, notamment en générant automatiquement des résumés, et au-delà des présentations et des articles à partir des résultats de la recherche.

 

L'État et les défis de l'IA générative à l'exemple de GPT-4

Étant donné les défis auxquels nous sommes confrontés nous aurons besoin de la diversité des recherches en IA pour des avancées scientifiques suffisantes. L'IA générative est un type de système d'IA parmi d'autres, capable de créer du texte et d'autres codes, des images ou d'autres médias, en réponse à des demandes encore humaines pour l'instant. Un modèle génératif est bâti à partir d'une grande quantité de données d'un domaine donné pour être capable de générer des données similaires. C'est notamment le cas du modèle récent GPT-4 (Generative Pre-trained Transformer-4) qui montre des possibilités impressionnantes dans divers domaines : mathématiques, informatique, médecine, etc. Il fait suite au modèle précédent GPT-3 qui a conduit à ChatGPT, constitué de l’association d'un modèle de langage servant à générer du texte ou du code à partir d'un apprentissage fondé sur des calculs appliqués à des quantités de données en masse, et d'un espace de dialogue instantané permettant aux utilisateurs de formuler leurs questions. D'un usage intuitif, il est en mesure de réagir à des questions multiformes. C'est quatre mois après son lancement qu'une nouvelle étape cruciale a été franchie avec la sortie de GPT-4, qui est en mesure de résoudre des tâches plus difficiles, sans directives particulières, dépassant de loin ChatGPT.

GPT-4 est présenté par OpenAI (2023) comme un modèle multimodal à grande échelle "qui affiche des performances de niveau humain sur diverses références professionnelles et académiques", et paradoxalement "moins performant que les êtres humains dans de nombreuses situations". S. Bubeck, et al. (2023), considèrent qu'il pourrait être vu comme une version préliminaire incomplète et limitée d'un système d'intelligence artificielle générale (IAG). Des défis importants restent à relever pour être en mesure de progresser dans ce sens, y compris en envisageant un nouveau bon technologique bien au-delà de la simple prédiction du mot suivant, pour pallier les absences de planification et les défauts inhérents au principe de prédiction qui sous-tend son architecture. Aussi, une compréhension de la nature et des mécanismes sous-jacents à "l'intelligence" est attendue au travers de l'évaluation des capacités cognitives de ces modèles, plus proches de celles des humains que les premiers modèles d'IA.

La difficulté majeure pour rendre une IA intelligible réside dans l'explication de son processus computationnel complexe à un être humain[5]. C'est un défi pour la confiance et le contrôle par les êtres humains. Il invite à une collaboration entre chercheurs de différentes disciplines. En outre, l'intelligibilité est en mesure de favoriser la détection d'erreurs et l'établissement des responsabilités attachées à l'IA. En Europe, elle se justifie en respect du règlement général sur la protection des données (RGPD).

 

L'éthique et la sécurité

Il faut d'abord rappeler que la nature de la science et de la connaissance s'inscrit dans un processus dynamique évolutif. Dans leur démarche scientifique rigoureuse, les chercheurs avancent en remettant en question leurs propres idées, avec humilité en reconnaissent leur capacité de se tromper tout en s'efforçant de minimiser ces erreurs, avec méthode pour éviter certains biais cognitifs et écarts de raisonnement, et avec prudence et vigilance dans la quête de connaissance et la collecte d'informations scientifiques. Ceci s'inscrit parfaitement dans la phrase de R. Nuzzo., et al. (2015) : "la science est une course permanente entre notre capacité à nous tromper et notre capacité à éviter de nous tromper". Il reste à savoir quelle seront la place et la perspective de l'IA dans tout cela. Le monde de la recherche doit profondément s'interroger sur l'avenir de la science, avant que les technologies d'IA ne soient profondément ancrées dans les activités scientifiques, avec des conséquences encore difficiles à cerner.

Une éthique globale sera utile pour apprécier les propriétés de neutralité et les motivations autour de la pertinence du recours à des systèmes complexes où convergent diverses technologies associées à des algorithmes et systèmes artificiels dits "intelligents", lesquels pourraient évoluer en toute indépendance. L'éthique se doit d'anticiper les risques en s'appuyant sur des préceptes moraux et sociaux. Concernant l'éthique morale, il s'agira de considérer la compétition et la concurrence, et les relations d'intérêt réciproques, tout en s'intéressant à l'existence d'éventuels risques masqués. La transparence et l'équité d'origine s'imposent concernant les algorithmes d'IA et les sources des données d'apprentissage, ce qui n'est pas encore le cas de ChatGPT. Concernant d'éthique sociale, il s'agira de considérer la formation et l'information des chercheurs et autres acteurs, associées à la vigilance pour éviter les erreurs, ainsi que la loyauté de l'ensemble des parties.

Aussi, les systèmes d'IA utilisés dans la recherche scientifique devront respecter l'éthique et ne pas biaiser, ni influencer les résultats de recherche. Ils devront respecter la vie privée et la confidentialité des chercheurs et des sujets de recherche, et éviter les biais discriminatoires dans la collecte et l'analyse des connaissances. Les chercheurs devront également avertir de l'utilisation de l'IA dans leurs travaux et de la façon dont elle a influencé leur processus de recherche et leurs résultats.

D'une façon générale, la sécurité des systèmes, des données et de leur environnement est délicate, compte tenu de la complexité. Elle est indispensable vu les enjeux et la nécessité du respect des lois et règlements. Il paraîtrait donc souhaitable d'établir une certification adaptée aux systèmes d'IA dans le cadre de leur cycle, de la conception à l'utilisation, et des nouvelles menaces à l'encontre de la cybersécurité pouvant engendrer des sorties erronées ou capturer des résultats de recherches avancées, de façon illégale.

 

Conclusion

Après des décennies d'errance et plusieurs vagues successives, l'IA semble vouloir s'imposer dans presque tous les secteurs d'activité. C'est également le cas des sciences, dont le champ s'élargit, avec des difficultés pour les chercheurs de suivre tous les développements et tirer avantage de l'ensemble des corpus scientifiques. Il est vrai que l'abondance de la production de littérature scientifique entrave leur attention. La recherche de connaissances guidée par les tâches est une ambition où l'IA pourrait offrir des opportunités pour accélérer le processus de recherche, extraire des idées et formuler des solutions, vu les avancées dans les modèles de traitement du langage, les systèmes de recherche d'information, les systèmes génératifs, etc.

Ainsi, les systèmes fondés sur l'IA se substitueront probablement aux méthodes informatiques existantes[6] pour aider à la découverte de la connaissance scientifique et aborder la complexité des processus cognitifs orientés vers des objectifs scientifiques dans divers contextes. Si ces nouveaux outils visent ici à étendre les capacités humaines dans les sciences et à guider les chercheurs, il faudra veiller à ce que ces derniers ne se voient pas privés moindrement de pensée scientifique, ou soumis à une orientation algorithmique ou un choix de données dirigé. Dans l'immédiat, de nombreux défis sont à relever pour concrétiser cette vision qui nécessite une collaboration entre les chercheurs et les développeurs des ces technologies. 

Enfin, le risque avec l'IA de résultats ternes et d'orientations communes peu surprenantes ne s'accorderait guère avec une science usant d'intelligence collective, de travail en équipe, et de discussions enthousiastes informelles dans les laboratoires et dans des lieux privilégiés pour les rencontres en marge des congrès scientifiques. N'est-il pas vrai aussi que les grandes découvertes ont parfois découlé de hasard, voire d'erreurs, d'accidents, etc. ? Cette aptitude, dénommée "sérendipité", apparaît comme une manière irrationnelle de faire des découvertes, qui dépend néanmoins de l'ouverture d'esprit des chercheurs, sans oublier la part de "génie". Ceci implique pour l'IA de posséder un certain degré de liberté, et d'autonomie, en particulier pour réaliser des améliorations lors de cycles d'apprentissage, avec des précautions, en particulier en termes d'éthique et de sécurité.

Nul doute que l'humilité de l'industrie de l'IA est essentielle à l'alignement de l'IA sur les valeurs de la science. Dans un proche futur, c'est au prix d'un partage entre des humains plus confiants et une IA avancée et maîtrisée que nous pourrons constater des améliorations dans l'approche de la science, en gardant à l'esprit que l'ingéniosité humaine s'impose à la découverte.

Daniel Guinier

 

Bibliographie sélective

Bubeck S., et al. (2023) : Sparks of artificial general intelligence : Early experiments with GPT-4. arXiv preprint arXiv:2303.12712.

Gil Y.  (2022) : Will AI write scientific papers in the future? AI Magazine, vol. 42, n° 4, pp. 3-15. 

Guinier D. (1984) : Bibliométrie - Analyse statistique des structures, du contenu et de l'évolution d'un fichier bibliographique d'un laboratoire de recherche en biologie. Documentaliste, vol. 21, n° 3, pp. 101-105.

Guinier D. (2022) : L'odyssée de l'intelligence artificielle - Anticiper le futur en évitant les écueils appris du passé. Expertises, n° 475, pp. 32-37.

Hope T., et al. (2023) : A computational inflection for scientific discovery. Communications of the ACM, vol. 66, n° 8, pp. 62-73.

Kahneman D. (2011) : Thinking fast and slow, Allen Lane, 542 pages.

Nuzzo R., et al. (2015) : How scientists fool themselves - and how they can stop. Nature, vol. 526, n° 7572, pp. 182–185.

OpenAI (2023) : GPT-4 technical report. arXiv preprint arXiv:2303.08774.

Weld D.S. et Bansal G (2019) :  The challenge of crafting intelligible intelligence. Communications of the ACM, vol. 62, n° 6, pp. 70–79.

---

[1] Décrite dans l'Odyssée de l'intelligence artificielle par D. Guinier (2022).

[2] Détaillée comme une inflexion computationnelle appliquée au processus scientifique par T. Hope, et al. (2023).

[3] Voir Y. Gil (2022).

[4] Les biais cognitifs relèvent de la rationalité limitée de la pensée, quand certaines décisions individuelles comportent une part d'irrationalité et des biais, notamment lorsqu'il s'agit de traiter de grands flux d’informations, de compenser les limites de la mémoire humaine, et de décider rapidement. Voir D. Kahneman (2011).

[5] Selon D. S. Weld et G. Bansal (2019).

[6] En faisant notamment appel à un corpus croissant de mots-clés, comme le montre D. Guinier (1984).

22/10/2023

Last publications