Remark utiliser l’intelligence artificielle pour l. a. découverte sans s’éloigner de l. a. science

Une nouvelle methodology statistique permet aux chercheurs d’utiliser en toute sécurité les prédictions de l’apprentissage automatique pour tester des hypothèses scientifiques. Cette symbol montre une interprétation artistique de cette technologie, appelée inférence assistée par prédiction, générée par le système DALL-E AI. Crédit : Michael Jordan

Au cours de l. a. dernière décennie, l’intelligence artificielle a imprégné presque tous les domaines scientifiques : des modèles d’apprentissage automatique ont été utilisés pour prédire les buildings des protéines, estimer l. a. partie de l. a. forêt amazonienne perdue à reason de l. a. déforestation et même classer les galaxies lointaines qui pourraient abriter des exoplanètes.

Mais si l’IA peut être utilisée pour accélérer les découvertes scientifiques, c’est-à-dire aider les chercheurs à prédire des phénomènes qui seraient difficiles ou coûteux à étudier dans le monde réel, elle peut également induire les scientifiques en erreur. De l. a. même manière que les chatbots « hallucinent » ou inventent parfois des choses, les modèles d’apprentissage automatique peuvent parfois fournir des résultats trompeurs, voire carrément fake.

Dans un article publié en ligne dans les sciencesDes chercheurs de l’Université de Californie à Berkeley présentent une nouvelle methodology statistique permettant d’utiliser en toute sécurité les prédictions obtenues à partir de modèles d’apprentissage automatique pour tester des hypothèses scientifiques.

Cette methodology, appelée Prediction-Powered Inference (PPI), utilise une petite quantité de données du monde réel pour corriger les résultats de grands modèles généraux, tels qu’AlphaFold, qui prédit les buildings des protéines, dans le contexte de questions scientifiques spécifiques.

« Ces modèles se veulent généraux : ils peuvent répondre à beaucoup de questions, mais nous ne savons pas à quelles questions ils répondent bien et à celles auxquelles ils répondent mal – et si vous les utilisez naïvement, sans savoir dans quel état vous vous trouvez, vous “Vous pouvez obtenir de mauvaises réponses”, a déclaré Chen, professeur distingué en génie électrique, informatique et statistiques à l’UC Berkeley. “Avec PPI, vous pouvez utiliser le modèle, mais vous pouvez corriger les erreurs potentielles, même si vous ne le faites pas. savoir quelles sont ces erreurs. » le début.

Le threat des préjugés cachés

Lorsque les scientifiques mènent des expériences, ils ne recherchent pas seulement une réponse distinctive : ils veulent un éventail de réponses plausibles. Cela se fait en calculant un « intervalle de confiance », qui peut être trouvé, dans le cas le plus easy, en répétant l’expérience plusieurs fois et en observant à quel level les résultats sont différents.

Dans l. a. plupart des études scientifiques, un intervalle de confiance fait généralement référence à une statistique récapitulative ou groupée, et non à des issues de données individuels. Il est regrettable que les systèmes d’apprentissage automatique se concentrent sur des issues de données uniques et ne fournissent donc pas aux scientifiques les varieties d’évaluations d’incertitude qui les intéressent. Par exemple, AlphaFold prédit l. a. construction d’une seule protéine, mais il ne fournit aucune idée de l. a. confiance dans cette construction, ni un moyen d’obtenir des intervalles de confiance indiquant les propriétés générales des protéines.

Les scientifiques pourraient être tentés d’utiliser les prédictions d’AlphaFold comme s’il s’agissait de données pour calculer des intervalles de confiance classiques, ignorant le fait que ces prédictions ne sont pas des données. Le problème de cette approche est que les systèmes d’apprentissage automatique comportent de nombreux biais cachés qui peuvent fausser les résultats. Ces biais proviennent, en partie, des données sur lesquelles ils ont été formés, qui sont généralement des recherches scientifiques existantes qui n’ont peut-être pas european le même objectif que l’étude actuelle.

“En fait, dans les problèmes scientifiques, nous nous intéressons souvent aux phénomènes qui se situent à l. a. frontière entre le connu et l’inconnu”, a déclaré Jordan. “Souvent, peu de données du passé se situent à ce niveau, ce qui rend les modèles d’IA génératifs plus susceptibles d'”halluciner”, produisant des résultats irréalistes.”

Calculer des intervalles de confiance valides

PPI permet aux scientifiques d’incorporer les prédictions de modèles comme AlphaFold sans faire d’hypothèses sur l. a. manière dont le modèle a été construit ou sur les données sur lesquelles il a été formé. Pour ce faire, PPI nécessite une petite quantité de données impartiales, family members à l’hypothèse spécifique étudiée, combinées à des prédictions d’apprentissage automatique correspondant à ces données. En combinant ces deux resources de données, le PPI est succesful de former des intervalles de confiance valides.

Par exemple, l’équipe de recherche a appliqué l. a. technologie de l’indice des prix à l. a. manufacturing (PPI) à des algorithmes capables d’identifier les zones de déforestation en Amazonie à l’aide d’pictures satellite tv for pc. Ces modèles étaient généralement précis lorsqu’ils étaient testés individuellement sur des zones de forêt ; Cependant, lorsque ces évaluations ont été combinées pour estimer l. a. déforestation dans l’ensemble de l. a. région amazonienne, les intervalles de confiance sont devenus très asymétriques. Cela est probablement dû au fait que le modèle a ecu du mal à reconnaître certains nouveaux modèles de déforestation.

À l’aide de l’indice des prix à l. a. manufacturing (IPP), l’équipe a pu corriger le biais de l’intervalle de confiance en utilisant un petit nombre de zones de déforestation identifiées par l’homme.

L’équipe a également montré remark cette methodology peut être appliquée à diverses autres recherches, notamment sur des questions sur le repliement des protéines, l. a. classification des galaxies, les niveaux d’expression des gènes, le comptage du plancton et l. a. relation entre le revenu et l’assurance maladie privée.

« Il n’y a vraiment aucune limite au kind de questions auxquelles cette approche peut être appliquée », a déclaré Jordan. « Nous pensons que le PPI est un élément indispensable de l. a. science moderne collaborative, à uniqueness intensité de données et de modèles. »

Parmi les autres co-auteurs figurent Anastasios N. Angelopoulos, Stephen Bates, Clara Fanjiang et Tiana Zernick de l’Université de Californie à Berkeley.

Plus d’data:
Anastasios N. Angelopoulos et al., Inférence basée sur l. a. prédiction, les sciences (2023). est ce que je: 10.1126/science.adi6000

Fourni par l’Université de Californie – Berkeley

l. a. quotation: Remark utiliser l’IA pour l. a. découverte sans tromper l. a. science (9 novembre 2023) Récupéré le 9 novembre 2023 sur

Ce file est soumis au droit d’auteur. Nonobstant toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre informatif uniquement.