Un cadre pour évaluer l’efficacité de l’intelligence artificielle générative

Légende : GPT-Imaginative and prescient semble parfois utiliser des indices contextuels pour décrire certains éléments de l’symbol, comme l’Amazon Alexa Echo Dot encerclé à droite. Crédit : Alyssa Huang

Au cours de l’année écoulée, de grands modèles de langage (LLM) ont vu le jour pour fournir un ensemble toujours croissant de fonctionnalités, notamment los angeles génération de texte, los angeles manufacturing d’pictures et, plus récemment, l’analyse d’pictures hautement descriptive. L’intégration de l’intelligence artificielle (IA) dans l’analyse d’pictures représente un changement majeur dans los angeles façon dont les gens comprennent et interagissent avec les données visuelles, une tâche qui s’appuie historiquement sur los angeles imaginative and prescient pour voir et sur les connaissances pour définir le contexte.

Aujourd’hui, de nouveaux outils d’IA proposent un modèle qui permet à un nombre croissant de personnes d’interagir avec des pictures en générant des descriptions qui peuvent non seulement aider les malvoyants, mais également informer le public profane sur le contenu d’une determine scientifique.

Professeur agrégé Chris Callison Burch, professeur adjoint Andrew Head et Ph.D. Los angeles candidate Alyssa Huang du Département d’informatique et des sciences de l’knowledge de l’École d’ingénierie et de sciences appliquées de l’Université de Pennsylvanie a développé un cadre pour mesurer l’efficacité des fonctionnalités d’IA basées sur los angeles imaginative and prescient en exécutant un ensemble de exams sur ChatGPT-Imaginative and prescient d’OpenAI. Depuis sa sortie plus tôt ce mois-ci.

L’équipe a principalement évalué los angeles capacité du LLM à identifier des pictures scientifiques et a documenté ses résultats dans un report de recherche, qui apparaît sur un serveur de préimpression. arXiv.

Huang partage certaines de ses observations avec Penn These days, offrant un aperçu de l’avenir des applied sciences basées sur l’IA et de los angeles promesse qu’elles contiennent dans l’interprétation d’pictures complexes.

Que fait l’IA et remark l’équipe l’a testée

Les MBA basés sur los angeles imaginative and prescient, tels que GPT-Imaginative and prescient, sont capables d’analyser des pictures et peuvent prendre des pictures et du texte en entrée pour répondre à un huge éventail de demandes en utilisant ces données, explique Huang. L’ensemble d’pictures de check de l’équipe comprenait des graphiques, des graphiques, des tableaux, des captures d’écran de code, des équations mathématiques et des pages complètes de texte dans le however de mesurer dans quelle mesure le LLM les décrivait.

Les pictures scientifiques contiennent des informations complexes, c’est pourquoi l’équipe a sélectionné 21 pictures provenant de divers articles scientifiques, explique Huang. «Nous avons donné los angeles priorité à l’étendue de notre analyse qualitative, en nous appuyant sur les méthodes existantes en sciences sociales, et avons découvert de nombreux modèles intéressants», dit-elle.

Exemples testés

Crédit : Alyssa Huang

Les chercheurs ont analysé un ensemble d’pictures de 12 plats portant les noms de leurs recettes. Lorsqu’ils ont remarqué que GPT-Imaginative and prescient intégrait de manière transparente ces étiquettes dans ses descriptions, ils ont essayé de les remplacer par quelque selected de complètement différent pour voir remark LLM répondait.

Quelques-unes des improvisations GPT préférées de Hwang : (steak C1 avec beurre au fromage bleu) Soupe de poulet et de nouilles dans un bol servie avec un bouillon noir et une cuillerée de crème. (C2 Eggless Crimson Velvet Cake) Bâtonnets de poisson disposés sur un plateau avec sauce tomate et fromage. et (C12 Floor Pork Bulgogi), une coupe glacée en forme de bol de bœuf haché garni d’oignons verts hachés. Crédit : Avec l’aimable autorisation d’Alyssa Huang

“Il est surprenant et amusant que GPT-Imaginative and prescient essaie toujours d’incorporer ces nouvelles pseudo-classifications”, déclare Huang.

Cependant, Huang affirme que le MBA a obtenu de bien meilleurs résultats lorsqu’on lui a demandé de déterminer si une étiquette était exacte avant de continuer, ce qui montre qu’il avait suffisamment de connaissances pour parvenir à une conclusion basée sur ses propres capacités visuelles, des facteurs qui, selon elle, constituent une course prometteuse pour des recherches majeures. un travail.

Elle souligne également que lorsqu’il décrivait une web page entière, le LLM semblait résumer les paragraphes qu’elle contenait, mais ces « résumés » étaient généralement incomplets et désorganisés et pouvaient mal citer l’auteur ou extraire de grandes quantités de texte directement de los angeles supply, ce qui pourrait conduire à à un problème. Lorsqu’il redistribue tout ce qu’il écrit.

“Avec les adjustments appropriées, je suis convaincu que GPT-Imaginative and prescient peut apprendre à résumer correctement, à citer intégralement et à éviter los angeles surutilisation du texte supply”, déclare Huang.

Cadre d’équipe

Les chercheurs de los angeles communauté du traitement du langage naturel se sont appuyés sur des mesures automatiques pour évaluer de larges pans du paysage des données, mais cette tâche devient désormais plus difficile, explique Huang.

« Dans ce que nous appelons « l’évaluation humaine », nous demandions également à de vraies personnes de fournir leur avis, ce qui était imaginable à petite échelle automotive nos tâches et nos données étaient plus petites et plus simples », explique-t-elle.

“Maintenant que l’IA générative est devenue si habile à produire des textes longs et complexes, il est devenu plus difficile d’incorporer des mesures automatiques. Nous sommes passés de los angeles query : “Cette word est-elle grammaticalement correcte ?” à los angeles query : “Cette histoire est-elle intéressante ?” une selected difficile à définir et à mesurer. »

Les travaux antérieurs de Hwang sur Alexa d’Amazon l’ont initiée aux tactics des sciences sociales et de los angeles recherche sur l’interplay homme-machine, y compris los angeles théorie fondée, une méthode d’analyse qualitative qui aide les chercheurs à identifier des modèles à partir de grandes quantités de texte.

Traditionnellement utilisé pour analyser des paperwork tels que les transcriptions d’entretiens, Hwang et d’autres chercheurs peuvent appliquer les mêmes principes aux transcriptions générées automatiquement.

« Notre processus semble très familier à ce que les gens faisaient déjà naturellement : collecter les réponses GPT-Imaginative and prescient à un ensemble d’pictures, lire en profondeur des modèles, générer progressivement plus de réponses à mesure que nous en apprenions davantage sur les données et utiliser les modèles que nous avons trouvés pour former. nos conclusions finales », dit Huang.

« Nous avons cherché à formaliser le traitement par essais et erreurs à l’aide de méthodes basées sur los angeles recherche, ce qui peut aider les chercheurs et le grand public à se familiariser davantage avec les nouveaux modèles d’IA générative à mesure qu’ils émergent », explique-t-elle.

Programs et risques

Huang affirme que los angeles capacité de l’IA à décrire des pictures pourrait être un superb outil d’accessibilité pour les lecteurs aveugles ou malvoyants, générant automatiquement un texte alternatif pour les pictures existantes ou aidant les auteurs à rédiger leur propre texte avant de publier l’œuvre.

“Décrire des pictures peut également aider les lecteurs voyants souffrant de troubles du traitement de l’knowledge, tels que des problèmes de mémoire à lengthy ou à court docket terme, de séquençage visuel ou de compréhension visuo-spatiale”, dit-elle.

” Au-delà de l’accessibilité, les descriptions d’pictures peuvent être une supply de réconfort ou d’enrichissement. Un liseur peut décrire des pictures dans un article d’actualité pendant qu’un auditeur marche par exemple. On peut demander à un formulaire de description d’symbol plus de détails ou des éclaircissements lors de los angeles lecture d’un article. manuel «Des outils comme celui-ci peuvent nous aider tous à accéder à plus d’informations.»

Faisant preuve d’une certaine prudence dans l’adoption de ces applied sciences sans tester leurs limites, les chercheurs ont discuté des risques en termes de scénarios à risque élevé ou faible, explique Huang. Elle dit que dans le contexte de los angeles médecine et de los angeles delicacies, elle pense que l’inexactitude pose le plus grand risque lorsque l’utilisateur ne peut pas vérifier ce que dit le modèle.

Un livre blanc GPT-Imaginative and prescient, publié par OpenAI, déconseille d’utiliser l’outil pour lire los angeles dose d’un traitement médical, par exemple, mais Huang affirme qu’un tel risque est plus grand pour les personnes souffrant de perte de imaginative and prescient, de troubles du traitement de l’knowledge ou de difficultés de langage. Ceux qui bénéficieront le plus de ces avancées tactics.

“Nous pouvons également supposer au départ que certains sides de los angeles delicacies présentent peu de risques automotive nous improvisons souvent selon nos préférences, mais que se passe-t-il si GPT-Imaginative and prescient me dit par erreur que le pot à épices dans ma primary est de los angeles cannelle au lieu du paprika ? Même si c’est le cas.” “C’est le cas”, dit Huang. “Cela me fait nécessairement mal. Mes flocons d’avoine vont être tellement bizarres.”

Impressions générales et prochaines étapes

Huang est généralement impressionné par l’état de l’IA générative et estime qu’il existe des opportunités de travail futur, notamment en tirant parti des paradoxes et en utilisant ces outils de manière créative et inclusive.

« Les chercheurs ont besoin de réponses à des questions subjectives », dit-elle. “Qu’est-ce qui fait une bonne description ? Qu’est-ce qui los angeles rend utile ? Est-ce ennuyeux ? J’espère donc que les chercheurs créatifs en IA continueront à examiner les commentaires des utilisateurs au fur et à mesure de leurs itérations.”

Le travail de Hwang avec GPT-Imaginative and prescient a été inspiré par l’idée de lire à haute voix le contenu d’un article scientifique dans lequel les nombres et les formules sont expliqués intuitivement. Dans son prochain projet, elle prévoit d’utiliser des modèles d’intelligence artificielle pour améliorer los angeles manière dont les livres audio fournissent des informations aux auditeurs.

“Au lieu de sauter par incréments de 15 secondes, nous pourrions peut-être sauter word par word ou paragraphe par paragraphe”, dit-elle. “Peut-être pourrions-nous avancer rapidement dans un livre audio en le résumant en temps réel. Grâce à l’intelligence artificielle, il pourraient être des « moyens » de traduction. » « Des équations mathématiques en langage naturel pour aider les gens à écouter des manuels et des paperwork de recherche. Ce sont toutes des packages passionnantes qui semblent à notre portée et je suis ravi de faire partie du processus.

Plus d’knowledge:
Alyssa Huang et al., Solide instinct des capacités de GPT-Imaginative and prescient à l’aide de l’imagerie scientifique, arXiv (2023). DOI : 10.48550/arxiv.2311.02069

Informations sur les magazines :
arXiv

Fourni par l’Université de Pennsylvanie

los angeles quotation: Un aperçu de l’avenir de l’interprétation des données visuelles : un cadre pour évaluer l’efficacité de l’IA générative (17 novembre 2023) Récupéré le 17 novembre 2023 sur

Ce report est soumis au droit d’auteur. Nonobstant toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre informatif uniquement.