GPT-4 est en dessous du seuil de Turing

Crédit : Pixabay/CC0 Domaine public

Il y a une query qui swimsuit sans relâche ChatGPT sur son chemin vers le statut de famous person dans le domaine de l’IA : a-t-il satisfait au check de Turing pour générer un résultat not possible à distinguer d’une réponse humaine ?

Deux chercheurs de l’Université de Californie à San Diego affirment que cela se rapproche, mais pas tout à fait.

ChatGPT peut être clever, rapide et impressionnant. Elle fait du bon travail en faisant preuve d’une intelligence évidente. Il apparaît humain dans les conversations avec les gens et peut également faire preuve d’humour, imiter les expressions des young people et réussir les examens de l. a. faculté de droit.

Mais parfois, ils s’avèrent fournir des informations complètement fausses. Il hallucine. Cela ne se reflète pas dans sa propre manufacturing.

Cameron Jones, spécialiste du langage, de l. a. sémantique et de l’apprentissage automatique, et Benjamin Bergen, professeur de sciences cognitives, se sont appuyés sur les travaux d’Alan Turing, qui a conçu il y a 70 ans un processus permettant de déterminer si une device pouvait atteindre le level d’intelligence. et capacité de dialog. Une subtilité qui peut tromper n’importe qui en lui faisant croire qu’il est humain.

Leur rapport est intitulé « GPT-4 réussit-il le check de Turing ? » Disponible sur arXiv Serveur d’influence avancé.

Ils ont rassemblé 650 contributors et produit 1 400 « jeux » dans lesquels de courtes conversations ont ecu lieu entre les contributors et soit un autre humain, soit un modèle GPT. Il a été demandé aux contributors d’identifier à qui ils parlaient.

Les chercheurs ont découvert que les modèles GPT-4 trompaient les contributors 41 % du temps, tandis que les modèles GPT-3.5 ne les trompaient que 5 à 14 % du temps. Il est intéressant de noter que les humains n’ont réussi à convaincre les contributors qu’ils n’étaient pas des machines dans seulement 63 % des essais.

“Nous ne trouvons aucune preuve que GPT-4 réussisse le check de Turing”, ont conclu les chercheurs.

Cependant, ils notent que le check de Turing preserve toujours sa valeur en tant que mesure de l’efficacité du discussion automatisé.

“Le check revêt une significance proceed en tant que cadre pour mesurer l’interplay sociale et l. a. tromperie fluide, et pour comprendre les stratégies humaines d’adaptation à ces appareils”, ont-ils déclaré.

Ils préviennent que dans de nombreux cas, les chatbots peuvent encore communiquer de manière suffisamment convaincante pour tromper les utilisateurs.

“Le taux de réussite de 41 % suggère que l. a. tromperie par les modèles d’IA pourrait effectivement être imaginable, en particulier dans des contextes où les interlocuteurs humains sont moins attentifs à l. a. possibilité de ne pas parler à un humain”, ont-ils déclaré. « Les modèles d’IA capables d’usurper l’identité de personnes pourraient avoir de vastes conséquences sociales et économiques. »

Les chercheurs ont noté que les contributors qui ont fait l. a. bonne identity se sont concentrés sur plusieurs facteurs.

Les formulaires trop formels ou trop informels ont déclenché des signaux d’alarme pour les contributors. S’ils sont verbeux ou trop brefs, si leur grammaire ou leur utilisation de l. a. ponctuation est exceptionnellement bonne ou « peu convaincante » médiocre, leur utilisation devient un facteur clé pour déterminer si les contributors ont affaire à des humains ou à des machines.

Les candidats étaient également sensibles aux réponses qui semblaient génériques.

“Les étudiants en maîtrise apprennent à produire des résultats hautement probables qui sont affinés pour éviter les critiques controversées. Ces processus peuvent encourager des réponses publiques typiques en général, mais manquent de spécificité individuelle typique : une sorte d’erreur écologique”, ont déclaré les chercheurs.

Les chercheurs suggèrent qu’il sera vital de suivre les modèles d’IA à mesure qu’ils gagneront en flexibilité et s’adapteront à davantage de bizarreries humaines dans les conversations.

« Il deviendra de plus en plus vital d’identifier les facteurs qui conduisent à l. a. fraude et les stratégies pour l’atténuer », ont-ils déclaré.

Plus d’knowledge:
Cameron Jones et al., GPT-4 réussit-il le check de Turing ? arXiv (2023). est ce que je: 10.48550/arxiv.2310.20216

Informations sur les magazines :
arXiv

© 2023 Réseau ScienceX

l. a. quotation: GPT-4 sous le seuil de Turing (2 novembre 2023) Récupéré le 2 novembre 2023 sur

Ce file est soumis au droit d’auteur. Nonobstant toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre informatif uniquement.