L. a. technologie d’apprentissage automatique développée par des chercheurs du MIT et d’ailleurs permet aux modèles d’apprentissage profond, tels que ceux derrière les chatbots ou les claviers intelligents alimentés par l’IA, d’apprendre efficacement et en continu à partir des nouvelles données utilisateur directement sur un appareil de pointe comme un smartphone. Crédit : MIT Actualités
Des modèles d’apprentissage profond personnalisés pourraient permettre à des chatbots IA qui s’adaptent pour comprendre l’accessory d’un utilisateur ou à des claviers intelligents constamment mis à jour pour mieux prédire le mot suivant en fonction de l’historique de frappe d’une personne. Cette personnalisation nécessite un ajustement consistent du modèle d’apprentissage automatique avec de nouvelles données.
Étant donné que les smartphones et autres périphériques ne disposent pas de l. a. mémoire et de l. a. puissance de calcul nécessaires à ce processus de réglage fin, les données des utilisateurs sont généralement téléchargées sur des serveurs cloud où le modèle est mis à jour. Mais le transfert de données consomme beaucoup d’énergie et l’envoi de données utilisateur sensibles vers un serveur cloud présente un risque de sécurité.
Des chercheurs du MIT, du Watson Synthetic Intelligence Lab du MIT, d’IBM et d’ailleurs ont développé une technologie qui permet aux modèles d’apprentissage profond de s’adapter efficacement aux nouvelles données de capteurs directement sur un périphérique.
Leur méthode de formation sur appareil, appelée PockEngine, identifie les events du modèle d’apprentissage automatique massif qui doivent être mises à jour pour améliorer l. a. précision, et stocke et calcule uniquement ces events spécifiques. Il effectue l. a. majeure partie de ces calculs lors de l. a. configuration du modèle, avant l’exécution, ce qui réduit l. a. rate de calcul et accélère le processus de réglage fin.
Par rapport à d’autres méthodes, PockEngine accélère considérablement l. a. formation sur appareil, fonctionnant jusqu’à 15 fois plus rapidement sur certaines plates-formes matérielles. De plus, PockEngine n’a pas entraîné de diminution de l. a. précision des modèles. Les chercheurs ont également constaté que leur approche de réglage permettait au chatbot IA populaire de répondre avec plus de précision à des questions complexes.
“Le réglage fin sur l’appareil peut permettre une meilleure confidentialité, des coûts réduits, une personnalisation et un apprentissage tout au lengthy de l. a. vie, mais ce n’est pas facile. Tout doit se produire avec un nombre limité de ressources. Nous voulons pouvoir exécuter plus qu’une easy inférence”, » déclare Track Han. , professeur agrégé au Département de génie électrique et d’informatique (EECS), membre du MIT-IBM Watson AI Lab, scientifique distingué chez NVIDIA et auteur important d’un article en libre accès décrivant PockEngine publié sur arXiv Serveur d’influence avancé.
Han est rejoint dans cet article par l’auteur important Liying Zhou, étudiant diplômé à l’EECS, ainsi que par d’autres au MIT, au MIT-IBM Watson AI Lab et à l’UC San Diego. L’article a été récemment présenté au Symposium global IEEE/ACM sur l. a. microarchitecture.
Couche après couche
Les modèles d’apprentissage profond s’appuient sur des réseaux de neurones, qui comprennent de nombreuses couches de nœuds interconnectées, ou « neurones », qui traitent les données pour effectuer une prédiction. Lorsque le modèle est exécuté, un processus appelé inférence est transmis, qui consiste à entrer des données (telles qu’une symbol) de couche en couche jusqu’à ce qu’une prédiction (peut-être une étiquette d’symbol) soit finalement générée. Lors de l’inférence, chaque couche n’a plus besoin d’être stockée après le traitement de l’entrée.
Mais lors de l. a. formation et de l. a. mise au level, le modèle est soumis à un processus appelé rétropropagation. Lors de l. a. rétropropagation, le résultat est comparé à l. a. bonne réponse, et le modèle est ensuite exécuté dans l. a. path opposée. Chaque couche est mise à jour à mesure que l. a. sortie du modèle se rapproche de l. a. bonne réponse.
Étant donné que chaque couche peut devoir être mise à jour, l’intégralité du modèle et les résultats intermédiaires doivent être stockés, ce qui rend le réglage plus connoisseur en mémoire que l’inférence.
Cependant, toutes les couches d’un réseau neuronal ne sont pas importantes pour améliorer l. a. précision. Même pour les couches importantes, il peut ne pas être nécessaire de mettre à jour l. a. totalité de l. a. couche. Ces couches et couches découpées n’ont pas besoin d’être stockées. De plus, il n’est peut-être pas nécessaire de revenir à l. a. première couche pour améliorer l. a. précision, automotive le processus peut être arrêté quelque section au milieu.
PockEngine profite de ces facteurs pour accélérer le processus de réglage fin et réduire l. a. quantité de calculs et de mémoire requis.
Le système affine d’abord chaque couche, une par une, pour une tâche donnée et mesure l’amélioration de l. a. précision après chaque couche. De cette manière, PockEngine détermine l. a. contribution de chaque couche, ainsi que les compromis entre précision et coût de réglage fin, et détermine automatiquement le pourcentage de chaque couche qui nécessite un réglage précis.
“Cette méthode correspond très bien à l. a. précision par rapport à l. a. rétropropagation complète sur différentes tâches et différents réseaux neuronaux”, ajoute Han.
Modèle réduit
Traditionnellement, le graphique de rétropropagation est généré pendant l’exécution, ce qui implique une grande quantité de calculs. Au lieu de cela, PockEngine le fait au second de l. a. compilation, pendant que le modèle est en cours de préparation pour le déploiement.
PockEngine supprime des morceaux de code pour supprimer les couches ou events de couches inutiles, créant ainsi un graphique réduit du modèle à utiliser pendant l’exécution. Il apporte ensuite d’autres améliorations à ce graphique pour améliorer encore l’efficacité.
Étant donné que tout cela ne doit être fait qu’une seule fois, cela permet d’économiser des frais de calcul pendant l’exécution.
“C’est comme avant de partir en randonnée. À l. a. maison, il faut bien planifier : quels sentiers vous allez emprunter, quels sentiers vous allez ignorer. Ainsi, au second de l’exécution, lorsque vous êtes En fait de randonnée, vous avez « en effet, un plan très précis à suivre ».
Lorsqu’ils ont appliqué PockEngine à des modèles d’apprentissage profond sur divers périphériques, notamment les puces Apple M1 et les processeurs de signaux numériques courants dans de nombreux smartphones et ordinateurs Raspberry Pi, il a effectué une formation sur l’appareil jusqu’à 15 fois plus rapidement, sans perte de précision. PockEngine a également considérablement réduit l. a. quantité de mémoire requise pour le réglage.
L’équipe a également appliqué cette method au grand modèle de langage Llama-V2. Pour les grands modèles de langage, le processus de mise au level implique de fournir de nombreux exemples, et il est essential que le modèle apprenne à interagir avec les utilisateurs, explique Hahn. Ce processus est également essential pour les modèles chargés de résoudre des problèmes complexes ou de réfléchir à des answers.
Par exemple, les modèles Llama-V2 réglés à l’aide de PockEngine ont répondu à l. a. query « Quel est le dernier album de Michael Jackson ? » correctement, tandis que les modèles qui n’étaient pas affinés ont échoué. PockEngine a réduit le temps nécessaire à chaque itération du processus de réglage fin d’environ sept secondes à moins d’une seconde sur NVIDIA Jetson Orin, l. a. plate-forme GPU de pointe.
À l’avenir, les chercheurs souhaitent utiliser PockEngine pour affiner des modèles plus grands conçus pour traiter ensemble le texte et les photographs.
“Ce travail répond aux défis d’efficacité croissants posés par l’adoption de grands modèles d’IA tels que les LLM dans diverses packages dans de nombreux secteurs différents. Il est prometteur non seulement pour les packages de pointe impliquant des modèles plus grands, mais également pour réduire les coûts de repairs et de mise à jour de grands modèles. packages.” Modèles d’IA dans le cloud “, déclare Ethereal McCrostie, un cadre supérieur de l. a. department d’intelligence artificielle générale d’Amazon qui n’a pas été impliqué dans cette étude mais travaille avec le MIT sur des recherches connexes sur l’IA by the use of le MIT-Amazon Science Hub.
Plus d’data:
Ling Zhou et al.,,PockEngine : réglage précis et efficace dans Pocket. arXiv (2023). DOI : 10.48550/arxiv.2310.17752
arXiv
Fourni par le MIT
Cette histoire a été republiée grâce à MIT Information (internet.mit.edu/newsoffice/), un website online populaire couvrant l’actualité de l. a. recherche, de l’innovation et de l’enseignement du MIT.
l. a. quotation: Technologie qui permet à l’IA sur les appareils avancés de continuer à apprendre au fil du temps (16 novembre 2023) Récupéré le 16 novembre 2023 sur
Ce report est soumis au droit d’auteur. Nonobstant toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre informatif uniquement.