De nouvelles ways accélèrent efficacement les tenseurs clairsemés pour les grands modèles d’IA

Des chercheurs du MIT et de NVIDIA ont développé deux applied sciences complémentaires qui pourraient augmenter considérablement l. a. vitesse et les performances des packages de calcul haute efficiency telles que l’analyse graphique ou l’intelligence artificielle générative. Les deux nouvelles méthodes cherchent à exploiter efficacement l. a. parcimonie – les valeurs nulles – des tenseurs. Crédit : Symbol : José Luis Olivares, MIT

Des chercheurs du MIT et de NVIDIA ont développé deux ways pour accélérer le traitement du tenseur clairsemé, un sort de construction de données utilisé pour les tâches de calcul hautes performances. Des applied sciences complémentaires peuvent conduire à des améliorations significatives des performances et de l’efficacité énergétique des systèmes tels que les modèles massifs d’apprentissage automatique qui pilotent l’intelligence artificielle générative.

Les tenseurs sont des buildings de données utilisées par les modèles d’apprentissage automatique. Les deux nouvelles méthodes cherchent à exploiter efficacement ce que l’on appelle l. a. parcimonie – les valeurs nulles – dans les tenseurs. Lors de l. a. manipulation de ces tenseurs, on peut ignorer les zéros et économiser à l. a. fois le calcul et l. a. mémoire. Par exemple, tout ce qui est multiplié par zéro est égal à zéro, il peut donc ignorer ce processus. Il peut compresser le tenseur (pas besoin de stocker des zéros) afin qu’une plus grande partie puisse être stockée dans l. a. mémoire sur puce.

Cependant, l’exploitation de l. a. parcimonie présente plusieurs défis. Trouver des valeurs non nulles dans un grand tenseur n’est pas une tâche facile. Les méthodes existantes limitent souvent les emplacements des valeurs non nulles en imposant un modèle clairsemé pour simplifier l. a. recherche, mais cela limite l. a. variété de tenseurs clairsemés qui peuvent être traités efficacement.

Un autre défi est que le nombre de valeurs non nulles peut varier selon les différentes régions du tenseur. Cela rend difficile l. a. détermination de l. a. quantité d’espace nécessaire pour stocker les différentes zones de mémoire. Pour garantir l’adéquation de l. a. zone, plus d’espace est souvent alloué que nécessaire, ce qui entraîne une sous-utilisation de l. a. zone tampon de stockage. Cela entraîne une augmentation du trafic mémoire hors puce, ce qui nécessite des calculs supplémentaires.

Les chercheurs du MIT et de NVIDIA ont formulé deux answers pour résoudre ces problèmes. Premièrement, ils ont développé une method qui permet aux machines de trouver efficacement des valeurs non nulles pour une huge gamme de modèles de diffusion.

Pour l’autre answer, ils ont créé une méthode succesful de gérer le cas où les données ne tiennent pas en mémoire, augmentant ainsi l’utilisation du tampon de stockage et réduisant le trafic mémoire hors puce.

Les deux méthodes améliorent les performances et réduisent les besoins en énergie des accélérateurs matériels spécialement conçus pour accélérer le traitement des tenseurs clairsemés. Les papiers ont été envoyés à arXiv Serveur d’influence avancé.

“En règle générale, lorsque vous utilisez des accélérateurs matériels plus spécialisés ou spécifiques à un domaine, vous perdez l. a. flexibilité que vous obtiendriez d’un processeur plus général, comme un CPU. Ce qui ressort de ces deux travaux, c’est que nous montrons que vous pouvez toujours Génie électrique et informatique (EECS) du Massachusetts Institute of Era (MIT), membre du Laboratoire de recherche en électronique (RLE) et co-auteur main des articles « Restez versatile et adaptable tout en étant spécialisé et efficace ». sur les deux avancées.

Ses co-auteurs incluent les auteurs principaux Yanan Nili Wu, Ph.D. ’23 et Ziyu Xue, étudiant diplômé en génie électrique et informatique ; Co-auteur main Joel Emmer, professeur d’informatique et de génie électrique au MIT et membre du Laboratoire d’informatique et d’intelligence artificielle (CSAIL), ainsi que d’autres chez NVIDIA. Les deux articles seront présentés au Symposium global IEEE/ACM sur l. a. microarchitecture.

Level citadel : trouver efficacement les valeurs nulles

Des éclaboussures dans le tendeur peuvent survenir pour plusieurs raisons. Par exemple, les chercheurs « élaguent » parfois les events inutiles des modèles d’apprentissage automatique en remplaçant certaines valeurs du tenseur par des zéros, ce qui conduit à une parcimonie. Le degré de parcimonie (pourcentage de zéros) et l’emplacement des zéros peuvent varier d’un modèle à l’autre.

Pour faciliter l. a. recherche des valeurs non nulles restantes dans un modèle contenant des milliards de valeurs individuelles, les chercheurs contraignent souvent l’emplacement des valeurs non nulles afin qu’elles correspondent à un modèle particulier. Cependant, chaque accélérateur matériel est généralement conçu pour prendre en price un modèle clairsemé spécifique, ce qui limite sa flexibilité.

En revanche, un accélérateur matériel conçu par des chercheurs du MIT, appelé HighLight, peut gérer un huge éventail de modèles clairsemés tout en restant performant lors de l’exécution de modèles ne contenant aucune valeur nulle.

Ils utilisent une method qu’ils appellent « parcimonie structurée hiérarchique » pour représenter efficacement un huge éventail de modèles de diffusion constitués de plusieurs modèles clairsemés simples. Cette approche divise les valeurs du tenseur en blocs plus petits, où chaque bloc a son propre motif clairsemé easy (peut-être deux zéros et deux non nuls dans un bloc à quatre valeurs).

Ensuite, ils combinent les blocs dans une hiérarchie, où chaque ensemble de blocs possède également son propre modèle clairsemé easy (peut-être un bloc nul et trois blocs non nuls dans un niveau de quatre blocs). Ils continuent de combiner des blocs en niveaux plus grands, mais les modèles restent simples à chaque étape.

Cette simplicité permet à HighLight de rechercher et de sauter les zéros plus efficacement, afin que vous puissiez profiter pleinement de l’opportunité de réduire les calculs redondants. En moyenne, l. a. conception de leur accélérateur était environ six fois plus économe en énergie que les autres approches.

“En fin de compte, l’accélérateur HighLight est succesful d’accélérer efficacement les modèles denses automotive il ne provoque pas beaucoup de frais généraux, et en même temps, il est succesful d’exploiter des fees de travail avec différentes quantités de valeurs nulles en fonction de l. a. variance structurelle hiérarchique”, a-t-il déclaré. explique.

À l’avenir, elle et ses collaborateurs souhaitent appliquer une variation structurelle hiérarchique à davantage de varieties de modèles d’apprentissage automatique et à différents varieties de tenseurs dans les modèles.

Tailors et Swiftiles : surréservation efficace pour accélérer les fees de travail

Les chercheurs peuvent également profiter de l. a. rareté pour déplacer et traiter les données plus efficacement sur une puce informatique.

Étant donné que les tenseurs sont souvent plus grands que ce qui peut être stocké dans l. a. mémoire tampon de l. a. puce, l. a. puce ne seize et ne traite qu’une partie du tenseur à l. a. fois. Les pièces sont appelées tuiles.

Pour maximiser l’utilisation de ce tampon et limiter le nombre de fois où l. a. puce doit accéder à l. a. mémoire hors puce, qui domine souvent l. a. consommation d’énergie et limite l. a. vitesse de traitement, les chercheurs visent à utiliser l. a. plus grande dalle pouvant tenir dans le tampon.

Mais dans un tenseur clairsemé, de nombreuses valeurs de données sont nulles, de sorte qu’une plus grande taille peut tenir dans le tampon que ce à quoi on pourrait s’attendre en fonction de sa capacité. Les valeurs nulles n’ont pas besoin d’être stockées.

Mais le nombre de valeurs nulles peut varier selon les différentes régions du tenseur, il peut donc également varier pour chaque carré. Il est donc difficile de déterminer quelle taille de carreau tiendra dans le tampon. En conséquence, les méthodes existantes supposent souvent qu’il n’y a pas de zéros et finissent par choisir un carré plus petit, gaspillant ainsi de l’espace vide dans l. a. mémoire tampon.

Pour répondre à cette incertitude, les chercheurs proposent d’utiliser le « surbooking » pour leur permettre d’augmenter l. a. taille des tuiles, ainsi qu’un moyen de tolérer si une tuile ne rentre pas dans le tampon.

De l. a. même manière qu’une compagnie aérienne surbooke des billets pour un vol, si tous les passagers se présentent, l. a. compagnie aérienne doit indemniser les personnes renversées de l’avion. Mais généralement, tous les passagers ne sont pas présents.

Dans un tenseur clairsemé, l. a. taille des tuiles peut être choisie de telle sorte que les tuiles contiennent généralement suffisamment de zéros pour que l. a. plupart d’entre eux tiennent toujours dans le tampon. Mais parfois, une tuile air of mystery plus de valeurs non nulles qu’elle n’en contient. Dans ce cas, ces données sont sorties du tampon.

Les chercheurs permettent aux appareils de récupérer uniquement les données entrées en collision sans récupérer l. a. boîte entière et l. a. traiter à nouveau. Ils modifient le “back-end” du tampon pour gérer cela, d’où le nom de cette method, l. a. personnalisation.

Ensuite, ils ont également créé un moyen de trouver l. a. taille de tuile qui bénéficie de l. a. surréservation. Cette méthode, appelée Swiftiles, estime rapidement l. a. taille idéale des tuiles afin qu’un positive pourcentage de tuiles, défini par l’utilisateur, soit surbooké. (Les noms “Tailors” et “Swiftiles” rendent hommage à Taylor Swift, dont l. a. récente tournée Eras était remplie de codes de prévente pour les billets en surréservation.)

Swiftiles réduit le nombre de fois où l. a. gadget doit vérifier le tendeur pour déterminer l. a. taille idéale des carreaux, économisant ainsi les calculs. L. a. combinaison de Tailors et Swiftiles double l. a. vitesse tout en ne nécessitant que l. a. moitié des besoins en énergie des accélérateurs matériels existants qui ne peuvent pas gérer l. a. surréservation.

“Swiftiles nous permet d’estimer l. a. taille de ces carrés sans avoir besoin de plusieurs itérations pour affiner l’estimation. Cela ne fonctionne que parce que l. a. surréservation est prise en price. Même si vous vous écartez d’un montant décent, vous pouvez toujours extraire une bonne quantité d’accélération automotive c’est lent”, dit Xue. “Sur l. a. façon dont les zéros sont distribués.”

À l’avenir, les chercheurs souhaitent appliquer l’idée de surréservation à d’autres sides de l’structure informatique et travailler également à l’amélioration du processus d’estimation du niveau optimum de surréservation.

Plus d’knowledge:
Ziyu arXiv (2023). DOI : 10.48550/arxiv.2310.00192

Yannan Nili Wu et al., HighLight : accélération DNN efficace et versatile avec parcimonie régularisée hiérarchique, arXiv (2023). est ce que je: 10.48550/arxiv.2305.12718

Informations sur les magazines :
arXiv

Fourni par le MIT

l. a. quotation: Nouvelles ways qui accélèrent efficacement les tenseurs clairsemés pour les grands modèles d’IA (30 octobre 2023) Récupéré le 30 octobre 2023 sur

Ce file est soumis au droit d’auteur. Nonobstant toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre informatif uniquement.