15 milliards de paramètres, Google a ouvert le code complet du plus grand modèle visuel de l'histoire, V - Moe

Le cœur de la machine 2022-01-14 21:18:05
Au cours des dernières décennies,.Le progrès de l'apprentissage profond est motivé par plusieurs facteurs clés:Quelques mécanismes simples et flexibles、Grands ensembles de données、Configuration matérielle plus professionnelle,Les progrès de ces technologies ont permis aux réseaux neuronaux de、Traduction automatique、Des résultats impressionnants ont été obtenus dans des missions telles que la prédiction des protéines.

Et pourtant,L'utilisation de grands modèles et d'ensembles de données se fait au détriment d'un grand nombre de besoins informatiques.Des études récentes ont montré que,L'amélioration de la capacité de généralisation et de la robustesse d'un modèle dépend du soutien d'un grand modèle,Donc,,Il est très important d'harmoniser les contraintes avec les ressources de formation tout en formant de grands modèles.Une méthode possible consiste à utiliser les conditions pour calculer,Cette méthode n'active pas l'ensemble du Réseau pour une seule entrée,Au lieu de cela, activez différentes parties du modèle en fonction de différentes entrées.Ce paradigme a été proposé par Google pathway(Une toute nouvelle AI Solutions,Il peut surmonter de nombreux inconvénients des systèmes existants,Tout en renforçant ses avantages)La vision et, plus récemment, des études à grande échelle sur les modèles linguistiques ont été mises en évidence,Mais la vision par ordinateur n'est pas encore bien explorée.

Réseau mixte d'experts en portes clairsemées (MoE) Excellente extensibilité dans le traitement du langage naturel.Et pourtant,Dans la vision informatique,Presque tous les réseaux haute performance sont denses,C'est - à - dire,Chaque entrée est convertie en paramètre pour le traitement.

L'année dernière 6 Mois, Des chercheurs de Google Brain ont proposé V-MoE(Vision MoE ),Il s'agit d'une nouvelle architecture visuelle basée sur un mélange clairsemé d'experts.Lorsqu'il est utilisé pour la reconnaissance d'image,V-MoE Seulement la moitié de la quantité de calcul nécessaire pour raisonner,Pour atteindre des performances réseau avancées.En outre,L'étude propose également une extension de l'algorithme de routage,L'algorithme peut être utilisé dans batch Prioriser chaque sous - ensemble d'entrées dans,Pour réaliser un calcul d'image adaptatif.Ça permet V-MoE Capacité de peser les performances et de lisser les calculs lors des essais.Enfin,L'étude a montré V-MoE Développer le potentiel des modèles visuels,Et a formé un ImageNet Vers le Haut 90.35% De 150 Modèle à paramètres multiples.
Adresse de la thèse:https://arxiv.org/pdf/2106.05974.pdf
Code adresse:https://github.com/google-research/vmoe

V-MoE

Google Brain est ViT Construit sur différentes variantes de V-MoE:ViT-S(mall)、ViT-B(ase)、ViT-L(arge) Et ViTH(uge), Ses superparamètres sont les suivants :
ViT A démontré une bonne extensibilité dans les cadres d'apprentissage de la migration , Avec moins de calculs de pré - formation ,Que CNN Obtenir une plus grande précision .ViT Traitement de l'image en une série de patch, L'image d'entrée est d'abord divisée en patch,Ces patch Est projeté linéairement sur Transformer Couche cachée de, Après intégration en position ,patch Intégration(token)Par Transformer Traitement,Le Transformer Principalement par l'auto - Attention alternée et MLP Composition des couches.MLP Il y a deux couches et une GeLU Non linéaire.Pour Vision MoE,Pour cette étude MoE Les couches remplacent un sous - ensemble , Chacun de ces experts est un MLP,Comme le montre la figure ci - dessous:
Pour l'expansion à grande échelle des modèles visuels , L'étude ViT Quelques couches d'alimentation denses dans l'architecture (FFN) Remplacer par indépendant FFN Un mélange clairsemé de ( Appelez ça un expert ). Les couches de routage apprises sont pour chaque token Sélectionner l'expert correspondant .C'est - à - dire, Les différences de la même image token Peut être acheminé vers différents experts .Au total E Un expert(E Généralement 32)Moyenne,Chaque token Ne peut être acheminé qu'à K(Généralement 1 Ou 2)Un expert. Cela permet d'étendre la taille du modèle , Tout en maintenant chaque token Constante calculée . La figure ci - dessous montre plus en détail V-MoE Structure du bloc d'encodage .

V-MoE Transformer Bloc encodeur

Résultats expérimentaux

Google Brain a commencé avec de grands ensembles de données d'images JFT-300M Une pré - formation sur le modèle .

La figure ci - dessous à gauche montre le modèle dans toutes les tailles (De small s/32 À huge H/14) Résultats de la pré - formation .Et puis,Utilisez un nouveau head( La dernière couche d'un modèle ) Migrer le modèle vers une nouvelle tâche en aval (Par exemple: ImageNet). Ils ont exploré deux types de paramètres de migration : Affiner l'ensemble du modèle sur tous les nouveaux exemples de tâches disponibles ou geler le réseau de pré - formation et utiliser quelques exemples seulement pour les nouveaux head Ajustement( C'est ce qu'on appelle la migration de petits échantillons ).

La figure ci - dessous à droite résume la migration du modèle vers ImageNet Effets de, Chacune de ces catégories d'images n'est disponible qu'en 5 Formation en images (Appelé 5-shot transfer).

Gauche. JFT-300M Sur l'ensemble de données Precision@1 Courbe;Droite. ImageNet 5-shot Courbe de précision de .

Dans les deux cas, Google Brain a trouvé , Compte tenu du calcul de la formation , Les modèles clairsemés sont nettement meilleurs que les modèles denses ou permettent des performances similaires plus rapidement . Pour explorer les limites du modèle visuel , Ils sont JFT-300M Un ensemble de données étendu a été formé avec 150 Milliards de paramètres、24 - Oui. MoE Couche(De 48 Un bloc.)Modèle. Ce plus grand modèle visuel à ce jour est ImageNet C'est fait. 90.35 De Top-1 Précision.
Routage prioritaire

Dans la pratique,En raison de contraintes matérielles, Utiliser un tampon de taille dynamique (buffer)Inefficacité, Ainsi, les modèles utilisent généralement une capacité tampon prédéfinie pour chaque expert . Une fois que les experts ont changé 「Plein.」, Allocation au - delà de cette capacité token Sera jeté et ne sera pas traité .Donc,, Une plus grande capacité permet une plus grande précision , Mais leur coût de calcul est également plus élevé .

Google Brain utilise cette contrainte de mise en œuvre pour V-MoE Plus rapide dans le raisonnement . En réduisant la capacité totale du tampon combiné à token En dessous de la quantité , Le réseau a été contraint de sauter le traitement de certaines des couches d'experts token. Le modèle n'a pas été choisi arbitrairement pour sauter token( Comme au bon vieux boulot ), Au lieu de cela, apprenez à les classer par ordre d'importance . Cela permettra de maintenir des prévisions de haute qualité , Tout en économisant beaucoup de calcul . Ils appellent cette approche le routage par priorité de lot (Batch Priority Routing, BPR) , Le schéma dynamique est le suivant :

À grande capacité ,Vanilla Et le routage prioritaire gère bien tout patch.Mais, Lorsque vous réduisez la taille du tampon pour économiser des calculs ,Vanilla La sélection des itinéraires gère n'importe quel patch, Cela conduit souvent à de mauvaises prévisions ;BPR Sélection intelligente des priorités de traitement important patch, Pour obtenir de meilleures prévisions à moindre coût de calcul .

Il s'est avéré, Supprimer comme il convient token Il est essentiel de fournir des prévisions raisonnées de haute qualité et plus efficaces . Lorsque la capacité des experts diminue ,Vanilla La performance du mécanisme de routage diminue rapidement .Au contraire.,BPR Plus robuste pour une faible capacité .
En général, Google Brain Watch a trouvé ,V-MoE Très flexible dans le raisonnement :Par exemple,Peut réduire chaque token Nombre d'experts sélectionnés pour gagner du temps et calculer , Sans autre formation sur le poids du modèle .

Explorer V-MoE

Comme il reste encore beaucoup à découvrir sur le fonctionnement interne des réseaux clairsemés , Google Brain a également exploré V-MoE Mode de routage pour. Une hypothèse est , Le routeur sera basé sur un contexte sémantique (Par exemple:「Automobile」Expert、「Animaux」Experts, etc) Apprendre à distinguer et à répartir token Aux experts . 

Pour tester ça, Ils montrent deux différences MoE Diagramme des couches , Un très jeune (very early-on), L'autre est plus proche head.x Axe correspondant 32 Chacun des experts ,y L'axe affiche la catégorie d'image ID(De 1 À 1000). Chaque entrée de la figure montre pour une classe d'image spécifique token Fréquence de sélection des experts , Plus la couleur est foncée, plus la fréquence est élevée .

Les résultats montrent, Bien qu'il y ait peu de corrélation au niveau précoce , Mais à la fin du réseau , .Chaque expert ne reçoit et ne traite que des token.Donc,,On peut en tirer des conclusions.,patch Certains regroupements sémantiques apparaissent plus profondément dans le réseau .

Les décisions de routage plus élevées sont liées aux catégories d'images .

Google Brain croit que ce n'est que le début d'un calcul conditionnel à grande échelle basé sur la vision par ordinateur . L'architecture hétérogène d'experts et le routage conditionnel de longueur variable sont également des domaines de recherche potentiels . Les modèles clairsemés sont particulièrement utiles dans les domaines riches en données , Par exemple, la modélisation vidéo à grande échelle . Ils espèrent que le Code et les modèles open source attireront davantage de chercheurs dans ce domaine .

Lien vers le texte original:
https://ai.googleblog.com/2022/01/scaling-vision-with-sparse-mixture-of.html?continueFlag=b96fa8ed72dfc82b777e51b7e954c7dc
本文为[Le cœur de la machine]所创,转载请带上原文链接,感谢
https://fheadline.com/2022/01/202201142103121195.html
相似文章