Le prochain 100X pour les performances matérielles de l'IA sera plus difficile - Traitement Cie., Ltd de pièces de matériel de précision de Shanghai

Pour ceux d'entre nous qui aiment le matériel et espéraient une grande révélation sur le processeur IA TPUv5e et le système, l'interconnexion et la pile logicielle environnants lors de la conférence Hot Chips 2023 cette semaine, le discours d'ouverture de Jeff Dean et Amin Vahdat, les deux plus des techniciens importants chez Google, a été un peu décevant. Mais la conférence de Google nous a tout de même donné de la matière pour des expériences de pensée sur l’IA.

Cela fait dix ans que Dean, qui a joué un rôle déterminant dans tant de technologies créées par Google qu'il ne devrait probablement jamais être autorisé à prendre l'avion ou à faire de l'escalade, a fait quelques calculs sur un bout de papier et a compris que Si Google ajoutait des fonctions d'IA à son moteur de recherche éponyme, il devrait doubler la taille de son centre de données et envoyer Google sur la voie de la création de ses moteurs mathématiques matriciels personnalisés Tensor Processing Unit, ou TPU.

Dix ans plus tard, l’IA est plus complexe et plus gourmande en calcul et le fer TPUv4, dont on parle beaucoup, bien qu’utile maintenant et pour de nombreuses années à venir, semble un peu long dans la dent. Les systèmes TPUv4 ont été complétés par le TPUv5e, très probablement basé sur des processus de 5 nanomètres et très probablement avec au moins deux fois les performances brutes maximales, fonctionnant dans les centres de données Google. (Nous avons étudié en profondeur le système TPUv4 en octobre de l'année dernière, et nous n'avons pas encore mis à jour cela avec l'interconnexion de commutateur optique qui a été révélée plus tôt cette année et qui sera discutée en détail à Hot Chips cette semaine.)

Et comme nous nous y attendions, certains détails sur la variante TPUv5e utilisée à la fois pour la formation et l'inférence ont été révélés lors de l'événement Google Cloud Next 2023 qui se déroulait en même temps que Hot Chips 2023, et nous y reviendrons sous peu. Nous prévoyons également qu'une fois que les instances cloud seront disponibles exécutant TPUv5e, elles offriront un rapport qualité-prix environ 30 % supérieur à celui des instances TPUv4 précédentes sur Google Cloud. Cela pourrait même s’avérer encore plus rentable. Il faudra voir.

Nous avons choisi les conférences Google à Hot Chips plutôt que le discours d'ouverture de Google Next, car lorsque Dean parle, les architectes système doivent écouter. Dean a participé à presque toutes les technologies de base de Google : la manière MapReduce d'exploiter le Big Data, la superposition relationnelle BigTable pour le système de stockage distribué Spanner, les logiciels TensorFlow et Pathways qui sous-tendent les plus grands modèles d'IA de la famille PaLM, le Le matériel TPU, et maintenant le grand modèle de langage Gemini qui va donner du fil à retordre aux modèles GPT-4 et GPT-5 d'OpenAI. (Eh bien, tout le monde espère qu'il y a de l'argent quelque part là-dedans, en dehors des usines de fabrication de semi-conducteurs et des fabricants de matériel informatique.) Dean a dirigé Google Research pendant de nombreuses années et a cofondé l'équipe Google Brain qui a réuni les meilleurs chercheurs en IA et son acquisition DeepMind et où il est actuellement scientifique en chef.

Sa présentation principale était partagée avec Amin Vahdat, qui, comme Dean, est également Google Fellow et est actuellement vice-président de l'ingénierie dans l'entreprise, était professeur d'informatique et d'ingénierie à l'Université de Californie à San Diego et directeur de son centre pour systèmes en réseau avant de rejoindre Google en 2010, où il était responsable technique pour la mise en réseau, puis responsable technique pour le calcul, le stockage et la mise en réseau, et plus récemment, il est désormais responsable de l'équipe Machine Learning, Systems et Cloud AI de l'entreprise en tant que en plus d'être responsable de la recherche sur les systèmes chez Google. MSCA développe et gère Compute Engine et Borg, la suite de moteurs de calcul CPU, TPU, GPU, le réseau qui les relie ensemble et l'ensemble de la pile logicielle d'IA utilisée en production par Google et ses clients cloud.

Dean et Vahdat définissent et créent l'infrastructure de Google. On ne sait pas exactement quel rôle Urs Hölzle, également Google Fellow et premier vice-président de l'ingénierie de l'entreprise, puis vice-président de la recherche et pendant plus de deux décennies vice-président senior de l'ingénierie en charge de l'équipe d'infrastructure technique, joue actuellement depuis sa nouvelle maison à Auckland, en Nouvelle-Zélande. Chez Hot Chips, Dean a tracé le terrain pour l'IA et Vahdat a parlé des demandes croissantes et du matériel nécessaire pour traverser ce terrain.