Cette semaine, plus de 30 000 personnes convergent vers San Jose, en Californie, pour assister à Nvidia GTC, l'événement phare de l'IA, que certains (peut-être Nvidia elle-même !) surnomment le « Super Bowl de l'IA ». Lors de la conférence, Jensen Huang, PDG de Nvidia, a présenté une nouvelle gamme de puces Vera Rubin de nouvelle génération, marquant une première pour le géant des GPU : une puce conçue spécifiquement pour gérer l'inférence IA.

L'unité de traitement du langage (LPU) Nvidia Groq 3 intègre la propriété intellectuelle que Nvidia a acquise de la start-up Groq la veille de Noël dernier pour la somme colossale de 20 milliards de dollars américains. Un investissement stratégique qui témoigne de l'importance croissante de l'inférence dans le paysage de l'IA.

« Enfin, l'IA est capable d'effectuer un travail productif, et par conséquent, le point d'inflexion de l'inférence est arrivé », a déclaré Huang à la foule. « L'IA doit maintenant penser. Pour penser, elle doit inférer. L'IA doit maintenant agir ; pour agir, elle doit inférer. » Cette déclaration souligne un changement fondamental dans la manière dont l'IA est utilisée. Alors que la formation des modèles d'IA a longtemps été au centre de l'attention, l'inférence, c'est-à-dire la capacité à appliquer ces modèles à de nouvelles données pour prendre des décisions ou générer du contenu, devient de plus en plus cruciale.

Traditionnellement, les tâches d'entraînement et d'inférence ont des exigences computationnelles distinctes. L'entraînement peut être effectué sur d'énormes quantités de données simultanément et peut prendre des semaines, voire des mois. L'inférence, en revanche, doit être rapide et efficace, car elle est souvent effectuée en temps réel pour répondre aux requêtes des utilisateurs ou contrôler des systèmes autonomes.

L'arrivée de puces comme la Groq 3, conçues spécifiquement pour l'inférence, pourrait bien marquer un tournant dans l'industrie de l'IA. En optimisant le matériel pour cette tâche spécifique, Nvidia espère accélérer le déploiement de l'IA dans un large éventail d'applications, allant des chatbots et assistants virtuels aux véhicules autonomes et aux systèmes de recommandation personnalisés.

L'investissement massif de Nvidia dans Groq et le développement de la Groq 3 témoignent de la conviction de l'entreprise que l'inférence est la prochaine frontière de l'IA. Si cette puce tient ses promesses, elle pourrait non seulement consolider la position de Nvidia en tant que leader du marché des GPU, mais également ouvrir de nouvelles perspectives pour l'utilisation de l'IA dans le monde réel. Reste à voir comment cette nouvelle technologie se traduira en performances concrètes et en adoption par les développeurs et les entreprises. Mais une chose est sûre : l'ère de l'inférence IA est en marche, et Nvidia est bien positionnée pour en être un acteur majeur.