L’avenir prometteur de la multiplication de matrices pour des modèles d’IA révolutionnaires, selon une étude récente

Les progrès de la multiplication matricielle pourraient conduire à des modèles d’IA plus rapides et plus efficaces, selon des chercheurs. Des avancées récentes dans la multiplication matricielle promettent d’accélérer les modèles d’intelligence artificielle (IA). Des chercheurs ont découvert une nouvelle méthode pour multiplier de grandes matrices de manière plus efficace, éliminant une inefficacité jusqu’alors inconnue. Cette découverte pourrait avoir un impact significatif sur des domaines clés de l’IA tels que la reconnaissance vocale, la vision par ordinateur et les chatbots. En utilisant une approche théorique plutôt que des solutions pratiques immédiates, cette recherche vise à réduire l’exposant de complexité, ω, rapprochant ainsi la multiplication matricielle de la valeur théorique idéale de 2.

Ces progrès pourraient conduire à des temps de formation plus rapides pour les modèles d’IA, une exécution plus efficace des tâches, et potentiellement rendre les technologies d’IA plus accessibles en réduisant la puissance de calcul et la consommation d’énergie nécessaires. Bien que des limites actuelles existent, ces avancées représentent la plus grande amélioration dans le domaine depuis plus d’une décennie, ouvrant la voie à des modèles d’IA plus rapides et plus énergétiques à l’avenir.

En mathématiques, et plus particulièrement en algèbre linéaire, la multiplication matricielle est une opération binaire qui produit une matrice à partir de deux matrices. Pour une multiplication matricielle, le nombre de colonnes de la première matrice doit être égal au nombre de lignes de la seconde matrice. La matrice résultante, appelée produit matriciel, comporte le nombre de lignes de la première matrice et le nombre de colonnes de la seconde. Le produit des matrices A et B est noté AB.

La multiplication matricielle a été décrite pour la première fois par le mathématicien français Jacques Philippe Marie Binet en 1812 pour représenter la composition de cartes linéaires représentées par des matrices. La multiplication matricielle est donc un outil de base de l’algèbre linéaire et, en tant que tel, a de nombreuses applications dans de nombreux domaines des mathématiques, ainsi que dans les mathématiques appliquées, les statistiques, la physique, l’économie et l’ingénierie.

En novembre dernier, trois chercheurs, à savoir Ran Duan et Renfei Zhou de l’université de Tsinghua, ainsi que Hongxun Wu de l’université de Californie Berkeley, ont dévoilé des résultats innovants lors de la conférence Foundations of Computer Science. Bien que l’amélioration en question soit relativement modeste, François Le Gall l’a qualifiée de conceptuellement plus importante que les précédentes, soulignant qu’elle révèle une source d’améliorations potentielles jusqu’alors non explorées. Ces découvertes ont été exploitées dans un second article publié en janvier, détaillant la manière dont la multiplication matricielle peut être encore optimisée grâce à cette approche novatrice. Il s’agit d’une avance technique majeure, a déclaré William Kuszmaul, informaticien théoricien à l’université de Harvard. C’est la plus grande amélioration de la multiplication matricielle que nous ayons vue depuis plus d’une décennie.

Cela peut sembler un problème obscur, mais la multiplication matricielle est une opération informatique fondamentale. Elle est incorporée dans une grande partie des algorithmes que les gens utilisent chaque jour pour toute une série de tâches, de l’affichage de graphiques informatiques plus nets à la résolution de problèmes logistiques dans la théorie des réseaux. Et comme dans d’autres domaines de l’informatique, la vitesse est primordiale. Même de légères améliorations pourraient éventuellement conduire à des économies significatives de temps, de puissance de calcul et d’argent. Mais pour l’instant, les théoriciens s’intéressent surtout à la rapidité du processus.

La méthode traditionnelle de multiplication de deux matrices n par n – en multipliant les nombres de chaque ligne de la première matrice par les nombres des colonnes de la seconde – nécessite n³ multiplications distinctes. Pour des matrices 2 par 2, cela représente 2³ ou 8 multiplications. En 1969, le mathématicien Volker Strassen a révélé une procédure plus compliquée permettant de multiplier des matrices 2 par 2 en seulement sept étapes multiplicatives et 18 additions. Deux ans plus tard, l’informaticien Shmuel Winograd a démontré que sept est effectivement le minimum absolu pour les matrices 2 par 2. Strassen a exploité cette même idée pour montrer que toutes les grandes matrices n-par-n peuvent également être multipliées en moins de n³ étapes. Un élément clé de cette stratégie implique une procédure appelée décomposition, qui consiste à diviser une grande matrice en sous-matrices successivement plus petites, qui peuvent être aussi petites que 2 par 2 ou même 1 par 1.

Selon Virginia Vassilevska Williams, informaticienne au Massachusetts Institute of Technology et coauteur de l’un des nouveaux articles, la raison d’être de la division d’une matrice géante en minuscules morceaux est assez simple. « Il est difficile pour un humain de regarder une grande matrice (disons de l’ordre de 100 par 100) et de penser au meilleur algorithme possible », a déclaré Virginia Vassilevska Williams. « Même les matrices de 3 x 3 n’ont pas encore été entièrement résolues. Nanmoins, il est possible d’utiliser un algorithme rapide déjà développé pour les petites matrices afin d’obtenir un algorithme rapide pour les matrices plus grandes. La clé de la rapidité, ont déterminé les chercheurs, est de réduire le nombre d’étapes de multiplication, en abaissant l’exposant de n³ (pour la méthode standard) autant qu’ils le peuvent.

La technique laser pour la multiplication des matrices, introduite par Strassen en 1986, a été améliorée au fil des années par d’autres chercheurs, notamment Winograd et Coppersmith. Ces avancées ont permis de réduire le nombre de multiplications nécessaires pour multiplier deux matrices, rendant les calculs plus rapides et plus efficaces.

Pour conclure, les progrès dans le domaine de la multiplication matricielle ouvrent de nouvelles perspectives pour l’intelligence artificielle, avec des modèles plus performants et plus rapides. Ces avancées pourraient révolutionner de nombreux domaines de l’informatique et de la technologie, offrant des solutions plus efficaces et accessibles à un plus grand nombre.

Laisser un commentaire