Rédigé par Emile Dev
17 juillet 2023
La récente sortie de GPT-4 par OpenAI a causé un véritable séisme dans le monde de la tech. Ce nouveau modèle d'intelligence artificielle a de quoi faire frémir les experts. Le débat autour de son architecture a atteint un niveau de précision inégalé. Ses spécifications révolutionnaires ont été révélées par Dylan Patel, de Semianalysis, une figure reconnue du milieu tech. Il faut noter cependant que cet article se base sur des informations qui ont été temporairement disponibles sur Twitter avant d'être supprimées, ajoutant ainsi une aura de mystère à cette annonce.
GPT-4 possède une quantité impressionnante de 1.8 billion (soit 1000 milliards) de paramètres. C'est un bond colossal comparé à son prédécesseur GPT-3.5, 10 fois moins puissant. Mais la force de GPT-4 ne réside pas uniquement dans son nombre de paramètres, loin de là. En effet, les développeurs ont appris que la qualité des paramètres est bien plus importante que leur nombre. Ainsi, une IA possédant moins de paramètres, mais plus qualitatifs, peut s'avérer bien plus efficace.
OpenAI a mis en place un système innovant pour GPT-4 : un groupe de 16 experts, chaque expert gérant 111 milliards de paramètres. De plus, ils ont développé un système de "router" permettant à l'IA de choisir l'expert à qui envoyer votre demande, voire même chaque token. Cette approche est un tournant significatif dans l'architecture des systèmes d'intelligence artificielle, permettant une gestion plus précise et plus ciblée des requêtes.
L'entraînement de GPT-4 a été une opération coûteuse : le coût total est estimé à 60 millions de dollars. Pour atteindre ce niveau de performance, GPT-4 a été entraîné sur 13 billions de tokens, une quantité astronomique de données. Mais cette approche, que l'on pourrait qualifier de "quantity over quality", démontre une fois de plus la valeur ajoutée de la qualité des données d'entraînement.
Côté matériel, l'entraînement de GPT-4 a nécessité l'utilisation de 25 000 cartes graphiques, tournant non-stop pendant 90 jours. Ces cartes graphiques ont été utilisées à 35% de leur capacité maximale, afin d'éviter la perte de données. OpenAI's training FLOPS pour GPT-4 est estimé à environ 2.15e25. Pour donner une idée du coût de l'infrastructure, il est à noter que l'entraînement préliminaire aurait pu être effectué avec environ 8,192 H100 en environ 55 jours pour un coût de 21,5 millions de dollars à 2 dollars par heure de H100.
La question que tout le monde se pose est de savoir quand un modèle aussi puissant que GPT-4 pourra être exécuté localement. Les experts s'accordent à dire que nous devrons attendre entre 2 et 5 ans. Personnellement, je penche vers une estimation de 3 à 4 ans.
L'utilisation de GPT-4 par OpenAI coûte entre 0,0050 pour 1k de tokens. Il est donc de plus en plus important de maîtriser l'art du prompting pour optimiser vos demandes et cibler efficacement le bon expert.
Je n'ai pas trouvé d'information sur la configuration minimale requise pour faire tourner ce modèle, mais cela doit pouvoir être déterminé à partir des spécifications actuelles de leur architecture. On peut cependant noter que l'on parle de GPU coûtant au minimum 10 000.
Pour plus de détails sur l'architecture de GPT-4, vous pouvez consulter cet article de Semianalysis.
En conclusion, GPT-4 représente une avancée majeure dans le domaine de l'intelligence artificielle. Son nombre impressionnant de paramètres, son architecture novatrice et son coût d'entraînement élevé témoignent de l'ampleur des enjeux liés à cette technologie. Il est clair que le monde de la tech a de quoi être excité.
Mes notes pour l’article :