• Outils
  • Actualités IA
  • Guides
  • GPTs
ai side logoai side logo
  • Outils
  • Actualités IA
  • Guides
  • GPTs
  1. Accueil
  2. /
  3. GPT4 et ses 1.8 billion de paramètres - Comment atteindre l’ultra pertinence ?

GPT4 et ses 1.8 billion de paramètres - Comment atteindre l’ultra pertinence ?

Emile Dev

Rédigé par Emile Dev

17 juillet 2023
Sommaire
  • Une IA plus puissante et mieux maîtrisée
  • Une architecture innovante
  • Un coût d'entraînement colossal
  • Un processus d'entraînement gourmand en ressources
  • Quand GPT-4 sera-t-il accessible en local ?
  • Une utilisation à coût modéré

La récente sortie de GPT-4 par OpenAI a causé un véritable séisme dans le monde de la tech. Ce nouveau modèle d'intelligence artificielle a de quoi faire frémir les experts. Le débat autour de son architecture a atteint un niveau de précision inégalé. Ses spécifications révolutionnaires ont été révélées par Dylan Patel, de Semianalysis, une figure reconnue du milieu tech. Il faut noter cependant que cet article se base sur des informations qui ont été temporairement disponibles sur Twitter avant d'être supprimées, ajoutant ainsi une aura de mystère à cette annonce.

Une IA plus puissante et mieux maîtrisée

GPT-4 possède une quantité impressionnante de 1.8 billion (soit 1000 milliards) de paramètres. C'est un bond colossal comparé à son prédécesseur GPT-3.5, 10 fois moins puissant. Mais la force de GPT-4 ne réside pas uniquement dans son nombre de paramètres, loin de là. En effet, les développeurs ont appris que la qualité des paramètres est bien plus importante que leur nombre. Ainsi, une IA possédant moins de paramètres, mais plus qualitatifs, peut s'avérer bien plus efficace.

decryptage gpt-4

Une architecture innovante

OpenAI a mis en place un système innovant pour GPT-4 : un groupe de 16 experts, chaque expert gérant 111 milliards de paramètres. De plus, ils ont développé un système de "router" permettant à l'IA de choisir l'expert à qui envoyer votre demande, voire même chaque token. Cette approche est un tournant significatif dans l'architecture des systèmes d'intelligence artificielle, permettant une gestion plus précise et plus ciblée des requêtes.

Un coût d'entraînement colossal

L'entraînement de GPT-4 a été une opération coûteuse : le coût total est estimé à 60 millions de dollars. Pour atteindre ce niveau de performance, GPT-4 a été entraîné sur 13 billions de tokens, une quantité astronomique de données. Mais cette approche, que l'on pourrait qualifier de "quantity over quality", démontre une fois de plus la valeur ajoutée de la qualité des données d'entraînement.

Un processus d'entraînement gourmand en ressources

Côté matériel, l'entraînement de GPT-4 a nécessité l'utilisation de 25 000 cartes graphiques, tournant non-stop pendant 90 jours. Ces cartes graphiques ont été utilisées à 35% de leur capacité maximale, afin d'éviter la perte de données. OpenAI's training FLOPS pour GPT-4 est estimé à environ 2.15e25. Pour donner une idée du coût de l'infrastructure, il est à noter que l'entraînement préliminaire aurait pu être effectué avec environ 8,192 H100 en environ 55 jours pour un coût de 21,5 millions de dollars à 2 dollars par heure de H100.

Quand GPT-4 sera-t-il accessible en local ?

La question que tout le monde se pose est de savoir quand un modèle aussi puissant que GPT-4 pourra être exécuté localement. Les experts s'accordent à dire que nous devrons attendre entre 2 et 5 ans. Personnellement, je penche vers une estimation de 3 à 4 ans.

Une utilisation à coût modéré

L'utilisation de GPT-4 par OpenAI coûte entre 0,0050et0,0020 et 0,0020et0,0020 pour 1k de tokens. Il est donc de plus en plus important de maîtriser l'art du prompting pour optimiser vos demandes et cibler efficacement le bon expert.

Je n'ai pas trouvé d'information sur la configuration minimale requise pour faire tourner ce modèle, mais cela doit pouvoir être déterminé à partir des spécifications actuelles de leur architecture. On peut cependant noter que l'on parle de GPU coûtant au minimum 10 000l′uniteˊ,voire40000 l'unité, voire 40 000l′uniteˊ,voire40000.

Pour plus de détails sur l'architecture de GPT-4, vous pouvez consulter cet article de Semianalysis.

En conclusion, GPT-4 représente une avancée majeure dans le domaine de l'intelligence artificielle. Son nombre impressionnant de paramètres, son architecture novatrice et son coût d'entraînement élevé témoignent de l'ampleur des enjeux liés à cette technologie. Il est clair que le monde de la tech a de quoi être excité.

Mes notes pour l’article :

  • Tweet de : https://twitter.com/Yampeleg
  • Tweet Supprimé en moins d’une heure
  • Informations qui provient d’une personne reconnu dans le milieu de la tech : Dylan of Semianalysis
    • https://twitter.com/dylan522p
  • GPT-4 aurait 1.8 billion de paramètres, 10x + que GPT3.5
    • Vous verrez trillon dans le thread, mais c’est billion nous, 1000 milliards
  • On sait maintenant que les paramètres sont loins d’être le facteur le plus important à prendre en compte, une IA avec moins de paramètre mais avec des paramètres + quali, c’est plus intéressant
  • Ils utilisent un système d’experts, 16 experts exactement pour 111 milliards de paramètres pour chacun
    • Ils ont également build un système de “router” qui permet à l’IA de choisir vers quel expert envoyer votre demande, voir directement chaque tokens
  • Le coût d’entrainement de GPT4 est estimé à 60m de $
    • Ils ont entrainé GPT4 sur 13 billions de tokens
    • Trained Tokens vs Final Parameters
  • Niveau GPU (carte graphique)
    • 25 000 cartes graphiques nécessaires pour la phase d’entrainement, elles ont tournées pendant 90 jours non-stop
    • 35% de leur puissance max, pour éviter la perte de données (+ on utilise de GPU ensemble sur une même tache, + il faut éviter de les pousser au maximum)
    • Ex : OpenAI’s training FLOPS for GPT-4 is ~2.15e25
    • Une stat super intéressante : (Today, the pre-training could be done with ~8,192 H100 in ~55 days for 21.5millionat21.5 million at 21.5millionat2 per H100 hour.)
  • Dans combien de temps pourras-t-on faire tourner un modèle aussi puissant en local ? Les experts pensent entre 2 et 5 ans. Et je pense aussi ~3-4
  • Niveau coût d’utilisation pour OpenAI : On est sur du ~0.0050aˋ0.0020 à 0.0020aˋ0.0020 pour 1k tokens
  • Manier le prompting est donc de + en + important, pour viser le bon expert au niveau de votre demande
    • Je n’ai pas trouvé d’infos sur le type de machine minimale nécessaire pour faire tourner ce modèle, mais ça doit se calculer si on a des infos de leurs archi actuelles globales
    • Mais on est sur des GPU à 10k$ unité minimum : https://www.nvidia.com/fr-fr/data-center/a100/
    • Voir 40k$ : https://www.nvidia.com/fr-fr/data-center/h100/
  • Plus de détails sur l’architecture : https://www.semianalysis.com/p/gpt-4-architecture-infrastructure
WormGPT - Le ChatGPT des Hackers menace le Web
IA
March 26, 2020

WormGPT - Le ChatGPT des Hackers menace le Web

MultiGPT et AutoGPT sur ChatGPT
IA
March 26, 2020

MultiGPT et AutoGPT sur ChatGPT

ai side logo

AI Side

  • À propos d'AI Side
  • Contactez-nous

Derniers GPTs ajoutés

Math Mentor

Cookie Clicker

CISO AI

Free YouTube Summarizer

WordPress Wizard

Derniers outils IA ajoutés

Kling AI

Dream Machine Luma AI

AnyCall AI

Lucide AI

Freepik Pikaso AI

© Copyright 2023, AI Side

  • Plan du site
  • A propos de nous
  • Mentions légales