Contrairement à GPT-4, qui se limite à prédire le mot suivant dans une séquence, Q* introduit un principe d'apprentissage par renforcement, axé sur le processus en amont de la génération. Le concept clé est le "Tree of Thought" (Arbre de pensée), où Q* analyse un problème avec GPT-4, explore diverses possibilités, et les valide en continuant jusqu'à trouver la solution optimale.
Cette approche ressemble à celle d'AutoGPT ou d'AgentGPT, mais va plus loin en enregistrant chaque succès pour améliorer ses performances futures.
Q* met en œuvre un système de récompense pour encourager la prise de risque, similaire à celui utilisé par des ingénieurs de Google pour développer des IA capables d'inventer des stratégies inédites dans des jeux comme le Go. De plus, Q* dispose d'un système d'état permettant de remonter à la dernière réussite en cas d'échec, renforçant ainsi son processus d'apprentissage.
Temporisation : un appel à la prudence
Yann Le Cun, figure éminente dans le domaine de l'IA, invite à la prudence face à ces avancées. La technologie sous-jacente à Q* n'est pas entièrement nouvelle, et le coût de fonctionnement de telles IA pourrait être prohibitif en raison du nombre important d'appels nécessaires à leur fonctionnement. Les travaux d'OpenAI, comme le document de recherche de 2020 et l'amélioration du raisonnement mathématique en 2023, montrent cependant que l'entreprise continue d'innover dans le domaine.
Conclusion
Q* représente une avancée notable dans le développement de l'IA, offrant des capacités de raisonnement et d'apprentissage améliorées. Toutefois, ce n'est pas une super-IA autonome comme certains le craignent. Il demeure un outil supervisé, limité par les capacités de son moteur, en l'occurrence GPT-4. Alors que la course vers une intelligence artificielle générale (AGI) se poursuit, il est essentiel de rester vigilant quant aux implications et aux limites de ces technologies.
- Un jour avant de se faire virer : S'agit-il d'un outil que nous avons construit ou d'une créature que nous avons construite ?
- Q* signerait l’arrivée du principe d’Apprentissage par renforcement, en se concentrant d’avantage sur le process qui se passe en amont de la génération
- GPT4 se limite à “deviner” le prochain mot, si on lui pose donc un problème trop complexe, c’est impossible pour lui de prendre assez d’hauteur pour trouver la solution au problème
- Q* propose une solution à ce problème, en introduisant le système de ToT, Tree of throught = Arbre de pensée
- Ce que va faire très basiquement ce concept : Q* prend votre problème → L’analyse avec GPT4 → Explore 3 possibilités, puis valide avec GPT4 les 3 résultats, puis continue jusqu’à trouver LE résultat
- Schema qui montre très bien le process
- GPT4 créer → Q* joue le rôle de “cerveau” → Et un GPT en sortie vérifie
- C’est un peu la même idée d’AutoGPT / AgentGPT, mais ça va bien + loins
- GPT qui utilise l’approche XoT : https://chat.openai.com/share/4aceadd2-9f0b-4365-9175-edb7dec0d698
- Si on s’arrête la, ce système est développable en quelques jours, mais Q* va + loins, en proposant qu’a chaque réussite, qu’a chaque validation, il enregistre ce chemin, pour s’auto améliorer
- Et c’est à partir de ce moment la qu’on rentre dans l’inconnu : Q* serait en mesure de créer des chemins de raisonnements absolument inconnu pour nous
- Q* implémente un système de récompense, qui permet de forcer le modèle à prendre des risques, c’est d’ailleurs via ce système que des ingé de chez Google ont réussie à créer une IA qui invente des stratégies aux jeux de go, qu’aucun humain n’a inventé
- Je vous recommande d’ailleurs de regarder des documentaires sur le sujet, c’est très interessant
- Q* implémenterait aussi un système de state, qui permettrait en cas d’échec (au 5 ème niveau du tree par ex) de remonter à la dernière réussite
- Conclusion : Q* est un modèle de supervision, il n’a pas pour but de générer quoi que ce soit, c’est un chef d’orchestre limiter par son moteur (GPT4 en l’occurence)
Temporisation
- Yann Le Cun nous invite à temporiser
Ce type d’IA existe depuis des années
Et le prix pour faire tourner cette IA sera.. très très élevé (les appels sont nombreux)
Ce ne sont encore une fois que des rumeurs
Et pour revenir à la déclaration de Sam : Il adore jouer se role de “j’ai très peur.. mais en même temps je suis celui qui build”
2020 → OpenAI travaille sur le projet : https://arxiv.org/pdf/2009.03393.pdf
Notes
- La course à l’AGI continue donc, et OpenAI semble être en bonne position pour remporter cette course
- Selon Reuters, le licenciement de Sam Altman par OpenAI serait dû au développement d’un nouveau modèle de langage nommé Q*, capable d’une logique proche de celle d’un être humain. Une théorie poussée par Elon Musk et son entourage, qui tentent de nuire à OpenAI… Mais « Q Star » ne serait pas la super-IA démoniaque dont certains parlent. (Numerama)
- L’Algo Q* est une réf à l’algo bien connu : A* est un algorithme de recherche de chemin (exactement comme Q*, au final)
- Grok propose déjà une approche similaire, mais 100% humaine via leur dashboard
- Pertinence inégalée & comme pour le jeu de go, on aurait des raisonnements jamais imaginé par un humain, des idées neuves
- Un pas de + vers une AGI ? Oui & non
- Non → Si le modèle demande 10 à 100x + de ressources pour être entrainé que GPT4, personne n’investira avant plusieurs années
- Oui → Si on résout (ou que l’IA résout) le problème du coût via de l’opti, et qu’on branche un GPT5, on sera à la frontière
Sources + détaillées