Rédigé par Emile Dev
3 août 2023
Depuis plus de six mois, une vaste collecte d'informations autour de GPT5 a été entreprise, attisant la curiosité du monde de l'intelligence artificielle. Le nom GPT5 a récemment été déposé par OpenAI, suscitant de nombreuses spéculations. À travers cet article, nous allons déconstruire ces rumeurs, analyser les prédictions et discuter des défis futurs que devra relever OpenAI.
L'apparition de GPT4 a impressionné la communauté par son "intelligence". Bien qu'il ne soit qu'un modèle de langage génératif limité à prédire le prochain mot, ses performances ont démontré des capacités qui ressemblent à celles d'une Intelligence Artificielle Générale (AGI). Une AGI complète pourrait accomplir toutes les tâches qu'un humain peut faire, comprendre le langage naturel, prendre des décisions complexes, apprendre de nouvelles compétences et bien plus encore. Bien que ce concept reste encore lointain, GPT4 coche plusieurs cases d'une petite AGI.
Un autre concept intéressant est celui de l'IA multimodale, une promesse non encore totalement concrétisée par OpenAI. L'IA multimodale peut analyser des données autres que le texte et générer des sorties autres que le texte. Aujourd'hui, il existe des IAs partiellement multimodales comme Bard et BingAI qui peuvent analyser des images. Des avancées ont également été faites dans le domaine des modèles de langage de grande taille (Large Language Models - LLM), qui apprennent à partir des données textuelles qu'ils reçoivent.
La progression logique voudrait que GPT5, suivant le même rythme que son prédécesseur, possède 10 fois plus de paramètres que GPT4. Cependant, le nombre de paramètres n'est pas directement corrélé à la pertinence. Selon certaines sources, OpenAI aurait récemment commandé 25 000 GPU, ce qui pourrait indiquer une préparation pour entraîner GPT5.
En ce qui concerne les améliorations, on s'attend à une capacité multimodale très avancée, une gestion améliorée de la mémoire à long terme, l'intégration d'une reconnaissance vocale via Whisper, une plus grande véracité des informations et une prise de conscience plus précise du temps.
D'après Siqi Chen, un entrepreneur de la Silicon Valley très proche de l'équipe d'OpenAI, la date de sortie de GPT5 est prévue pour la mi-2024. Pour le moment, l'entraînement de GPT5 n'est pas encore en cours. Notons que l'entraînement de GPT4 avait nécessité 25 000 GPU et pris 90 jours, suivis de six mois de tests et d'améliorations avant sa publication.
OpenAI devra surmonter plusieurs défis pour se rapprocher d'une mini AGI avec GPT5. Le principal est celui de l'entraînement : la quantité de données textuelles accessibles sur le web devient insuffisante, et le recours à des plateformes comme YouTube s'impose, ce qui soulève des problèmes techniques. De plus, la véracité de l'information représente un défi majeur, tout comme le problème d'alignement, qui consiste à s'assurer que l'énorme quantité de données gérées par GPT5 respecte nos règles humaines. Enfin, la mémoire à long terme et la sensibilité du prompt constituent d'autres obstacles à surmonter.
L'avènement de GPT5 ou d'une AGI pourrait avoir des conséquences importantes sur notre monde. Du côté des opportunités, on peut évoquer une productivité accrue, une amélioration de la prise de décision, un accès plus large à l'éducation et un soutien à la recherche. Cependant, l'automatisation pourrait menacer de nombreux emplois. De plus, des inégalités pourraient se creuser dans l'accès à l'IA, et la sécurité (Fake news, Manipulation, etc.) pourrait être compromise.
Au fur et à mesure que nous progressons vers des modèles de plus en plus performants, nous sommes également confrontés à des problèmes de plus en plus complexes. L'un des défis majeurs auxquels OpenAI est confronté concerne la disponibilité des données de formation. Avec le web saturé de données textuelles ouvertes, la tâche suivante serait de scrapper des plateformes comme YouTube, une tâche techniquement complexe.
La véracité de l'information représente un autre problème. GPT4, comme les autres modèles de langage de grande taille, est orienté vers les probabilités, et non vers les vérités. Il est capable de fournir une réponse erronée avec une assurance trompeuse. C'est une difficulté que GPT5 devra certainement surmonter.
En outre, il y a le défi de l'alignement. Comment pouvons-nous être sûrs que cet immense volume de données géré par GPT5 sera aligné avec nos normes et valeurs humaines ?
La mémoire à long terme est un autre domaine où GPT4 et les modèles similaires montrent des limites. Il est impossible d'enseigner à GPT4 de nouvelles informations sans qu'il n'en efface d'autres lorsqu'il a accumulé trop de données.
Enfin, il y a la sensibilité du prompt. Modifier un seul mot peut changer l'intégralité de la réponse, ce qui ajoute une couche supplémentaire de complexité à la maîtrise de ces outils.
Comme toute technologie disruptive, GPT5 et l'éventuelle réalisation d'une AGI complète auront un impact majeur sur notre société. Du côté positif, ces outils peuvent augmenter considérablement la productivité, améliorer la prise de décision, démocratiser l'accès à l'éducation et accélérer la recherche.
Cependant, il faut également être conscient des conséquences négatives potentielles. L'automatisation de nombreux emplois pourrait avoir un impact dévastateur sur certaines industries et certains travailleurs. Par ailleurs, la crainte que les avantages de l'IA ne soient pas également répartis, accentuant ainsi les inégalités sociales, est une réalité à ne pas négliger.
En outre, des questions de sécurité se posent, comme le risque accru de fausses nouvelles et de manipulation. Pourtant, ces problèmes ne sont pas insurmontables. Ils demandent une attention particulière, des réglementations adéquates et une prise de conscience de l'importance de l'éthique dans le domaine de l'IA.
En conclusion, le développement de GPT5 par OpenAI s'annonce comme une étape importante vers la réalisation d'une AGI complète. Malgré les nombreux défis techniques et éthiques à surmonter, les potentialités d'un tel système sont immenses et pourraient redéfinir notre interaction avec la technologie. Alors que nous nous dirigeons vers cette nouvelle ère, il est essentiel de continuer à questionner et à débattre des implications de ces avancées afin de garantir que l'IA nous aide à créer un avenir meilleur pour tous.
L'arrivée potentielle de GPT5 et le cheminement vers l'AGI soulèvent de nombreuses interrogations. Alors que les prédictions se multiplient, les défis techniques et éthiques augmentent également. Il est important de continuer à suivre ces évolutions, à questionner les opportunités et les risques, et à veiller à ce que les développements futurs de l'IA soient réalisés de manière responsable et équitable. En définitive, le futur de l'IA est entre nos mains.
Une IA multimodal est capable de se baser sur des entrées autres que du texte, de l’analyser et de renvoyer d’autres sorties que du simple texte
Aujourd’hui, on a des IA multimodal partielle, par exemple Bard est capable d’analyser une image, BingAI est également capable.
Depuis peu Code Interpreter permet d’interagir avec ces 3 types d’entrées, on avance donc encore sur les IA Multimodal
Travaux de Meta à ce sujet : https://ai.meta.com/blog/imagebind-six-modalities-binding-ai/https://ai.meta.com/blog/imagebind-six-modalities-binding-ai/
Si on suit la logique, GPT4 ayant 10x + de params que GPT3.5 (voir ma vidéo sur le fonctionnement de GPT4) GPT5 devrait avoir 10x + de params
Un multimodal très poussé, voir 100% ok : Selon moi, ils incluront des plugins codés sur les 4 + 1 types d’entrées (Images, Son, Vidéos, Texte et pourquoi pas stats), pour avoir un maximum de stabilité. J’ai du mal à voir un Code Interpreter amélioré pour gérer l’aspect multimodal !
64, 128 ou 256k de tokens : Comme Claude100k, mais avec la pertinence de GPT5
Fin du système de LLM : Vers un nouveau type de modèle ?
Un changement d’algo pour favoriser la mémoire à longterme
Intégration d’une reconnaissance vocale via Whisper, une librairie OpenSource d’OpenAI
Une véracité accrue, ou au moins une précision plus claire quand l’IA invente.
La prise de conscience du temps, comme Llama 2, on devrait pouvoir fixer la date limite sur laquelle peut se baser GPT5
Une petite AGI complète ?