Google Gemini Ultra vs ChatGPT + GPT4 - Comparatif complet

Rédigé par Emile Dev

7 décembre 2023

Sommaire

Les annonces de Google
Gemini Ultra : Pourquoi parler de concurrent à GPT5 ?
Google Gemini Pro sur Bard, des premiers retours très intéressants
Les exemples multimodaux présents dans le Paper + une comparaison avec le ChatGPT qu’on a actuellement
Un accueil mitigé
Conclusion

Google a annoncé mercredi le déploiement de Gemini, son nouveau modèle d’intelligence artificielle (IA) générative, capable de comprendre et de réagir au monde qui l’entoure sans être sollicité. Ce modèle multimédia, qui combine la parole, la vision et le raisonnement, doit permettre à Google de concurrencer ChatGPT, l’IA d’OpenAI qui a révolutionné le secteur.

gemini vs gpt4

Thread de Google : https://twitter.com/Google/status/1732421837026369943
https://blog.google/technology/ai/google-gemini-ai/
https://deepmind.google/technologies/gemini/
Programme
- Les annonces
- Pourquoi parler de concurrent à GPT5 ?
- Les exemples multimodaux présents dans le Paper + une comparaison avec le ChatGPT qu’on a actuellement
- Google Gemini PRO sur Bard (en +)
- Review de l’accueil de la commu, qui est mitigé
- Conclusion

Les annonces de Google

https://twitter.com/8teAPi/status/1732501398326296652
https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
3 nouveaux modèles
- Gemini Ultra → Catégorie GPT4 (et supérieur d’après les tests)
  - Annoncé pour début d’année 2024
- Gemini Pro → Catégorie GPT3.5, optimisée en termes de coût / rapidité
  - Supérieur à GPT3.5 dans la quasi totalité des tests
  - Disponible dès aujourd’hui sur Bard (mais pas encore en Europe…)
- Gemini Nano → Très petit modèle, 1.8 & 3.25 milliards de params, destiné à être utilisé sur les appareils Google (Google Pixel par exemple), donc disponible sans connexion
Performances (Focus sur Gemini Ultra)
- Annoncé meilleur que GPT4 dans la résolution de problème (Maths, Taches multiples, codes, traductions, etc)
- Sur un visuel, on à un problème de méthodologie
  - L’image montre que GPT4 à été évalué via 5-shot & Gemini via COT@32, ce qui veut dire que : GPT-4 avait 5 essais pour obtenir la réponse, et devait le faire en une seule fois
  - Gemini avait 32 essais, et utilisait la pensée en chaîne (raisonnement intermédiaire) pour parvenir à la réponse
- Dans le paper, sur du COT@32, le résultat de GPT4 est sensiblement meilleur, mais toujours + faible que Gemini Ultra (87.29% vs 90.04%)
- Donc : Gemini Ultra v1 est annoncé meilleur que le GPT4 actuel, de peu, mais meilleur : Chaque % à ce niveau de performances est très complexe à atteindre
Annoncé comme “nativement mutlimodal”
- Un pique à OpenAI : Until now, the standard approach to creating multimodal models involved training separate components for different modalities and then stitching them together to roughly mimic some of this functionality → Jusqu'à présent, l'approche standard pour créer des modèles multimodaux consistait à entraîner des composants séparés pour différentes modalités, puis à les assembler pour imiter approximativement certaines de ces fonctionnalités
  - ChatGPT →← API de GPT-Vision par exemple
- Entrainé sur du code, des audios, des images et des vidéos
- Analyse d’images / vidéos → Annoncé meilleur que GPT4-V
- Une vidéo démo assez incroyable d’une application qui intègre Gemini Ultra est disponible, donc analyse + comparaison avec GPT4 : https://twitter.com/sundarpichai/status/1732433036929589301
  - 1:26 → Il montre un canard en plastique & demande à Gemini de lui expliquer comme le prononcer en Mandarin → Gemini génère un audio (Possible via l’app ChatGPT, mais pas optimisé pour)
  - 2:11 → Jeu qui vise à deviner un pays → Gemini génère 3 icones → Le testeur pose son doigt sur l’Australie → Gemini analyse et valide le résultat (Possible également via l’app ChatGPT, on est sur génération d’images + analyse d’image)
  - 2:32 → Deuxième jeu, Gemini doit deviner dans quel verre se trouve le papier (Démo la + impressionnante, c’est actuellement impossible via ChatGPT & GPT-Vision)
  - 3:54 → Génération d’une image à partir de 2 objets + prompts (Analyse d’image + prompt classique, très interessant, 100% possible via ChatGPT mais pas optimisé pour)
  - 4:22 → La démo la + incroyable d’après la commu X (ChatGPT n’y arrive pas d’après mes tests)
  - 4:37 → Comparaison de l’aérodynamique de 2 voitures (ChatGPT n’y arrive pas d’après mes tests)
  - 4:59 → Il analyse une guitare, génère un son, analyse ensuite l’ajout d’une partie “électrique” à la guitare & génère (?) un son différent (Impossible via ChatGPT)
  - Reste de la vidéo c’est focus analyse de vidéo, ce que ne propose pas ChatGPT
Conclusion multimodal : Les fonctionnalités annoncées sont très interessantes, mais attention par contre à la différence avec ce qu’on aura réellement & le prix → Le modèle doit être très gourmand en ressources

Gemini Ultra : Pourquoi parler de concurrent à GPT5 ?

Côté perf → Chaque % est extrêmement compliqué à atteindre, donc GPT5 sera égal ou très légèrement supérieur
OpenAI à confirmer le développement de GPT5, donc tentera de doubler Google Gemini Ultra
GPT5 devrait lui aussi intégrer une partie multimodale native (ou ils continueront avec la stratégie actuelle, qui peut être aussi intéressante)

Google Gemini Pro sur Bard, des premiers retours très intéressants

https://twitter.com/mvpatel2000/status/1732496433318592842?

Les exemples multimodaux présents dans le Paper + une comparaison avec le ChatGPT qu’on a actuellement

Les exemples sont présents dans le paper de Gemini - Que ce qu’un paper ? C’est le PDF de présentation du modèle
Pourquoi le ChatGPT “actuel” → Gemini Ultra et annoncé pour le début de l’année 2024, ChatGPT peut donc s’améliorer d’ici la

Compréhension de graphique + raisonnement
- https://twitter.com/8teAPi/status/1732501427975852496
- ChatGPT ✅
  - https://x.com/DimitrisPapail/status/1732529321946865881?s=20
Génération d’un article de blog, avec image + texte
- https://twitter.com/8teAPi/status/1732501434795769945/photo/1
- ChatGPT ✅
  - Possible de gen un article de blog avec images + textes, en 2 appels, mais possible
Test de QI
- https://twitter.com/8teAPi/status/1732501439552057501
- But de l'exercice : Deviner la prochaine forme
- ChatGPT ✅
  - https://x.com/DimitrisPapail/status/1732529299909939598?s=20
Geogessing (Deviner la localisation d’une photo) → Incroyable, mais..
- https://twitter.com/8teAPi/status/1732501444153250249
- Ils ont test avec une photo de New York, très simple donc
- ChatGPT ✅
  - https://x.com/DimitrisPapail/status/1732529306255896856?s=20
Devoir de géométrie
- https://twitter.com/8teAPi/status/1732501450511483337
- ChatGPT ✅
  - https://x.com/DimitrisPapail/status/1732529301952561323?s=20
Exercice de physique
- https://x.com/DimitrisPapail/status/1732529291169026189?s=20
- ChatGPT ✅
Analyse d’un arbre généalogique + déduction
- https://twitter.com/DimitrisPapail/status/1732529310580322718
- ChatGPT ✅
Raisonnement
- https://twitter.com/8teAPi/status/1732501458527076442
- ChatGPT ⚠️
  - https://x.com/DimitrisPapail/status/1732529317274382376?s=20
Graph 2 Code (Incroyable)
- On upload un graphique & Gemini est en mesure de créer une fonction pour reproduire ce graphique
- https://twitter.com/8teAPi/status/1732501421067780137
- ChatGPT ❌
  - https://twitter.com/DimitrisPapail/status/1732529319505785261
  - https://twitter.com/DimitrisPapail/status/1732529295015264522
Problème de maths + complexe
- https://x.com/DimitrisPapail/status/1732529314996818388?s=20
- ChatGPT ❌

Un accueil mitigé

Le visuel passe mal : https://twitter.com/NickADobos/status/1732507788331626794
La non disponibilité passe mal également : https://twitter.com/NickADobos/status/1732452827396796695
- Gemini Ultra doit être quasi ready, mais une boîte comme Google n’a pas le droit à l’erreur (la flexibilité d’une petite boîte est très interessante dans le push de nouveaux produits, ex Microsoft x OpenAI)
Accueil mitigée de la commu dev : https://twitter.com/levelsio/status/1732457830718783841
- Je vous en parle dans plusieurs vidéos, mais ce qui a fait le succès d’OpenAI ce n’est pas que les modèles très pertinents, mais c’est aussi la facilité avec laquelle on peut les utiliser les modèles d’OpenAI dans des scripts

Conclusion

Gemini Ultra est très légèrement meilleur que GPT4, mais disponible en début d’année prochaine & entrainé comme multimodal, les exemples sont impressionnants