Rédigé par Florian Chevallier
16 février 2024
Gemini 1.5 est le fruit d'innovations de recherche et d'ingénierie, améliorant de manière significative les performances par rapport à ses prédécesseurs. Il utilise une architecture MoE, où le modèle est divisé en plusieurs "experts" neuronaux plus petits, chacun spécialisé dans un type d'entrée particulier. Cette spécialisation rend le modèle incroyablement efficace, permettant à Google de continuer à itérer et à livrer des versions plus avancées de Gemini à une vitesse sans précédent.
L'une des caractéristiques les plus révolutionnaires de Gemini 1.5 est sa capacité à comprendre et à traiter jusqu'à 1 million de jetons, ce qui représente la plus longue fenêtre de contexte parmi tous les modèles de fondation à grande échelle existants. Cette capacité étendue à traiter de grandes quantités d'informations ouvre de nouvelles possibilités pour le développement d'applications et de modèles plus utiles, en permettant par exemple d'analyser une heure de vidéo, 11 heures d'audio, des bases de code de plus de 30 000 lignes, ou plus de 700 000 mots en une seule fois.
En termes de performances, Gemini 1.5 Pro, la première version du modèle pour les tests préliminaires, montre des résultats impressionnants. Il surpasse le modèle Gemini 1.0 Pro dans 87 % des benchmarks utilisés pour le développement de grands modèles de langage (LLM) et atteint une qualité comparable à celle de Gemini 1.0 Ultra, tout en utilisant moins de ressources de calcul. La capacité de Gemini 1.5 à apprendre de nouvelles compétences à partir d'informations fournies dans une longue invite, sans nécessiter de réglage fin supplémentaire, démontre également une avancée significative dans le domaine de l'apprentissage en contexte.