Mistral, une startup à la pointe d’intelligence artificielle (IA), a récemment annoncé le lancement d’un nouveau modèle : Mixtral-8x7b-32k. Ce modèle marque une étape importante pour l’équipe de Mistral : Une nouvelle architecture, SMoE (Sparse Mixture of Experts)
Le Mixtral-8x7b-32k s'appuie sur une itération avancée de l'approche MoE (Mélange d'experts), incorporant 8 experts de 7 milliards de paramètres chacun. Le fonctionnement est relativement simple et efficace : une requête est envoyée, un router (réseau de gating) sélectionne deux experts les plus aptes à répondre, et leurs réponses sont ensuite comparées et combinées pour fournir la meilleure solution possible. Un élément notable de Mixtral est sa capacité à travailler avec chaque token, soit chaque mot ou segment de phrase, offrant ainsi une précision remarquable dans le traitement des requêtes.
Notes à propos de Mixtral-8x7b-32k
- Mistral annonce un nouveau modèle : Mixtral-8x7b-32k
- https://twitter.com/MistralAI/status/1733150512395038967
- Mistral est une boîte FR
- Mixtral-8x7b-32k est un modèle SMoE, une itération de l'approche MoE, Mélange d'experts, 8 experts de 7b
- Vous envoyez votre demande → Un router (gating network) sélectionne 2 experts à qui transférer votre demande → La réponse est comparé & combiné pour récup le meilleur des 2 réponses → Vous recevez une réponse
- À noter : Mixtral ne va pas en réalité travailler avec l’ensemble de la réponse ou l’ensemble de votre demande, mais va travailler avec chaque token, donc chaque mot, chaque segment de phrase, ou chaque segment de mot
- https://twitter.com/GuillaumeLample/status/1734216541099507929
- C’est le même schema que GPT4, sauf que GPT4 c’est ~10 à 20 experts de 170b
- Avantages :
- Cette approche permet d’avoir des experts spécialisés dans plusieurs domaines : Résolution de taches, mathématiques, codes, etc.
- Réduction des coûts : L’ensemble des experts ne sont pas activé en même temps
- Fine-tuning
- Performances & benchmarks
- Annoncé supérieur à GPT3.5 (ChatGPT de base)
- Opensource
- Mixtral à 32k de contexte
- Anglais, français, italien, allemand et espagnol
- Comment tester Mixtral-8x7b-32k ?
- D’après son CTO, Mistral souhaite égaliser les modèles d’OpenAI actuels
- Mistral annonce une levée de fonds de 400m auprès d’investisseurs US
- Sources