Mistral lance Mixtral-8x7b-32k - Analyse détaillée et où l’utiliser

Rédigé par Emile Dev

11 décembre 2023

Sommaire

Comment fonctionne le modèle Mixtral-8x7b-32k ?
Comment et où utiliser Mixtral-8x7b-32k ?
Notes à propos de Mixtral-8x7b-32k

Mixtral-8x7b-32k mistral cover

Mistral, une startup à la pointe d’intelligence artificielle (IA), a récemment annoncé le lancement d’un nouveau modèle : Mixtral-8x7b-32k. Ce modèle marque une étape importante pour l’équipe de Mistral : Une nouvelle architecture, SMoE (Sparse Mixture of Experts)

Comment fonctionne le modèle Mixtral-8x7b-32k ?

Le Mixtral-8x7b-32k s'appuie sur une itération avancée de l'approche MoE (Mélange d'experts), incorporant 8 experts de 7 milliards de paramètres chacun. Le fonctionnement est relativement simple et efficace : une requête est envoyée, un router (réseau de gating) sélectionne deux experts les plus aptes à répondre, et leurs réponses sont ensuite comparées et combinées pour fournir la meilleure solution possible. Un élément notable de Mixtral est sa capacité à travailler avec chaque token, soit chaque mot ou segment de phrase, offrant ainsi une précision remarquable dans le traitement des requêtes.

Comment et où utiliser Mixtral-8x7b-32k ?

Tester : https://sdk.vercel.ai/
https://labs.perplexity.ai
Via la future console Mistral : https://console.mistral.ai (une API arrive)
Via Together AI (nouveau)

Notes à propos de Mixtral-8x7b-32k

Mistral annonce un nouveau modèle : Mixtral-8x7b-32k
- https://twitter.com/MistralAI/status/1733150512395038967
- Mistral est une boîte FR
- Mixtral-8x7b-32k est un modèle SMoE, une itération de l'approche MoE, Mélange d'experts, 8 experts de 7b
  - Vous envoyez votre demande → Un router (gating network) sélectionne 2 experts à qui transférer votre demande → La réponse est comparé & combiné pour récup le meilleur des 2 réponses → Vous recevez une réponse
  - À noter : Mixtral ne va pas en réalité travailler avec l’ensemble de la réponse ou l’ensemble de votre demande, mais va travailler avec chaque token, donc chaque mot, chaque segment de phrase, ou chaque segment de mot
  - https://twitter.com/GuillaumeLample/status/1734216541099507929
- C’est le même schema que GPT4, sauf que GPT4 c’est ~10 à 20 experts de 170b
- Avantages :
  - Cette approche permet d’avoir des experts spécialisés dans plusieurs domaines : Résolution de taches, mathématiques, codes, etc.
  - Réduction des coûts : L’ensemble des experts ne sont pas activé en même temps
  - Fine-tuning
- Performances & benchmarks
  - Annoncé supérieur à GPT3.5 (ChatGPT de base)
- Opensource
- Mixtral à 32k de contexte
- Anglais, français, italien, allemand et espagnol
- Comment tester Mixtral-8x7b-32k ?
  - Tester : https://sdk.vercel.ai/
  - https://labs.perplexity.ai
  - Via la future console Mistral : https://console.mistral.ai (une API arrive)
- D’après son CTO, Mistral souhaite égaliser les modèles d’OpenAI actuels
  - https://www.blogdumoderateur.com/mistral-ai-interview-cto-timothee-lacroix/
  - L’objectif pour Mistral AI est de « développer des modèles utiles, donc faire beaucoup d’open source pour que la communauté puisse trouver les usages derrière », nous explique Timothée Lacroix
- Mistral annonce une levée de fonds de 400m auprès d’investisseurs US
  - https://www.lesechos.fr/start-up/deals/intelligence-artificielle-mistral-ai-devient-la-nouvelle-licorne-de-la-french-tech-2040482
- Sources