Rédigé par Florian Chevallier
16 février 2024
Meta a publié le modèle V-JEPA, conçu pour comprendre des interactions détaillées dans les vidéos, marquant une avancée vers une intelligence artificielle plus humaine. Inspiré par la vision de Yann LeCun, V-JEPA prédit des parties manquantes de vidéos, se formant sur des données non étiquetées pour améliorer l'efficacité de l'apprentissage.
Ce modèle non génératif se concentre sur l'abstraction plutôt que sur la précision pixel par pixel, promettant des avancées significatives dans la compréhension vidéo et la planification à long terme.