Que cache vraiment ce nouveau modèle ?
L’Allen Institute for AI (AI2) secoue le monde de l’intelligence artificielle avec Molmo, son Multimodal Open Language Model en libre accès. Face aux poids lourds propriétaires comme GPT-4, Claude 3.5 et Gemini 1.5, Molmo se distingue par ses capacités impressionnantes :
- Compréhension et annotation d’images
- Identification et signalement d’objets dans les visuels
- Analyse de données manuscrites
- Utilisation de photos comme contexte pour les requêtes
- Navigation sur le web grâce à la compréhension des interfaces
- Interaction potentielle avec des robots et des agents web
La gamme Molmo propose des versions allant de 72 milliards à seulement 1 milliard de paramètres, cette dernière étant assez légère pour fonctionner sur un smartphone tout en rivalisant avec GPT-4V sur certaines évaluations.
Alors que Molmo bouscule les codes de l’IA open source, une question cruciale se pose : l’ouverture et l’accessibilité de Molmo pourraient-elles redéfinir l’avenir de l’intelligence artificielle et démocratiser son utilisation à l’échelle mondiale ?
Lire l’article complet ici :
https://www.futura-sciences.com/tech/actualites/technologie-comprendre-monde-molmo-cache-vraiment-ce-nouveau-modele-116359/