У вихідні компанія Meta представила дві нові моделі штучного інтелекту під назвами Llama 4 – Scout та Maverick. Meta стверджує, що Maverick перевершує конкурентів у популярних тестах, таких як GPT-4o та Gemini 2.0 Flash. Проте виявилося, що статистика, надана Meta, може бути обманливою, як повідомляє The Verge.
У пресрелізі Meta підкреслила високі показники моделі Maverick у рейтингу LMArena, де користувачі порівнюють різні моделі штучного інтелекту. Проте виявилося, що тестувалася не публічна версія моделі, а експериментальний варіант, оптимізований для чату. Meta не вказала на це спочатку, але пізніше підтвердила використання спеціальної версії для тестування.
Керівництво LMArena звинуватило Meta у невідповідності їхнім очікуванням від постачальників штучного інтелекту та почало оновлювати правила, щоб уникнути подібних ситуацій у майбутньому. Компанія вважає, що коли постачальники надають спеціальні версії для тестування, а потім випускають інші для громадськості, рейтинги, як LMArena, стають менш вагомими як індикатори реальної продуктивності.
Нові моделі штучного інтелекту від Meta опинились в центрі скандалу
