Admin
Администратор
Новый независимый тест показал, что даже лучшие модели ИИ далеки от выполнения реальных профессиональных задач.
Бенчмарк Agents’ Last Exam (ALE) включает 1490 задач из 55 отраслей, проверяя способность ИИ выполнять многоэтапные работы.
Исследователи из Калифорнийского университета в Беркли совместно с 300 отраслевыми специалистами разработали бенчмарк ALE. Он проверяет ИИ на выполнение задач, характерных для реальной экономики, таких как создание 3D-моделей и анализ нейровизуализации. GPT-5.5 от OpenAI показал лучший результат — 24,0%, но большинство моделей на сложных заданиях набрали 0,0%. Бенчмарк защищён от утечки заданий в обучающие данные и позволяет сравнивать модели в равных условиях.