Admin
Администратор
Исследователи из Массачусетского технологического института и их коллеги разработали метод, который позволяет эффективно использовать простаивающие ресурсы видеокарт при обучении больших языковых моделей. Новый подход ускоряет процесс обучения в три раза без потери точности.
Основная проблема заключается в том, что при обучении с подкреплением до 85% времени тратится на генерацию множества вариантов ответа, в то время как часть ускорителей простаивает. Новый метод, названный Taming the Long Tail (TLT), использует эти простаивающие ресурсы для дообучения малой модели, которая помогает ускорить процесс.
Система TLT состоит из двух компонентов: адаптивного обучения малой модели на лету и адаптивного механизма прогонов генерации. Малая модель быстро предлагает продолжения ответа, а большая проверяет их. Это позволяет сократить время обучения и повысить эффективность использования ресурсов. Метод уже протестирован на нескольких моделях рассуждения, показав ускорение от 70% до 210%. В будущем исследователи планируют внедрить этот подход в другие схемы обучения и поискать новые задачи, где он может быть полезен.