Новый подход к обучению языковых моделей снизил затраты памяти без потери качества

❋ 4.8

Исследователи из МФТИ и «Яндекса» с коллегами из ОАЭ предложили новый подход к обучению больших языковых моделей, который существенно снижает потребление памяти GPU без потери качества. Метод уже показал превосходство над аналогами на популярных задачах машинного обучения.


ФизТех

# большие языковые модели

# искусственный интеллект

# нейросети

# память

# технологии


Робот читает книгу / © ИИ-генерация, freepik

Новый фреймворк FRUGAL разработан для обучения больших языковых моделей. Метод позволяет значительно сократить объем памяти, необходимый для хранения исторических статистик оптимизатора, при этом сохраняя качество обучения. Результаты исследования опубликованы на ICML 2025 — одной из ведущих конференций в области машинного обучения. Текст статьи можно посмотреть также на arXiv.

Ссылка на основную публикацию