❋ 4.7
Команда исследователей из Т-Технологий и МФТИ предложила новый подход к «воспитанию» больших языковых моделей, позволяющий им становиться умнее и безопаснее, не страдая от «сверхоптимизации» — парадоксального эффекта, когда слишком усердное обучение приводит к деградации качества. Разработанное семейство алгоритмов, получившее название Trust Region (TR), динамически обновляет «точку отсчета» для модели, позволяя ей постоянно развиваться и выходить за рамки первоначальных знаний, сохраняя при этом стабильность и адекватность.

ФизТех
# глубокое обучение
# ИИ-технологии
# искусственный интеллект
# технологии
# языковые модели

Кадр из фильма «Она» / © Warner Bros
Создание современных языковых моделей, таких как Llama 3, — это многоступенчатый процесс, похожий на обучение и воспитание человека. Сначала модель проходит «школу», поглощая гигантские объемы текстов из интернета, чтобы выучить язык, факты и закономерности мира. Затем наступает этап «тонкой настройки» или «воспитания», когда модель учат быть не просто эрудированной, а полезной, честной и безвредной для человека. Для этого используют наборы данных, где люди-оценщики указывают, какой из двух ответов на один и тот же вопрос является лучшим. Современные методы, такие как Direct Preference Optimization, учат модель предпочитать «хорошие» ответы «плохим».