Исследователи из МГУ и «Яндекса» создали первый открытый датасет и метод обучения нейросетей сложным правилам русского языка

❋ 3.2

Исследователи из Института искусственного интеллекта Московского государственного университета и «Яндекса» создали LORuGEC — первый открытый набор данных с примерами ошибок по сложным правилам русского языка. Они также разработали метод, помогающий обучить ИИ исправлять грамматические, пунктуационные и орфографические ошибки при генерации текстов. «Яндекс» рассказал о разработках на полях Конгресса молодых ученых.

Технологии

# искусственный интеллект

# лингвистика

# нейросети

# правила русского языка

# технологии

# языковые модели


Робот читает книгу / © Vasilyev Alexandr, Shutterstock

Большие языковые модели научились генерировать тексты на достаточно хорошем уровне, но они часто ошибаются в грамматике, пунктуации и орфографии русского языка. Это связано с тем, что в открытых наборах данных, на которых обучают нейросети, почти нет сложных правил.

Ссылка на основную публикацию