Яндекс создал и опубликовал версию генеративной языковой модели YaLM со 100 миллиардами параметров. Это крупнейшая русскоязычная модель и самая большая из тех, чей код и веса публично доступны (они опубликованы на GitHub). Кроме русского языка она также получила поддержку английского.
В 2017 году исследователи из Google представили нейросетевую архитектуру Transformer, которая активно использует механизм внимания, позволяющий алгоритму фокусироваться на важных участках текста. Эта архитектура привела к бурному развитию моделей машинного обучения для обработки естественного языка (NLP). Важнейшим представителем этого направления стали нейросети семейства GPT от OpenAI. Их разработчики показали несколько важных аспектов работы Transformer-моделей. Во-первых, оказалось, что предобучение на большом корпусе неразмеченных текстов позволяет создать универсальную языковую модель, которая может адаптироваться к новой задаче по нескольким примерам. Во-вторых, выяснилось, что масштабирование модели позволяет значительно повысить качество ее работы. В результате многие передовые модели стали иметь сотни миллиардов или даже триллионы параметров.
Для обучения таких гигантстких моделей необходимы соответствующие вычислительные мощности. К примеру, в статье OpenAI о GPT-3 отмечается, что для самой крупной модели с 175 миллиардами параметров понадобилось 3,14 × 1023 флопс, а сторонние исследователи оценили затраты на это в 4,6 миллиона долларов. При этом из-за высокого качества генерации передовые NLP-алгоритмы, как правило, не выкладываются в открытый доступ из-за опасений, что их можно будет применять во вред, к примеру, для создания реалистичных ботов в соцсетях. Таким образом сложилась ситуация, при которой фактически доступ к таким технологиям сосредоточен в руках крупнейших IT-компаний с огромными датацентрами, тогда как исследователи и не такие большие компании его лишены. Она осложняется в неанглоязычных странах и сообществах, потому что передовые алгоритмы, как правило, обучаются на английском языке.
До недавнего времени крупнейшей публично доступной русскоязычной языковой моделью была ruGPT3XL от Сбера с 1,3 миллиардами параметров. Теперь Яндекс представил и выложил в открытый доступ версию языковой модели YaLM со 100 миллиардами параметров. Она использует ту же архитектуру, что и оригинальная YaLM, представленная в прошлом году, а та в свою очередь была вдохновлена GPT-3.
Модель обучали на 1,7 терабайта текстов на русском и английском языках, поэтому теперь она умеет говорить как по-русски, так и по-английски. Обучение проходило на суперкомпьютерах Яндекса, для этого использовалось 800 графических ускорителей NVIDIA A100, а весь процесс занял два месяца. Подробнее о процессе обучения можно прочитать в блоге Яндекса.
Код и предобученную модель можно скачать на GitHub, они распространяются по лицензии Apache 2.0, разрешающей в том числе и коммерческое использования. Сама компания использует YaLM в своих проектах, в том числе Алисе и поиске, где она помогает формировать готовые ответы и карточки с описанием.
Вероятно, YaLM можно назвать крупнейшей из публично доступных генеративных языковых моделей. В мае Meta выложила GPT-подобную модель OPT, для нее доступны предобученные версии вплоть до 66 миллиардов параметров, а версия на 175 миллиардов предоставляется лишь некоторым исследователям по запросу.
Источник: N+1