назад
3 ноября

Сбер представил нейросеть, которая создает красивые картинки по описанию

Нейросетевой вычислительный проект ruDALL-E поможет как специалистам, так и обычным людям в создании стоковых картинок, векторных иллюстраций, рекламных материалов или вариантов дизайна интерьера.

Фото: rudalle.ru
Фото: rudalle.ru

Сбер представил ruDALL-E —  первую нейросеть, которая генерирует неограниченное число изображений по описанию на русском языке. Проверить возможности разработки может любой желающий на сайте проекта

ruDALL-E обучается сразу на двух видах данных — изображениях и текстах . Создание картинки происходит в три этапа: одна нейросеть берет текст на вход и генерирует необходимое число картинок, другая определяет, какие из них больше соответствуют запросу пользователя, а третья увеличивает картинки в размере. 

«Помимо вклада в прогресс в области ИИ, генерация изображений закрывает две важных потребности современного бизнеса — возможность получить уникальную картинку под собственное описание, а также в любой момент создавать необходимое количество licence-free-иллюстраций. При этом создание «мультимодальных» нейронных сетей, которые обучаются сразу на нескольких видах данных, даже сейчас, в эпоху big data и огромных возможностей поиска, будет очень востребованным, поскольку решает задачи на принципиально ином уровне. Технология пока совсем новая, первые шаги в этом направлении были сделаны только в 2020 году, а еще в 2018-2019 годах даже постановку такого рода задачи нельзя было себе представить. ruDALL-E можно считать настоящим прорывом для русскоязычной индустрии», — отметил Давид Рафаловский, исполнительный вице-президент Сбербанка и руководитель блока «Технологии».

Сейчас существует два варианта модели:

  • ruDALL-E XL, содержащая 1,3 миллиарда параметров;
  • ruDALL-E 12B с 12 миллиардами параметров.

Моделью ruDALL-E XL можно воспользоваться бесплатно, загрузив ее с сервиса Github.



  • #IT