Создание изображений в stable diffusion forge

02.10.2024 Oleg M. Статьи

В этом уроке мы потренируемся создавать запросы к нейросети stable diffusion для создания изображений в различных стилях. Узнаем, как увеличить изображение при необходимости

Как создать изображения в stable diffusion

В прошлом уроке мы установили сборку stable diffusion forge, а теперь пришло время создать пару-тройку изображений с помощью SD.

Для удобства создайте ярлык для файла run.bat, отправив его на рабочий стол. Запустите нейросеть двойным кликом по ярлыку и немного подождите. Спустя некоторое время откроется окно браузера с интерфейсом SD.

Где искать модели

Прежде чем создать изображение в stable diffusion forge, совсем немного важных моментов. Сама нейросеть SD без моделей (chekpoint) ничего не умеет. Модели для SD создаются на основе изображений различных объектов. Моделей существует очень много и нужно знать где их найти, какие нам подходят и как скачать. Один из удобных ресурсов для этого civitai.com Перейдите по указанному адресу

Нас пока интересует раздел модели- Models. Перейдите в него и справа на страничке настройте фильтр содержимого по рисунку ниже.

Мы начнем создание изображений на основе базовой модели sd 1.5. Это модель обучена на небольших изображениях 512х512 рх, изображений было порядка 90 млн штук. Модель sd 1.5 сама по себе умеет как бы всё, но так себе. Поэтому мы подберём модели, обученные на основе sd1.5, которые что-то умеют качественно делать. Если вы применили фильтр, то видно, что по загрузкам лидирует модель realistic vision.

Нажимаем на изображение модели и вверху смотрим по тегам: base model (базовая модель), photorealistic, anatomical, cgi, realistic, semi-realistic. Необязательно знать английский, чтобы понять что умеет эта модель.

Можно полистать галерею и посмотреть примеры изображений. Там же, справа и внизу, можно увидеть сам запрос к нейросети по которому создавалось изображение и настройки генерации.

В правой части находим кнопку загрузки и скачиваем модель, она имеет объем 1,99 Gb. Эту модель необходимо поместить в папку models. Путь выглядит так C:\sd\webui\models

После скачивания вверху находим кнопку обновления списка моделей и нажимаем для обновления. После этого раскрываем список моделей и выбираем скачанную модель. Она у нас пока одна.

Пишем prompts для создания изображений в stable diffusion

Всю работу ведем в первой вкладке txt2img- создание изображений из текстовых запросов. Ближе к левому краю окна находятся два поля для ввода запросов. В верхнем поле мы указываем что и как рисовать, а в нижнем- что не рисовать. Как видите всё просто.

sd forge поле ввода промпт для создание изображений в stable diffusion

Давайте наберём какой-нибудь запрос (prompt). Запомните, чем более точный запрос, тем лучше. Текст запроса состоит из токенов. Слова и словосочетания, разделяемые запятыми, и есть токены. Все набранные токены и есть запрос.

Наш первый запрос будет состоять из одного токена. Это будет запрос- пожилой (старый) человек. Для перевода на английский воспользуйтесь любым переводчиком. Печатаем в верхнем поле old man. Далее необходимо сделать изменения в соответствии с рисунком ниже (они выделены жёлтым).

Что это за настройки:

Sampling method- на каждом шаге создания изображения ИИ удаляет часть шума из исходного изображения (оно в начале является полностью шумом, диффузией) пока не создаст изображение. Метод сэмплирования определяет, как будет удаляться очередная порция шума
Sampling steps- сколько раз (шагов, итераций) будет применяться метод семплирования до полного удаления шума
Height и width- размер изображения
CFG Scale- параметр, который который определяет, насколько точно сгенерированное изображение соответствует текстовой подсказке.

Наконец-то нажимаем Generate. У меня получился вот такой пенсионер

Выглядит неплохо, но вполне может получиться и плохое изображение. Тогда сгенерируйте ещё раз.

Ну и где подробный запрос, спросите вы? Хорошо, давайте уточним. Запрос будет таким: фотография лица старого человека, близкий план, высокая детализация, рынок — closeup face photo of old man, market

Кроме этого мы заполним поле для негативного промпта. Чаще всего проблемы с руками, деформациями, искажениями и много чего еще. Укажем такие токены deformation,distortion,low detailing,incorrect anatomy. Генерируем

пожилой человек, создание изображений в stable diffusion

Очень неплохо. Что хотели, то и получили. Рынок правда не видно. Если нажать на получившееся изображение, то оно увеличиться и будет не таким чётким. Размеры всего лишь 512 на 512 рх. А если нужно фото А4, что тогда делать? Один из вариантов такой. Найдите под изображением ряд кнопок. Нажмите на send to extra

Мы попадем во вкладку extras, где нужно выбрать upscaler (можно выбрать и два upscaler, некоторые резкость подкрутить могут) и во сколько раз увеличивать изображение. Например это SwinIR_4x

Нажимаем опять generate и получаем увеличенное изображение отличного качества. Это не единственный способ увеличения изображений, он просто быстрее других методов.

Все сгенерированные изображения находятся в папке C:\sdforge\webui\outputs и находятся в папках по методу генерации, а внутри этих папок- в папках по дате создания. Там вы найдете ваши шедевры.

Таких папок 4

extras-images/папки по дате (здесь находятся изображения после увеличения через extras)
img2img-images/папки по дате (здесь находятся изображения созданные из изображения +запроса)
txt2img-grids/папки по дате (здесь находятся все изображения если указывалось пакетное создание (несколько штук))
txt2img-images/папки по дате (здесь находятся изображения созданные из текстового запроса)

Это минимальные знания для генерации изображений с помощью stable diffusion forge. В следующем уроке поговорим о камере, ракурсах и VAE.