Гайд с разбором промптов и стилей

Приступаем к генерированию картинок. На самом деле все намного проще, чем кажется на первый взгляд.
Основные функции

Процесс генерации картинки из текста txt2img
Гайд с разбором промптов и стилей

Самая первая вкладка — конвертация текста в изображение.
1 — Prompt (промпт): окошко, куда мы пишем наш текст. Воспринимается только английский, буквально означает «подсказка».
2 — Negative prompt (Минус слова): окошко, куда мы пишем то, чего видеть не хотим.

Для моделей существует универсальные промпты, которые можно найти в нашем каталоге.
PROMT: masterpiece, best quality, (ваш текст)
NEGATIVE: deformed, bad anatomy, disfigured, poorly drawn face, mutation, mutated, extra limb, ugly, disgusting, poorly drawn hands, missing limb, floating limbs, disconnected limbs, malformed hands, blurry, ((((mutated hands and fingers)))), watermark, watermarked, oversaturated, censored, distorted hands, amputation, missing hands, obese, doubled face, double hands

3 — Кнопка создания изображения. Немного тормозит во время первого использования, необходимо подождать пока все подгрузится.
4 — Sampling steps — количество итераций, или шагов, необходимых нейросети для обработки запроса. Количество шагов в создании изображения — steps. В теории, больше — лучше, но это не всегда так работает. Экспериментируйте. В моделях, которые я рекомендую, начальное количество шагов (steps) от 40, на меньших шагах генерируется более размытый арт.
5 — Sampling method — метод создания, выбор семплера для генерации. Может показываться кнопками или выпадающим меню. Я рекомендую использовать Euler a — для генерации артов, приближенных к реальным фото и семплер DPM++ 2M Karras — для более художественных артов.
6 — Размеры изображения. Ползунками настраиваем желаемый размер и пропорции будущих картинок. Базовые размеры — это квадрат на 512 пикселей. Предсказуемые результаты возможны только при таком размере, поскольку стандартную модель обучали именно на квадратных картинках 512x512px. При увеличении разрешения нейросеть может начать дублировать его части, от чего появляются лишние головы, конечности и персонажи. Тем не менее, порой можно получить приличный результат и при «нестандартном» разрешении. Удобные форматы для SD: 512x512px, 512x640px, 640x640px, 512x704px, 704x512px
7 — Разнообразные фиксы. Restore faces — улучшение лица, после генерации арта, в хороших моделях используется редко (галку не ставим). Tiling — для генерации повторяющихся бесшовных текстур, редко когда используется (галку не ставим). Hires. fix — требует отдельного пояснения в статье, для базового знания Hires. Fix используется для увеличения и одновременно улучшения картинки. Допустим вы сгенерировали картинку без Hires. Fix, картинка получилась мутная, лицо не очень корректное, разные артефакты. Тогда ставим галку напротив Hires. Fix, выбираем
Upscaler (увеличить) — 2, т.е. в два раза, больше не надо, комп начнет сильно грузиться, и сам Upscaler — выбираем ESRGAN_4x, Hires steps — любое.
Гайд с разбором промптов и стилей

Hires. Fix – не просто увеличивает картинку, он ее еще раз генерирует, и так как изначально Hires. Fix использовался для предотвращения дублирования, на картинках отличных от формата 512Х512, то и на пейзажной он уберет дубли артефактов и некоторые неточности сгладит. Все свои картинки я пропускаю через Hires. Fix для более идеального качества. И только потом полученную картинку можно увеличивать.

8 — Количество изображений. Ставьте 1, чем больше изображений тем сильнее нагрузка. На начальном этапе вам это не надо, так что ставьте 1.
9 — Значимость вашего промпта. Чем выше — тем больше вероятность, что ИИ учтёт весь ваш текст. Меньше 7 — нейросеть будет выдавать случайные результаты. Обычно ставим 7-8, если промпт длинный, то можно поднять до 8-9. В редких случаях ставится 10-12. Classifier-free Guidance Scale (CFG Scale) — шкала безклассификаторного управления уровнем диффузии. Указывает нейросети, как сильно изображение должно соответствовать каждому токену запроса. Чем меньше значение — тем больше нейросеть «фантазирует», чем оно больше — тем точнее и детальнее получаются картинки. Слишком низкие значения приведут к генерации рандома, а слишком высокие — приведут к искаженным изображениям, с вырвиглазным контрастом и цветами.

Seed — число, из которого генерируется шум. Если указать -1, сид будет рандомный во всех генерациях (кнопочка 🎲). Кнопочка ♻️ вызывает последний использовавшийся сид. При первой генерации, обычно ставят -1, когда картинка сгенерируется, она получит свой сид, чтобы увидеть его — жмите зеленую иконку, и сид (число) пропишется в окошке. Это будет то число, по которому получилась именно эта картинка. В примерах промптов часто указывают сид, чтобы получить точно такую же картинку.

Когда картинка сгенерировалась и вы хотите ее сохранить. Жмите кнопку — SAVE, приложение сохранит картинку и далее скачиваем ее по ссылке «download».
Гайд с разбором промптов и стилей

img2img
Возможность создания изображений на основе других. На данном этапе вам это не надо, больше для баловства, поэтому опишем кратко.

Гайд с разбором промптов и стилей

1 — Сюда перетаскиваем изображение, которое должно стать «основой».
2 — Функции запросить информацию об изображении. Когда вы перекинули ваше изображение, то можно узнать как ИИ видит картинку, нажимая CLIP — вы запустите процесс распознавания картинки и через некоторое время в окошке пропмта появится текст. CLIP лучше работает с реалистичными, Danbooru — с рисунками. После использования вы получите предполагаемый промт изображения, которое загрузили в ИИ.
3 — Степень ориентировки на оригинальное изображение. Работает по тому же принципу, как и кнопка выше, только наоборот — чем ниже значение, тем больше ИИ ориентируется на ваше изображение. Советуется использовать 0.7 или, если вам вот прямо так сильно хочется получить вариацию оригинала, то 0.5-0.6.

— Batch Size — количество параллельно обрабатываемых изображений.
— Batch Count — сколько раз нужно сгенерировать по Batch Size изображения за одно нажатие кнопки Generate.
Эти параметры лучше поставить на 1, чтобы не тратить мощности видеокарты зря.

Вкладка img2img позволяет подавать на вход изображения и изменять их тремя разными способами:
— img2img — входное изображение является образцом для генерации.
— inpaint — на вход подается изображение и маска, нейросеть рисует только по маске.
— outpaint — нейросеть пытается посмотреть за пределы изображения.

У масок есть дополнительные параметры:
— Mask mode (Inpaint masked/Inpaint not masked) — генерация применяется к маске или инвертированной маске.
— Masked content — определяет, что будет входными данными для генерации. Пояснение доступно на картинке выше.
— Inpaint Mode — определяет, как сгенерированный контент будет встроен в картинку.
— Whole picture — допускается изменять всю картинку.
— Only masked — работать исключительно в рамках маски.

Рассмотрим примеры

Сэмплеры и количества шагов

Гайд с разбором промптов и стилей

В таблице показаны примеры того, как зависит результат на картинке от уточнения слов в промпте. Примеры показаны при одинаковых позициях «seed».
Гайд с разбором промптов и стилей

Большой справочный материал по написанию промптов для Stable Diffusion, применимо и к MD.

Гайд с разбором промптов и стилей

Представлен в виде pdf файла на английском языке, нет смысла его переводить на русский язык, так как запросы на рисование пишутся на английском языке, поэтому копируем промпты из гайда и проверяем, что получится. Примеры готовых промптов представлены в разноцветных прямоугольниках, на них же и маленькие превьюшки.

Качаем pdf файл и учимся азам.
Stable Diffusion Prompt Book From OpenArt 11-13

Пример по подбору экспозиции, света, камеры и объективов
Гайд с разбором промптов и стилей

Гайд с разбором промптов и стилей

Всего 105 страниц интересных примеров и разборов промптов, обязательно к ознакомлению!

Дополнительный синтаксис

Скобочки ((((УСИЛИВАЮТ)))) влияние токена, запятые ставить нужно тоже.
Квадратные скобочки [отменяют или ослабляют] эффект

Степень влияния скобочек на результат в промпте:

(n) = (n:1.1)
((n)) = (n:1.21)
(((n))) = (n:1.331)
((((n)))) = (n:1.4641)
(((((n)))) = (n:1.61051)
((((((n)))))) = (n:1.771561)
[n] = (n:0.9090909090909091)
[[n]] = (n:0.8264462809917355)
[[[n]]] = (n:0.7513148009015778)
[[[[n]]]] = (n:0.6830134553650707)
[[[[[n]]]]] = (n:0.6209213230591552)
[[[[[[n]]]]]] = (n:0.5644739300537775)

Вес ключу можно придать указав числовое значение через двоеточие:

selfie photo of fat laughing (cat:1.5) in pub with beer, perfect face, pov, 4k

Любопытный эффект дает нижнее подчеркивание, например wild_cat_laughing может дать гиперболизированный вариант простого wild cat laughing — тут нужно экспериментировать. Так же акцентное влияния оказывают и восклицательные знаки!!!

Некоторые примеры описаний:

Освещение:

accent lighting, ambient lighting, backlight, blacklight, blinding light, candlelight, concert lighting, crepuscular rays, direct sunlight, dusk, Edison bulb, electric arc, fire, fluorescent, glowing, glowing radioactively, glow-stick, lava glow, moonlight, natural lighting, neon lamp, nightclub lighting, nuclear waste glow, quantum dot display, spotlight, strobe, sunlight, ultraviolet, dramatic lighting, dark lighting, soft lighting, gloomy

Детализация:

highly detailed, grainy, realistic, unreal engine, octane render, bokeh, vray, houdini render, quixel megascans, depth of field, dof, arnold render, 8k uhd, raytracing, cgi, lumen reflections, cgsociety, ultra realistic, volumetric fog, overglaze, analog photo, polaroid, 100mm, film photography, dslr, cinema4d, studio quality

Художественная техника:

digital art, digital painting, color page, trending on artstation, precise line-art, tarot card, character design, concept art, symmetry, golden ratio, evocative, award winning, shiny, smooth, surreal, divine, celestial, elegant, oil painting, soft, fascinating, fine art

Параметры камеры:

ultra wide-angle, wide-angle, aerial view, massive scale, street level view, landscape, panoramic, bokeh, fisheye, dutch angle, low angle, extreme long-shot, long shot, close-up, extreme close-up, highly detailed, depth of field (or dof), 4k, 8k uhd, ultra realistic, studio quality, octane render

Стилистика:

hyper-realistic, realistic, surrealism, masterpiece, trending on artstation, matte, elegant, illustration, digital paint, epic composition, beautiful

Цвета:

triadic colour scheme, washed colour, teal-orange, complimentary colors, monochrome, sepia, analogus colors

Что еще можно добавить в запрос

в начало

lomography photo — делает фото смазанным, со смещёнными тонами и небрежно снятым

Можно добавить сеттинг или время сьёмки:

at night, in sunny morning, gloomy forest, moonlight

film still — придаёт фото киношный вид

national geographic photo — художественная фотография

matte painting — реалистичная картина, пейзаж

concept art — рисунок, иллюстрация, простые персонажи, предметы

headshot portrait — портрет лица

close-up portrait — портрет лица крупным планом

studio portrait — качественное студийное фото, типа стоковых фоток

full body portrait — портрет с телом до колен

full length portrait — в полный рост

painted by имя художника(ов) — стилизация под конкретного художника/фотографа/стиль.

в конец

fine details, ((detalied face)), perfect faces, highly detailed eyes — может улучшить качество лиц

cinestill — киношный стиль

polaroid — делает фото с «плёночными» выцветшими цветами

bokeh — размытие фона от длиннофокусного объектива, боке

4k (или 8k или HD) — добавляет больше деталей

octane render, unreal engine — 3D графика

sticker — делает стикер

postage stamp — почтовая марка

chevron patch — нашивка, шеврон

alcohol label — этикетка на бутылку

 

Prompts — шаблоны

{{Prompt}} — вместо этой конструкции вставляйте свой объект (дом, человек, животное и т.п.), на английском языке.

Category Prompt Example
Animal {{Prompt}}, wildlife photography, photograph, high quality, wildlife, f 1.8, soft focus, 8k, national geographic, award — winning photograph by nick nichols Гайд с разбором промптов и стилей
Archviz {{Prompt}}, by James McDonald and Joarc Architects, home, interior, octane render, deviantart, cinematic, key art, hyperrealism, sun light, sunrays, canon eos c 300, ƒ 1.8, 35 mm, 8k, medium — format print Гайд с разбором промптов и стилей
Building {{Prompt}}, shot 35 mm, realism, octane render, 8k, trending on artstation, 35 mm camera, unreal engine, hyper detailed, photo — realistic maximum detail, volumetric light, realistic matte painting, hyper photorealistic, trending on artstation, ultra — detailed, realistic Гайд с разбором промптов и стилей
Cartoon Character {{Prompt}}, anthro, very cute kid’s film character, disney pixar zootopia character concept artwork, 3d concept, detailed fur, high detail iconic character for upcoming film, trending on artstation, character design, 3d artistic render, highly detailed, octane, blender, cartoon, shadows, lighting Гайд с разбором промптов и стилей
Concept Art / Design {{Prompt}}, character sheet, concept design, contrast, style by kim jung gi, zabrocki, karlkka, jayison devadas, trending on artstation, 8k, ultra wide angle, pincushion lens effect Гайд с разбором промптов и стилей
Cyberpunk {{Prompt}}, cyberpunk, in heavy raining futuristic tokyo rooftop cyberpunk night, sci-fi, fantasy, intricate, very very beautiful, elegant, neon light, highly detailed, digital painting, artstation, concept art, soft light, hdri, smooth, sharp focus, illustration, art by tian zi and craig mullins and wlop and alphonse much Гайд с разбором промптов и стилей
Digital Art {{Prompt}}, ultra realistic, concept art, intricate details, highly detailed, photorealistic, octane render, 8k, unreal engine, sharp focus, volumetric lighting unreal engine. art by artgerm and alphonse mucha Гайд с разбором промптов и стилей
Digital Art Landscape {{Prompt}}, epic concept art by barlowe wayne, ruan jia, light effect, volumetric light, 3d, ultra clear detailed, octane render, 8k, dark green, {{colors}} colour scheme Гайд с разбором промптов и стилей
Drawing {{Prompt}}, cute, funny, centered, award winning watercolor pen illustration, detailed, disney, isometric illustration, drawing, by Stephen Hillenburg, Matt Groening, Albert Uderzo Гайд с разбором промптов и стилей
Fashion photograph of a Fashion model, {{Prompt}}, full body, highly detailed and intricate, golden ratio, vibrant colors, hyper maximalist, futuristic, city background, luxury, elite, cinematic, fashion, depth of field, colorful, glow, trending on artstation, ultra high detail, ultra realistic, cinematic lighting, focused, 8k, Гайд с разбором промптов и стилей
Landscape {{Prompt}}, birds in the sky, waterfall close shot 35 mm, realism, octane render, 8 k, exploration, cinematic, trending on artstation, 35 mm camera, unreal engine, hyper detailed, photo — realistic maximum detail, volumetric light, moody cinematic epic concept art, realistic matte painting, hyper photorealistic, epic, trending on artstation, movie concept art, cinematic composition, ultra — detailed, realistic Гайд с разбором промптов и стилей
Photograph Closeup {{Prompt}}, depth of field. bokeh. soft light. by Yasmin Albatoul, Harry Fayt. centered. extremely detailed. Nikon D850, (35mm|50mm|85mm). award winning photography. Гайд с разбором промптов и стилей
Photograph Portrait portrait photo of {{Prompt}}, photograph, highly detailed face, depth of field, moody light, golden hour, style by Dan Winters, Russell James, Steve McCurry, centered, extremely detailed, Nikon D850, award winning photography Гайд с разбором промптов и стилей
Postapocalyptic {{Prompt}}, fog, animals, birds, deer, bunny, postapocalyptic, overgrown with plant life and ivy, artgerm, yoshitaka amano, gothic interior, 8k, octane render, unreal engine Гайд с разбором промптов и стилей
Schematic 23rd century scientific schematics for {{Prompt}}, blueprint, hyperdetailed vector technical documents, callouts, legend, patent registry Гайд с разбором промптов и стилей
Sketch {{Prompt}}, sketch, drawing, detailed, pencil, black and white by Adonna Khare, Paul Cadden, Pierre-Yves Riveau Гайд с разбором промптов и стилей
Space {{Prompt}}, by Andrew McCarthy, Navaneeth Unnikrishnan, Manuel Dietrich, photo realistic, 8 k, cinematic lighting, hd, atmospheric, hyperdetailed, trending on artstation, deviantart, photography, glow effect Гайд с разбором промптов и стилей
Sprite sprite of video games {{Prompt}} icons, 2d icons, rpg skills icons, world of warcraft, league of legends, ability icon, fantasy, potions, spells, objects, flowers, gems, swords, axe, hammer, fire, ice, arcane, shiny object, graphic design, high contrast, artstation Гайд с разбором промптов и стилей
Steampunk {{Prompt}}, steampunk cybernetic biomechanical, 3d model, very coherent symmetrical artwork, unreal engine realistic render, 8k, micro detail, intricate, elegant, highly detailed, centered, digital painting, artstation, smooth, sharp focus, illustration, artgerm, Caio Fantini, wlop Гайд с разбором промптов и стилей
Vehicles photograph of {{Prompt}}, photorealistic, vivid, sharp focus, reflection, refraction, sunrays, very detailed, intricate, intense cinematic composition Гайд с разбором промптов и стилей