Trigger-warning: bestioles en forme d’araignées à la fin de l’article
Dans cette startup, on se donne à 150% !
La syntaxe (mot-clef:valeur) permet de pondérer l’intensité d’un mot dans le prompt. Avec une personne connue, l’effet principal est de donner un contrôle de ressemblance entre « humain moyen » à 50% et « caricature des traits spécifiques » au delà de 100% (en fait, au delà de 90%, car la sur-représentation de certaines célébrités dans l’entraînement du réseau les exagère déjà par défaut)
Portrait photo of (Elon Musk:1.4)
Steps: 40, Sampler: DDIM, CFG scale: 7, Seed: 3355823348, Size: 512x512, Model hash: 7460a6fa

Alter-ego international
Un grand classique. Les traits ethniques vus par StableDiffusion appliqués à n’importe qui: Et si Elon Musk était Sud-Africain ?

Cocktail de célébrités
On commence par générer deux personnes avec les mêmes paramètres:
D’abord Thor, avec 90% de Chris Hemsworth
a photo of (chris hemsworth:0.9)
Steps: 42, Sampler: DPM2, CFG scale: 7, Seed: 1517168840, Size: 512x512, Model hash: 7460a6fa

Et Spiderman:
a photo of Tom Holland
Steps: 42, Sampler: DPM2, CFG scale: 7, Seed: 1517168840, Size: 512x512, Model hash: 7460a6fa

Mixage par << « machin » as « truc »>>
Première technique de mixage, par construction grammaticale du prompt: « machin » as « truc » pour avoir une sorte de 50%, plus ou moins selon les coefficients
a photo of (chris hemsworth:0.9) as Tom Holland
Bizarrement ça ne change pas grand chose, d’ailleurs je ne vais pas poster l’image.
À l’inverse si on échange les termes, il se passe quelquechose.
a photo of Tom Holland as (chris hemsworth:0.9)

On peut tenter de varier les coefficients pour avoir des résultats un peu chaotiques:
a photo of (chris hemsworth:0.7) as (Tom Holland:1.2)

Prompt-editing
La syntaxe de prompt [toto:tata:0.5] génère les toto sur les premières itérations, puis change la cible de génération à « tata » pour la fin (si je comprend bien). Une sorte de txt2img suivi d’un img2img automatisé, probablement.
a photo of [(chris hemsworth:0.9):Tom Holland:0.5]

a photo of [(chris hemsworth:0.9):Tom Holland:0.25]

Aussi changer l’ordre de qui est en premier est important:
a photo of [Tom Holland:(chris hemsworth:0.9):0.5]

Prompt-alternating
La syntaxe [toto|tata] , au lieu de répartir de la changement de prompt entre la 1ère et la 2ème moitié des itérations, l’alterne à chaque étape de génération. Du coup c’est aussi du 50% obligatoire sans autre coefficient possible. Cependant, en pratique ça n’a eu aucun effet pour le morphing de visages chez moi. Peut-être que les sampling-steps ou choix de diffuseur a un impact ?
a photo of [Tom Holland|(chris hemsworth:0.9)]
prompt vector interpollation
Théoriquement il y a moyen d’interpoller mathématiquement entre les représentations vectorielles des sujets demandés. Mais ça n’est pas encore implémentée dans l’interface actuellement disponible.
txt2img -> img2img
En renvoyant l’image de départ vers img2img et en changeant le prompt, et en réglant comme il faut le Denoising strength pour l’intensité de transformation, on peut avoir un résultat. Attention, la « seed » de l’img2img devrait être différente de celle du txt2img initial sinon il y a un effet de saturation qui dégrade l’image.
On peut aussi partir d’une vraie photo, probablement.
a photo of Tom Holland
Steps: 23, Sampler: DPM2, CFG scale: 7, Seed: 1016314451, Size: 512x512, Model hash: 7460a6fa, Denoising strength: 0.27, Mask blur: 4



Mi ours, Mi scorpion, et re-mi ours derrière
Au lieu d’un bête morphing entre deux humains, tentons de demander de hybrides improbables:
Le mi-ours était malheureusement impossible à générer directement à partir d’un prompt, et l’inpaiting ressemblait à un mauvais photoshop.
À la place:
A [zebra:wolf:0.3], National Geographics
Steps: 24, Sampler: DPM2 Karras, CFG scale: 7, Seed: 3167607957, Size: 768x512, Model hash: 7460a6fa
A [wolf:zebra:0.3], National Geographics
Steps: 24, Sampler: DPM2 Karras, CFG scale: 7, Seed: 3167607955, Size: 768x512, Model hash: 7460a6fa


A pig tiger
Steps: 24, Sampler: DPM2 Karras, CFG scale: 7, Seed: 3167607954, Size: 768x512, Model hash: 7460a6fa


A dolphin camel in the desert, by National Geographics
Steps: 24, Sampler: DPM2 Karras, CFG scale: 7, Seed: 3514664270, Size: 768x512, Model hash: 7460a6fa


girafphants


Spider-cat



Cryptozoologie
D’autres bestioles improbables, volontairement ou issues des tentatives infructueuses des paragraphes précédents ( « c’est pas ce que j’avais demandé, mais je garde quand même« )









« Alors c’est comme un centaure, mais Mi-cheval devant, Mi-cheval au milieu, et re-Mi-cheval derrière: »
