Dessin d'après IA

Papiercousu@lemmy.world · 1 year ago

Dessin d'après IA

keepthepace · 1 year ago

Si s’inspirer d’une image c’est du vol, au bout d’un moment, va falloir définir ce qu’est une publication. Un artiste a le droit de faire une parodie de Mickey ou de s’inspirer (voire d’imiter) le style de Disney. Les artistes se sentent spoliés quand on peut mettre leur nom dans la prompt et que l’IA imite leur style, je comprends le sentiment, et il faut qu’on en discute en tant que société, mais appeler ça un vol est incorrect. Aux vus de comment les règles sont faites aujourd’hui, ces pratiques sont légales.

Après, j’aimerai bien lire dans son code pour voir comment elle “peint”. Est ce que l’ordi fait la moyenne des couleurs des images et le replique. Ou est que qu’elle est capable d’analyser l’oeuvre, de voir le mouvement du pinceau et l’epaisseur.

Il y a deux process séparés là: l’apprentissage d’un style et la génération d’une image.

La technique vers laquelle tout le monde est allé pour la génération d’image ne ressemble pas à ce que les humains font et est très étrange: c’est un débruiteur. On lui donne image composée de pixels aléatoires et on lui dit “ça c’est l’image d’une île paradisiaque avec un perroquet au premier plan mais elle est très bruitée, enlève du bruit” et au bout de plusieurs étapes il faut une image parfaitement débruitée. Ce n’est pas un process humain où on applique des touches locales de peinture ou des traits. Elle va par exemple garder des pixels bleus là où le ciel devrait être et rouges là où le perroquet devrait être et va tenter de discerner l’objet qu’on lui a dit être présent, un peu comme quelqu’un qui cherche des formes dans la nuages.

L’apprentissage, pas contre, fait très clairement émerger des concepts de haut niveau. Ça fait des années qu’on sait que les VAE par exemple sont capable d’extraire des concepts abstraits de par exemple des visages. Là ça se fait par apprentissage de débruitage sur des couples image-texte. Par exemple si tu lui dis “portrait d’une personne avec des lunettes” le modèle va apprendre que les pixels “anormaux” autour des yeux ne sont pas forcément à remplacer par des pixels de peau, et va comprendre les règles selon lesquelles ils forment des lunettes cohérentes.

Est ce qu’elle part d’un squelette 3D, place les éléments, puis la lumière et ensuite des corps, applique les proportions.

Elle ne le fait pas spontanément mais avec ControlNet on peut lui donner en entrée un squelette 3D (et y a des outils de composition d’image précisant où se trouve tel ou tel objet) https://www.redsharknews.com/controlnet-another-step-change-in-ai-image-generation

Là je te décris les modèles par diffusion, qui ont donné les meilleurs résultats récemment, mais d’autres techniques existent qui donnent des résultats un peu moins bon mais utilisent des techniques très différentes et pourraient un jour revenir sur le devant de la scène. Par exemple une technique est de transformer la prompt en un “vocabulaire” artistique (les guillemets sont là car c’est juste une série de vecteur, pas des mots en langage naturel) qui vient décrire chaque portion de l’image. Tu passes par une représentation intermédiaire de l’image à générer sous forme de grille où chaque grille contient une information abstraite du genre “cheveux, haut du crane, blonds, longs, style peinture à l’huile, relfets de soleil” etc. Et un “peintre” final vient transformer cette grille en une image cohérente. On a dans ce cas là une composition explicite avant la génération.

Le workflow que tu décris est possible, mais est souvent fait par les humains qui travaillent avec ces modèles. Il donnerait surement de meilleurs résultats, le problème est qu’il est difficile de générer les informations d’entrainement pour ça: des couples textes-images on en a, mais des images couplée au squelette 3D des personnes et à une description spatiale de la composition et lumière, on n’a pas.

Ou est ce qu’elle fait une moyenne d’images ?

Il n’y a pas de “moyenne d’image”, je pense que c’est à cause de cette idée fausse qu’on parle de vol d’oeuvres. J’imagine qu’on peut expliquer l’apprentissage des premiers layers comme une moyenne mais très vite le modèle apprend autre chose et apprend justement les différences de style et la cohérence générale d’une image. Par exemple là voici plusieurs images de la prompt “eye close-up, comics, stylized” (et une série de mots génériques pour augmenter la qualité). La prompt ne change pas (mon modèle est SD-1.5, pas le plus récent ni le meilleur). Tu vois qu’il sort des images cohérentes dans des styles différents mais ne fait pas une moyenne. En fait il essaye de discerner, à partir du bruit de départ qu’on lui donne, le style qui est probablement derrière ce bruit:

Camus@jlai.lu · 1 year ago

Très intéressant

DniMam@lemmy.world · edit-2 1 year ago

Justement l’exemple d’une visite de musée enlève cette notion de vol :)

Oui une parodie ou une citation :)

Intéressant. Parce que quand je dessinne, je procède par formes géométriques : cercles, triangles…qui s’appuient sur la structure sous-jacente : l’anatomie. Une fois que j’ai fixé la posture du corps, je l’enrobe. À force de le faire, ça devient une mécanique.

Pour revenir à la moyenne d’images, je pense que ça vient de plusieures choses :

L’apprentissage d’un enfant. On lui montre plein d’images simplifiés et on lui dit : “c’est des yeux”. Et quelque soit le style, l’espèce, il a associé “yeux” à tout ça. Et donc qu’il a établis un modèle, une moyenne qu’il va appliquer.
2ème possibilité, les outils de PAO, adobe, gimp…Qui, pour agrandir, réduire ou mélanger des couleurs passent par des calculs de moyennes de couleurs.

Après je suis pas trop expert, je sais pas du tout comment un humain apprend, voit et associe. Ce sont juste des hypothèses et peut-etre que l’IA permettra de comprendre comment le cerveau fonctionne ?

En tout cas, merci infiniment pour ton partage. 😁👍

keepthepace · 1 year ago

De rien, je trouve important qu’on discute franchement de ces sujets et des changements qu’ils amènent.

Interessant. Parce que quand je dessinne, je procède par forme géométrique : cercle, triangle…qui s’appuie sur la structure sous-jacente : l’anatomie. Une fois que j’ai fixé la posture du corps, je l’enrobe et à force de le faire, ça devient une mécanique.

Oui, je fais pareil. Et ce qu’il y a de troublant c’est qu’il n’est pas impossible que ces modèles aient appris à faire la même chose derrière la tache de “débruitage”. Ils ont des notions d’anatomie et de géométrie qui émergent du bruit initial qu’on leur donne.

Quand tu as une liberté artistique, par exemple pour choisir la pose précise d’un personnage, peux-tu prouver que tu fais autre chose que de te baser sur un choix aléatoire et “d’en faire quelque chose”?

L’apprentissage d’un enfant. On lui montre plein d’images simplifiés et on lui dit : “c’est des yeux”. Et quelque soit le style, l’espèce, il a associé “yeux” à tout ça. Et donc qu’il a établis un modèle, une moyenne qu’il va appliquer.

Oui, dans ce sens là en effet, le modèle fait un peu pareil, mais toute la force de cet algo c’est justement de ne pas être une moyenne mais une extraction des caractéristiques importantes et la création d’un modèle plus que d’une moyenne. C’est un peu comme de dire qu’un modèle de météo est juste une moyenne des températures dans une zone. C’est quand même un peu plus que ça.

DniMam@lemmy.world · 1 year ago

En fait, ça a emergé de la meme manière. On a vu un tas d’humain et on se dit, tient les yeux sont tous comme ça. Ya 1 oeil qui sépare les 2 yeux. La retine est alignée sur la comissure des lèvres…puis hop les proportions émergent.

Pour le débruitage est ce que nous, on le fait aussi ? Ou est ce propre à l’ordi ? :)

Ya pas de choix aléatoire dans ma création. C’est un ensemble d’influences au cours de mon existence qui me permet de façonner des structures de pensées et de faire des choix. Je suis pas libre, je produis en fonction d’un ensemble de choix prédéfinis qui constituent ma “patte”. Et j’ai jamais eu ce sentiment de liberté, c’est la même chose, le même processus et c’est terriblement humain.

keepthepace · 1 year ago

Pour le débruitage est ce que nous, on le fait aussi ? Ou est ce propre à l’ordi ? :)

Pour le coup, cette étape étant son “outil” de génération, son pinceau si tu veux, je dirais qu’il lui est unique.

Pour la patte, il se passe quelque chose de différent sur ces modèles. Au cours des dernières années, ce qui a progressé, c’est les algos d’apprentissages, ils sont devenus meilleurs que ce qu’on avait, mais beaucoup moins bon qu’un humain, qui est capable d’apprendre des choses à partir de très peu d’exemples. Par contre ces algos fonctionnent vite, alors on compense en leur donnant cent mille fois plus d’infos d’apprentissage qu’un humain n’en reçoit.

Imagine que tu te sois entraîné à imiter le style de millions d’images avant qu’on te laisse faire la moindre chose toi même. Tu n’aurais pas juste une “patte”, tu aurais appris ce qu’est une patte, ce qui fait un style et serait capable d’en imiter des tonnes d’autres. Ces modèles en sont là. Et bien sur, comme derrière les boites qui les entrainent, il y a quand même une pensée pour la rentabilité, ils trouvent que c’est une bonne chose et ne verraient pas l’intérêt de limiter l’apprentissage d’un modèle pour le rendre mono-style et lui donner une patte perso, mais c’est quelque chose qui en théorie devrait marcher: donne au modèle ou outil limité de style crayon, et demande lui de se rapprocher le plus possible de photos (une tâche impossible) et laisse le faire émerger les erreurs qu’il trouve acceptable, tu auras un style. Je pense que d’autres archis que les modèles de diffusion marcheraient mieux (des VAE peut-être?).

Je ne serais pas surpris qu’avec ces outils maturissant on voit émerger ce genre d’explorations plus artisitiques.