Teljes útmutató a képgenerátorok használatához (Midjourney, DALL-E 3, Playground AI, Adobe Firefly)

mesterséges intelligencia photoshop

Minden, amit a képgenerálásról tudni érdemes egyetlen, magyar nyelvű tutorial videóban! Milyen megoldások vannak, melyiket mire és hogyan tudod használni? Működés, jogi és etikai kérdések, útmutató lépésről lépésre a hatékony parancsok adásához és a felületek használatához.

Feliratkoztál már a YouTube csatornámra?

A videóban elhangzó szöveg leirata:

Szeretnéd megtanulni a képgenerátorok használatát? Rengeteg kérdés érkezik hozzám ezzel kapcsolatban, úgyhogy arra gondoltam, hogy készítek egy alapozó videót. Meg fogjuk nézni, hogy milyen feladatokra mik most szerintem a legjobb eszközök.

Én Ihász Ingrid vagyok és hogyha érdekel a fotózás és az utómunka, akkor kövesd a csatornámat és kapcsold be az értesítéseket.

Hol helyezkedik el a képgenerálás a mesterséges intelligencia területén belül?

A képgenerálás területe folyamatosan fejlődik, tehát lehet, hogy mire megnézed ezt a videót, bizonyos dolgok már elavultak lesznek benne. Viszont az alapok azok nem fognak változni.

Egy kis elméleti bevezetővel fogom kezdeni, amiről írtam egy nagyon-nagyon hosszú cikket, úgyhogy ha részletesen érdekel a téma, akkor azt ajánlom elolvasni.

Hol helyezkedik el a képgenerálás a mesterséges intelligencia fogalmán belül? A mesterséges intelligencia olyan számítógépes rendszerek elmélete és fejlesztése, amelyek olyan jellegű feladatokat képesek ellátni, amire korábban csak az emberi intelligencia volt képes.

A gépi tanulás ezen belül egy alterület. Egy program vagy rendszer, amely modellt tanít be bemeneti adatokból. A bemeneti adat pedig lehet például egy óriási mennyiségű szöveg vagy éppen kép. A gépi tanuláson belül a mélytanulás még bonyolultabb mintáknak a feldolgozására képes.

És ezután érkezünk meg csak a generatív mesterséges intelligenciához, amibe a képgenerálás is tartozik, és ez a mélytanulásnak egy részterülete. A generatív mesterséges intelligencia a meglévő tartalmakból tanultak alapjához létre új tartalmakat.

A generatív képi modellek különböző technikákat használnak, ezek közül az egyik leggyakoribb az úgynevezett diffúzió. Ezeknek a modelleknek a megértéséhez elég komoly háttértudásra van szükség, úgyhogy nem is próbálok abban a szerepben tetszelegni, mintha én lennék erre a legalkalmasabb ember.

Amit mi hétköznapi emberek is érthetünk ebből a folyamatból, az az, hogy ezek a diffúziós modellek zajt adnak a képhez és ezzel apró részekre bontják fel. Ezután pedig, amikor kapnak valamilyen szöveges vagy képi parancsot, megfordítják ezt a folyamatot és eltávolítják a zajt a képről, amivel létrehozzák ezeket a képi elemeket.

Nem az történik tehát, hogy a mesterséges intelligencia mondjuk egy elemet átvesz egy képről és áttesz egy másikra, hanem minden esetben a vizuális elemek új és egyedi kombinációját hozza létre.

Amikor a felhasználó ad egy parancsot, azaz kér valamit a mesterséges intelligenciától, mondjuk egy kutyának a képét, akkor annak a jellemzői kerülnek előtérbe. Szőrös, négylábú, farka van például, és ezeket a jellemzőket hozza létre a korábban tanultak alapján.

A különböző cégek különböző diffúziós modelleket használnak, illetve más a tanulási adatbázis is, ezért van az, hogy ugyanarra a parancsra a különböző megoldások másmilyen képet adnak.

Ezek a megoldások még többnyire bétában vannak, tehát nem kész termékekről beszélünk, így érdemes hozzájuk állni. Egy általános probléma, hogy viszonylag nehéz konzisztensen jó eredményeket elérni velük.

Milyen szerzői jogi kérdéseket vet fel?

Fontos azt is látni, hogy az egész kérdésnek nagyon sok szerzői jogi vonatkozása van, és ezeknek a szabályozása is még folyamatban van. Kérdéseket vethet fel az, hogy milyen adatbázison tanult a modell, hiszen a legtöbb képnél valakinek a szerzői joga áll fenn.

Kérdés az is, hogy a generált képnek a szerzői joga kit illet. Illetve nem mindegy az sem, hogy a generált képet mire lehet felhasználni? Például kereskedelmi célra, reklámcélra használható-e?

4 képgenerátor, amit ismerned kell

Szerintem négy olyan megoldás van, amit most mindenképpen érdemes ismerni. A Midjourney, a Dall-E, a Stable Diffusion és az Adobe Firefly.

Vannak olyan megoldások, amiket ingyenesen ki lehet próbálni, de ezeknek a köre egyre szűkül, amiatt, hogy nagyon erőforrásigényes a képgenerálás folyamata.

A Midjourney és a Dall-E jelenleg fizetős formában érhető el. A Stable Diffusiont ki lehet ingyenesen is próbálni, illetve ez egy nyílt forráskódú megoldás, amit nagyon sok egyéb alkalmazás használ.

Az Adobe Firefly is kipróbálható ingyen, illetve az Adobe fotós csomagjában elérhető a Photoshopba beépítve. Itt is várható, hogy bevezetnek egy kreditrendszert, amiben általában ezek a megoldások működnek, és akkor már bizonyos műveletekért fizetni kell majd külön.

Amikor megoldást választunk, akkor érdemes átgondolni, hogy milyen erősségei vannak annak az adott rendszernek, illetve, hogy mi van benne az előfizetési díjban, körülbelül mennyi képet tudunk majd generálni.

Jelenleg szerintem a Midjourney az, ami a legszebb eredményeket adja, ennek azonban a felhasználása sokkal kevésbé egyszerű, mint bármelyik másik megoldásé.

Ami messze a legegyszerűbben használható és egyébként talán a második helyre tenném eredményekben az a Dall-E. A Dall-E jelenleg a ChatGPT Plus előfizetésen belül érhető el, és ugyanúgy lehet vele beszélgetni, mint a ChatGPT-vel, tehát nem kell olyan specifikusan kiadni neki a parancsokat, mint mondjuk más megoldásoknál.

A Stable Diffusion az, ami leginkább testre szabható. Az Adobe Firefly pedig az, ami leginkább beilleszthető a hagyományos kreatív folyamatokba, hiszen a Photoshopon belül is elérhető, illetve ők azok, akik leginkább tiszteletben tartják a szerzői jogokat, hiszen az ő tanulási adatbázisukat az Adobe Stock adatbázisa képezte.

A legjobb parancsok képgeneráláshoz

Ha valaki már dolgozott mesterséges intelligenciával, akkor tudja, hogy parancsokat kell adni. Ezekkel a parancsokkal befolyásoljuk azt, hogy milyen eredmény születik. Ez a különböző képgenerálóknál teljesen másképp működhet.

Ahogyan utaltam rá, a ChatGPT Plus-on belül elérhető Dall-E-nál, például adhatunk szöveges utasításokat, akár magyar nyelven is, és nem kell annyira pontosnak lennünk, meg nem kell paramétereket használnunk, mint a Midjourney-nél.

Ezt meg fogom mutatni a gyakorlatban is, hogy hogy néz ki. Elöljáróban annyi a lényeg, hogy az adott mesterséges intelligencia megoldással a saját nyelvén kell beszélnünk.

A parancsoknál is előfordulhat az, hogy a kevesebb több. Hogyha túl sok mindent próbálunk meg megadni a parancsban, akkor bizonyos dolgokat már nem fog figyelembe venni. Éppen ezért a legfontosabb szempontokat mindig a parancs elejére érdemes beírni.

Érdemes egy picit általánosságban beszélni arról, hogy mi mindent lehet érdemes egy ilyen parancsba belefoglalni. A legfontosabb dolog ugye az, hogy mi legyen a képen, mi legyen a képnek az alanya vagy a tárgya. Egy ember, egy állat, egy tárgy, egy helyszín, egy növény.

A második fontos dolog, hogy milyen médiumot képzeltünk el, tehát ez egy fotó legyen, egy festmény, egy ceruzarajz vagy egy vízfestékkel készült alkotás.

A következő dolog, amiben gondolkodhatunk, hogy milyen környezetben helyezzük el ezt az alanyt vagy tárgyat. Beltéren, kültéren, vízben, sivatagban, erdőben.

A következő, hogy milyen fényviszonyokat képzelünk el, napfelkeltét, naplementét, erős tűző napot vagy stúdióvilágítást, netán lágy fényeket, felhős időt.

Adhatunk arról is utasítást, hogy milyen korszakban játszódik ez a jelenet. Nem mindegy, hogy mondjuk az 1700-as években vagy a 90-es években van a jelenetünk.

Ugyancsak hozzáadhatunk érzelmeket, hangulatokat a képhez. Legyen az boldogság, düh, eltökéltség, félelem vagy bármilyen egyéb érzelem.

Szintén definiálhatjuk a színeket, hogy élénk színeket szeretnénk, pasztelles színeket, pirosat, zöldet, kéket, mi legyen az, ami dominálja a képet.

Ugyancsak beszélhetünk a kompozícióról, hogy egy egész alakos képet szeretnénk, egy közeli portrét, békaperspektívából vagy madártávlatból képzeljük el a fotót.

Akár azt is megmondhatjuk, hogy milyen objektívvel készült képre gondolunk.

Ezek lehetnek azok a legfontosabb infók, amik befolyásolják egy képnek a megjelenését.

Emellett a legtöbb képgenerátorban adhatunk meg különböző paramétereket, vagy szöveges parancsokkal, vagy gombok megnyomásával, vagy akár szöveges utasításokkal.

Ilyen lehet például a képarány. Alapértelmezetten ez legtöbbször négyzet alakú, de akár meg is lehet változtatni. Lehet 16:9, 9:16 vagy egyéb méretarányok.

Sokszor lehet használni negatív parancsokat, tehát mi az, amit nem szeretnénk látni a képen. Legyen az mondjuk egy képi elem vagy valamilyen stíluselem. Például nem szeretnénk, hogyha fekete-fehér lenne a kép.

Általában lehet befolyásolni a minőséget és a stílust is valamilyen módon. Azt érdemes tudni, hogy minél jobb minőségű, minél nagyobb képet szeretnénk, általában annál több kreditet használ.

Hogyha a parancsokhoz nemcsak szöveget lehet használni, hanem képet is, sokszor az is megadható, hogy milyen súlya legyen a felhasznált képnek.

Illetve elképzelhető az, hogy megadhatjuk a generált képeknek a számát, hogy mondjuk négyet szeretnénk vagy tízet.

Illetve arra is lehet mód, hogy visszautaljunk valamilyen korábban generált képre, és arra hivatkozzunk mondjuk egy számsor formájában. Ez akkor jöhet jól, hogyha hasonló stílusban szeretnénk alkotni, vagy mondjuk egy karaktert szeretnénk következetesen újra és újra megjeleníteni.

Emellett lehet még számos lehetőség, például a képeknek a felnagyítása, vagy van olyan, hogy zoomolhatunk, például kizoomolunk a képből és akkor hozzáad még a környezethez.

Sokszor arra is alkalmasak a megoldások, hogy csak bizonyos részeket változtassunk meg a képen, vagy simán csak kiterjesszük a hátteret.

Mire használhatod a képgenerálást?

És hogy mi mindenre használhatod ezt föl? Az első dolog, amit egyre jobban kiváltott, az a stock képeknek a használata. Ugye az ember rengeteg időt eltöltött azzal, hogy megfelelő képet találjon, most könnyebb megoldás lehet az, hogy pontosan megmondom, hogy mit szeretnék látni a képen. Ugyancsak jól használható lehet közösségi média posztokhoz, ugyanúgy mondjuk stock fotók helyett. Használhatjuk akár blogfejlécnek vagy blogposzt illusztrációnak is ezeket a képeket. Számos klasszikus grafikai területre is betette a lábát ez a megoldás, például logó inspiráció szerzéshez használják. Emellett lehet különböző vizuális elemeket létrehozni, akár ikonokat, ami weboldalon vagy applikációban használható. Akár konkrét termékek vagy csomagolások megalkotására is alkalmas, vagy legalábbis inspiráció szerzésére mindenképp. Vannak olyan megoldások, amik például rajzokból 3d modelleket készítenek. Használható például moodboard készítése is, ami mondjuk fotózásnál vagy videókészítésnél a hangulatot, pózokat, egyebeket gyűjt össze. És ha már a videónál tartunk, akkor akár storyboardok is létrehozhatók a képgenerálás segítségével, ami korábban sokkal nagyobb munka volt. De akár olyanokra is gondolhatunk, hogy hogyan dekorálunk egy helyiséget. Ezt is könnyedén le lehet modellezni a mesterséges intelligencia és a képgenerálás segítségével.

A 4 legfontosabb képgenerátor összehasonlítása

Ahogy említettem, négy képgenerátort érdemes megnézni. Az első, a Midjourney, a második az Open AI által fejlesztett Dall-E, a harmadik a Stability AI – Stable Diffusion, ami elérhető például a Dreamstudión és a Clipdropon belül, ami szintén Stability AI fejlesztés, de egyéb alkalmazásokban is a nyílt forráskód miatt. Ilyen például a Playground, vagy a Lensa, de még számtalan másik is. A negyedik pedig az Adobe Firefly.

A Midjourney jelenleg a Discordon keresztül érhető el, amiről van egy külön videóm, ha esetleg gondot okoz a használata, akkor ott bemutatom, hogy hogyan kell telepíteni és elindítani. A Dall-E-nak a jelenlegi hármas verziója a ChatGPT Plus előfizetésen belül érhető el, akár a webes felületen keresztül, akár az alkalmazásban.

A különböző Stable Diffusionös megoldások pedig akár weben, akár alkalmazásban attól függően, hogy melyikről van szó. Az Adobe Firefly pedig kipróbálható mind a weben, mind pedig olyan Adobe programokban, mint a Photoshop vagy az Illustrator.

Jelenleg a Midjourney és a Dall-E 3 fizetős verzióban próbálható ki, a Stable Diffusion és a Firefly ingyenesen is kipróbálható.

Három nagy területen szoktuk a képgenerálást használni.

Az első az, amikor teljesen új képet hozunk létre. Erre igazából mindegyik megoldás alkalmas.

A második terület, amikor saját fotót szeretnénk módosítani. Erre a Midjourney-ben, illetve a Dall-E 3-ban jelenleg nincs lehetőség. Ellenben mind a Stable Diffusionös megoldások, mind a Firefly támogatja azt, hogy saját fotót módosítsunk. Mire kell gondolni? Például a háttér kiterjesztésére, bizonyos elemek eltávolítására vagy hozzáadásához a képhez.

A harmadik terület pedig a több kép kombinálása. Amire a Midjourney-ben, illetve a Dall-E-ban korlátozottan van lehetőség, hiszen ezeket a képeket parancsokként értelmezi, nem pedig megtanulja őket, vagy azokból indulna ki.

Ezzel szemben mind a Stable Diffusionös megoldások, mind a Firefly esetében van lehetőség több kép kombinálására, ez azonban a legtöbbször nem egy egykattintásos munka, hanem utólag is dolgozni kell rajta. Éppen ezért talán a legkényelmesebben az Adobe Firefly segítségével végezhető a Photoshopban, hiszen az a grafikai munkákhoz leggyakrabban használt alkalmazás.

Ami a tanítást illeti, tehát azt, hogy saját képeket tölthetsz-e fel, a Midjourney és a Dall-E 3 esetében nincs erre lehetőség, ahogyan mondtam, parancsokként értelmezi a feltöltött képeket, nem pedig megtanulja őket. Bizonyos Stable Diffusionös megoldásoknál van lehetőség a rendszer tanítására, ilyen például a Lensa, amivel létrehozhatsz avatarokat a saját fotóid alapján. Az Adobe Firefly esetében nincs ilyen lehetőség.

Érdemes azt is megnézni, hogy különböző hírességeknek az arcképét le tudod-e generálni. A Midjourney, illetve a Stable Diffusion erre általában lehetőséget ad. A Dall-E 3-ban erre nincs közvetlenül lehetőség, de némi trükközéssel hasonló eredményt érhetünk el. A Firefly-ban ez kifejezetten nincs.

Képmás: Jogi és etikai kérdések

Itt viszont muszáj az etikai és a jogi vonatkozásokról beszélni, hiszen valakinek a képmása az egy személyes adat, és ezt az ő hozzájárulása nélkül nem lehet felhasználni. Akkor sem, hogyha hírességről van szó. Voltak például perek is ebből, hogy egy hírességnek legenerálták a fotóját és azzal hirdettek. Ez meglehetősen félrevezető visszaélésre ad alkalmat, illetve természetesen ilyen esetben nincsen honorálva a híresség azért, hogy az ő képmását használják.

Ami pedig a szabályozást illeti, a Midjourney és a Stable Diffusion esetében viszonylag enyhe szabályok vannak, elég sokféle képet lehet alkotni. A Dall-E esetében ez már korlátozottabb, a Firefly-nál pedig kifejezetten erős szabályok vannak. Ez azt jelenti, hogy gyakran belefuthatsz abba, hogy bizonyos parancsokat nem hajt végre, mert azt mondja, hogy a felhasználói elvekkel ellenkezik.

Ami általánosságban a felhasználási feltételeket illeti, mindig tisztában kell lenned azzal, hogy mire használhatod fel a képeket. Tehát használhatod-e például kereskedelmi céllal, hirdetésekben.

Az is fontos, hogy ők mire használják fel a képet, illetve adott esetben a személyes adataidat, amiket a regisztrációnál megadsz. Mi az, amihez hozzáférnek, és ezt mire fogják felhasználni.

Azt is érdemes tudni, hogy publikus-e a kép, amit készítesz, hiszen előfordulhat, hogy a kreálmányaid kikerülnek nyilvánosan az internetre.

Mi az, amit tilos generálni?

Ami minden esetben tilos, az a felnőtt tartalmaknak a létrehozása, a különböző sokkoló vagy félrevezető tartalmak, a hamis hírek alapjául szolgáló képek, vagy valamilyen politikai célokat szolgáló manipulált képek. Ugyancsak tilos mindig a személyes adatoknak a használata. Ami pedig nem etikus és jogi kérdéseket is felvet, az pedig valakinek a képmásának a használata, még akkor is, ha hírességről van szó. Nem nehéz belátni, hogy komoly veszélyeket vet fel ez az egész, hiszen bárki készíthet olyan alkalmazást, amivel akár azokat a képeket is létrehozza, amik a legtöbben tiltva vannak. Akiről elég kép van az interneten, annak az arcára megtanítható a rendszer. Hasonló a helyzet a hanggal és a videóval is. Az utóbbi még eléggé gyerekcipőben jár, de a hanggal már nagyon komoly eredmények vannak. Szóval, ha valakiről képek, videók, hanganyagok vannak az interneten, akkor az ő képmásával simán visszaélhetnek. Ez komoly felelősség és messze túlmutat ennek a videónak a keretein.

A Midjourney használata

Most pedig nézzük meg az említett megoldásokat a gyakorlatban, hogy hogyan is kell őket használni.

A Midjourney-t, ahogy említettem, a Discordon keresztül lehet használni, itt épp a Midjourney bottal chatelek. Hogyha nem tudod, hogy hogy juss el idáig, akkor ajánlom a már említett videómat, amiben bemutatom a Discordnak a telepítését, illetve a használatát. Hogyha nyomunk egy per jelet (/), akkor feljönnek a különböző parancsok.

Az imagine-nel tudunk képet létrehozni, a blenddel tudunk több képet összedolgozni, de ahogyan mondtam, ezeket parancsokként értelmezi, tehát nem a képnek az egyes részleteit fogja így egybetenni, és nem egy kompozit képet fog létrehozni.

A settingsben pedig megnézhetjük a beállításainkat. Ezen kívül is vannak funkciók, ezekről lehet tájékozódni a Midjourney dokumentációjában. A settingset érdemes megnézni. Itt ugye látszik, hogy a legutóbbi modellt használjuk, lehet raw módot választani, illetve különböző stilizálási mértékeket. Én az alapértelmezetten hagytam.

Ugye látszik, hogy publikus módban vagyunk, ez azt jelenti, hogy az általunk generált képet mások is látni fogják. Remix módban vagyok, mert így könnyebben tudom utólag módosítani a parancsokat. Nagyobb variációs különbségek lesznek a létrehozott képek között ezzel a beállítással. A többi is alapértelmezetten van nekem hagyva.

Nézzük meg az imagine parancsot. Ahogy korábban említettem, elmondjuk, hogy mit szeretnénk a képre, milyen kivágásban, milyen környezetben, milyen hangulatban, amit éppen kigondoltunk. A végére pedig paramétereket lehet illeszteni, amiből én most az aspect ratiót, azaz a képarányt használom, aminél szeretném, ha 2:3 lenne. Hogyha ezt nem írom a végére, akkor az alapértelmezett négyzetes képet fogja használni.

Elkészültek a képek, meg tudom őket nézni nagyobban, és amelyik a legjobban tetszik, mondjuk a negyedik, abból generálhatok egy nagyot. Ezt az upscale segítségével tudom megtenni, ugye ez jelzi a képek számát. Hogyha szeretnék valamiből még további variációkat, azt pedig ezzel tudom megtenni. Mivel remix módban vagyok, itt változtathatnék a definíción, mondjuk hozzáadok egy hangulatot. Kiválasztom a képet, amelyik a legjobban tetszik, mondjuk az elsőt is felnagyítom.

Ilyenkor újabb lehetőségek jönnek elő. Például tudok zoomolni, és többet rátenni a képre. Megint csak ki fogok választani egy képet, mondjuk az elsőt. Azt szeretném, hogy mondjuk a lába is rajta legyen a képen, ahhoz megnyomom ezt. Tehát kiterjesztette nekem a képet még lent a lába felé.

Változhatok csak bizonyos régiókon is. Erre többféle lehetőségem van, vagy ilyen négyzetes kiválasztást tudok választani, vagy lasszót. És beírom, hogy mit szeretnék. És simán előfordul, hogy nem hozza a várt eredményeket, mint például ebben az esetben sem. Megpróbáljuk még egyszer, kijelölök egy nagyobb területet. Ebből már látható, hogy nem biztos, hogy a Midjourney-vel próbálnám ezeket a változtatásokat megtenni. Most itt egyetlen egy képre volt hajlandó rátenni egy pillangót.

Nézzük meg, hogy hogyan változik a képünk, ha más parancsot adunk meg. Itt csupán annyit fogok változtatni, hogy egy közelebbi portrét kérek. Itt benne felejtettem a full body-t, ami valószínűleg nem túl szerencsés, de látszik, hogy közelebbi képet kaptunk, hiszen az elején a parancsnak hangsúlyosabb.

Most pedig változtassuk meg a helyszínt. Itt már egy futurisztikus cyberpunkos városi képet kértem narancssárga és türkiz neonlámpákkal. Itt például bevezethetjük a no parancsot, hogyha nem szeretnénk rá szemüveget. Itt viszont látszik, hogy a No parancs miatt gyakorlatilag elveszítettük Brad Pittet a képről, úgyhogy korlátozottak lehetnek a lehetőségeink abban, hogy milyen kontrollunk van a kész képre.

Nézzünk meg egészen más stílusokat. Itt annyit fogok változtatni a korábbiakhoz képest, hogy egy vízfestékes képet kérek. Mivel a fotójellemzőnk még mindig benne van, ezért elég realisztikus, fotószerű, de mégis vízfesték hatású képet kapunk.

És nézzünk meg még egy utolsó stílust. Ez ceruzarajz lesz. Ismét nagyon szép eredményeket kaptunk.

Ahogyan korábban említettem, nem lenne szép dolog ezeket a képeket bármire felhasználni. Illetve ha nem egy olyan ismert emberről van szó, mint mondjuk Brad Pitt, hanem akár egy kevésbé ismert színészről, akkor valószínűleg nem fogja őt annyira jól megrajzolni.

Itt a korábbi parancsunkhoz képest mindössze annyit tettem, hogy kicseréltem Brad Pittet Cillian Murphy-re. Látszik, hogy egy hasonló karakter, de messze nem hasonlít annyira, mint Brad Pitt hasonlított Brad Pittre a képeken.

Érdemes még azt is megnézni, hogy hogyan tudunk könnyen összemosni képeket. Ezt a blend paranccsal tudjuk megtenni és itt hozzá is adhatjuk a fotókat. Ugye további kép hozzáadására is van lehetőségünk. És akár itt is megadhatjuk a dimenziókat. Legyen itt landscape. Itt ugye a végére hozzáadta ezt a 3:2-es képarányt. De ez lehetne akár 16:9 vagy 9:16 is, hogyha kézzel vesszük fel a parancsot. Ez a blend leginkább ilyen játékra vagy inspirációra jó.

Használhatunk egyébként képeket parancsokban is. Ehhez fel kell őket töltenünk a Discordra, vagy akár az internetről máshonnan is be tudjuk linkelni. Jobb klikkel kivesszük a képnek a linkjét, copy link, imagine, következő, következő, és elmondhatjuk azt is, hogy mit szeretnénk a képre.

Így már sokkal izgalmasabb képeket kaptunk. Lehet egyébként befolyásolni azt is, hogy a különböző képeknek, meg a szöveges parancsoknak mekkora legyen a súlya. Hogyha valakit érdekelnek ezek a részletek, akkor a Midjourney dokumentációjába pontosan le van írva, hogy hogyan működik.

Ennyit a Midjourney-ről bízom benne, hogy hasznos volt ez a bemutató.

A Dall-E 3 használata

A Dall-E előző verziója egy saját dedikált felületen volt elérhető, ahol nemcsak képet lehetett generálni, hanem szerkeszteni is a fotót. Jelenleg, ahogy említettem, a ChatGPT Plus előfizetésen belül érhető el a legfrissebb verziója. Várható majd szerintem, hogy ezek a képszerkesztési funkciók is megérkeznek majd.

Nagy különbség a többi megoldáshoz képest, hogy itt ugyanúgy beszélgethetünk, mint egyébként a ChatGPT-vel, tehát nem kell annyira specifikus parancsokat adnunk vagy paramétereket használnunk, mint a többi megoldásnál, hanem egy beszélgetésből alakulhat ki a fotó.

El is készítette ezt a képet, látszik, hogy egyáltalán nem hasonlít Brad Pittre, az ilyen jellegű parancsokat egyszerűen nem veszi figyelembe. Kicsit hasonlóbb eredményt értünk el, de láthatóan nem akarja nekünk a konkrét személyt megcsinálni. Itt sikerült egy hasonló karaktert generálnunk, annak ellenére, hogy egy konkrét embernek a jellemzőit nem szívesen rakja rá a képre.

Úgy gondolom, hogy a további parancsok hatására egy fotószerűbb képet sikerült kicsalogatni belőle, nem annyira elkent, ilyen AI-os, hanem egy picit inkább fotó hatású lett. Amikor finomítod a parancsokat, akkor érdemes ilyeneket beletenni, hogyha szeretnéd, hogy inkább egy fényképre hasonlítson a kreálmány, mintsem egy ilyen mesterséges intelligencia karakterre. Itt ugye látszik, hogy egy beszélgetés jellegű az egész kommunikáció, visszajelzést adok a képre és elmondom, hogy milyen szeretném, hogy legyen.

Ez már sokkal jobban tetszik egy vízfesték rajznak. Hogyha szeretnék több verziót, akkor kérhetek többet, vagy lehet más a méretarány is.

Úgy gondolom, hogy ez talán a legegyszerűbb megoldás, ami mindenkinek a lehető legkönnyebben használható. Itt viszont ugye utólagos szerkesztésre nincs lehetőségem.

Próbálkozzunk meg még egy képi paranccsal is. Látszik, hogy az eredeti képet viszonylag kevésbé vette figyelembe. Illetve arra sincs lehetőségem, hogy a képnek csak bizonyos részein változtassak.

A Playground AI (Stable Diffusion) használata

A Stable Diffusion alapú megoldások közül nekem a Playground tetszik a legjobban, úgyhogy ezt fogom megmutatni. Ennek is van két felülete, ahol tudunk generálni, vagy itt a boardon, vagy itt a canvas-ön. Látszik, hogy választhatunk valamilyen filtert, ami tulajdonképpen egy stílusnak a definíciója. Hogyha ilyen realisztikus képeket szeretnénk, fotó jellegűeket, akkor ezt a realistic stock photót érdemes kiválasztani. Hogyha valamilyen ilyen elvontabbat választunk, akkor sokkal inkább ilyen mesterséges intelligencia jellegű műkaraktereink lesznek, viszont a realistic stock photóval inkább emberekre hasonlít.

Ide tudjuk beírni azt, hogy mit szeretnénk látni a képen, illetve vannak további kontrollok is. Például az, hogy mi ne legyen rajta a képen. Itt alapértelmezetten be vannak írva olyan dolgok, hogy ne legyen csúnya, deformált és egyéb kapcsolódó dolgok.

Itt tudunk ugye képet feltölteni, amit akár parancsként, akár szerkesztésre lehet használni, úgyhogy itt már tudjuk majd szerkeszteni a képet.

Itt modellt tudunk választani, van egyébként nekik saját modelljük is, Playground. Én a Stable Diffusiont fogom itt kiválasztani. Meg lehet adni a képnek a méreteit, hogy mennyire vegye figyelembe a promptot, milyen minőségű legyen, illetve még vannak egyéb beállítások is.

Át fogok menni a canvas-re és itt fogok képet készíteni. Az egyszerűség kedvéért ugyanazt a parancsot fogom használni, amit a Midjourney esetében.

Fontos azonban látni, hogy a különböző megoldásoknál elképzelhető, hogy máshogy érdemes felépíteni a parancsokat. Mindig olvasd el a dokumentációt és akkor képben lehetsz, hogy éppen hogyan érdemes promptolni. Néha már akkor is más promptokat érdemes megadni, ha csak magát a modellt fejlesztették.

Itt a Playgroundon egy nagyon jó funkció, hogy be lehet kapcsolni ezt a Priview rendert. És ez ad egy ilyen előnézetet arról, hogy mi is lesz rajta a képen. Tehát itt nem feltétlenül kell azonnal legenerálnom a kész képet ahhoz, hogy meg tudjam nézni, hogy körülbelül mi lesz rajta. Ez nagyon nagy segítség tud lenni, hiszen a többinél mindig újra és újra próbálkozik és várakozik az ember, itt pedig van egy ilyen előnézeti lehetőség.

Ennél közelebb nem hajlandó hozni most nekünk, úgy tűnik, még egy picit sikerült közelebb hozni. Jó, és most generáljuk le a képet.

Itt is lehet, hogy még érdemes lenne hozzáadnunk néhány dolgot ahhoz, hogy még realisztikusabb eredményt kapjunk.

Nézzük meg a másik témánkat is. Itt ugye választhatunk méretarányt, hogy milyet szeretnénk, és nézzük meg itt is a különböző stílusokat.

Itt ugye a különböző jellemzők miatt láttam, hogy nem fekete-fehér volt, hanem színesre vette a képet, ezeknek az eltávolításával értem el, hogy valóban egy ceruzarajz legyen belőle.

Most pedig nézzük meg a saját kép hozzáadását. Ugye, ha ide töltöm fel a képet, akkor egész egyszerűen mintegy parancsot veszi figyelembe. Bizonyos mértékben. Hogyha 100%-ra rakom, akkor elvileg legenerálja az azonos képet, de ez nem lesz teljesen így.

Ilyenkor nem működik a Preview, hogyha képet használunk, úgyhogy le kell generálnunk a fotót. Látszik, hogy valamilyen szinten figyelembe vette az eredetit, de sok köze nincsen hozzá.

Be is húzhatjuk a saját fotónkat egyébként a canvas-re és akkor szerkeszthetjük. Ez ugye meglehetősen nagy lesz, úgyhogy le fogom kicsinyíteni.

Mondjuk szeretnék ide egy nyakláncot. Hát nem pont ilyet képzeltem volna el, úgyhogy megpróbálom egy picit jobban definiálni ezt a dolgot. Ugye az előző verziónál figyelembe vette azt, hogy mit rajzoltam, itt pedig egész egyszerűen csak kijelöltem egy területet, hogy hova szeretném azt a tárgyat. Azt mondanám, hogy ez se a világ legjobb cowboy kalapját hozta létre.

Nyilván nem a világ legszebb ruhája lenne, ha pontosabb definíciókat adunk, illetve sokat kísérletezünk, állítgatjuk az értékeket, akkor egészen jó eredményeket is elérhetünk bizonyos esetekben.

Az Adobe Firefly használata

Nézzük meg még a negyedik megoldást is, ami az Adobe Firefly. Ez ingyenesen kipróbálható jelenleg az Adobe-nak a honlapján.

Van lehetőség arra, hogy szövegből képet generáljunk, illetve itt is ki tudjuk próbálni a Generative Fillt, ami a Photoshopban is elérhető. Tehát itt ilyeneket tudunk csinálni, ami itt látható a képen, hogy például ruhát cserélünk az emberen.

Nézzük meg először a szövegből képgenerálást. Barátságos ez a felület abból a szempontból, hogy itt látjuk a feedet, amit mások létrehoztak, és ha fölé visszük az egeret, akkor azonnal látjuk, hogy milyen parancsok alapján születtek meg ezek a képek.

Ide beírhatjuk a saját parancsunkat és a jó hír az, hogy magyarul is lehet parancsot adni a Firefly-nak. Ettől függetlenül én jobban szeretem az angol parancsadást, mert ott kevesebb kommunikációs elcsúszás szokott lenni, bár hozzáteszem, ott is azért előfordulhat.

Itt látszik, hogy egészen szép fotórealisztikus eredményt kaptunk. Van itt is egy sor beállítás például, hogy milyen legyen a méretarány, hogy fotó vagy művészeti jellegű legyen. Itt lehet képet feltölteni referenciaként, illetve különböző stílusok közül is lehet választani és technikák közül.

Mivel kifejezetten stock fotókon volt tanítva az adatbázis, látszik ez a szemlélet itt is a különböző opcióknak a választásában. Még azt is kiválaszthatjuk, hogy milyen rekeszérték mellett készült fotót szeretnénk, vagy milyen zársebesség mellett. Itt pedig az objektív gyújtótávolságát választhatjuk ki, hogy nagylátószöget szeretnénk, vagy telét. Itt pedig megadhatjuk, hogy ha valamit szeretnénk kihagyni a képről és nézzük meg, hogy milyen képet kapunk ezekkel a finomításokkal.

Itt már egy picit hozzáteszem, szétesett a kutyusunk. És nem kaptuk azt a 200 mm-es hatást sem egyébként, amit beállítottunk. Érdemes arra figyelni, hogyha nagyon korlátozni próbáljuk, hogy milyen legyen a kép, akkor rosszabb lehet az eredmény, mintha hagyjuk érvényesülni a modellt. Én azt gondolom, hogy ezek a személyre szabások még eléggé gyerekcipőben járnak.

Nézzük meg azt is, hogy mit csinál a korábbi promptunkkal, amit használtunk a többiben. Itt biztosan lesz benne olyan elem, amit nem hajlandó nekünk megcsinálni, hiszen konkrét személyeket nem fog létrehozni. Sőt, az egyik képen nő szerepel. Itt látszik, hogy néhány szó el lett távolítva, mert nem felelt meg a felhasználói feltételeknek.

Megváltoztatjuk még a méretarányt is portréra, és még így is van benne valami, amit nem hajlandó nekünk legenerálni. Lehet, hogy a márkanév volt a probléma.

Látszik, hogy már az se nagyon hajlandó nekünk figyelembe venni, hogy teljes alakos kép legyen. Esetleg megpróbálkozhatunk egy nagyobb látószögű lencsével. Így mondjuk több félalakos képet kaptunk, a minőség viszont láthatóan nem lett jobb tőle. Nézzük meg a különböző stílusokat is.

Menjünk vissza a nyitólapra és próbáljuk ki a Generative Fillt is, amivel a meglévő fotónkat tudjuk módosítani.

Próbáljuk ki, hogy egy új ruhát teszünk ide például. Itt fontos az, hogy ne csak azt jelöljük ki, amit el szeretnénk tüntetni, hanem az, hogy mekkora terület van kijelölve, az hatással lesz arra, hogy milyen kép készül a végén. Tehát, hogy mi az a terület, amit megpróbál mással kitölteni. Több verziót is készített. Maradjunk ennél az utolsónál.

Kijelölhetjük a hátteret és ki is cserélhetjük valamire. Hát nem mondanám, hogy a világ legszebb kivágása lett, ezeket a típusú dolgokat jobb Photoshopban csinálni.

De érdemes kipróbálni itt a Firefly felületén is akár, hogyha nincs hozzáférésed a Photoshophoz.

Képgenerálás Photoshopban: Generative Fill és Expand

A Photoshop Generative Fill és Generative Expand használatáról több külön videóm is van, de azért nem szeretném teljesen kihagyni ebből sem.

Úgyhogy most egész más témát választottam, méghozzá termékfotókat. Ezeket a Pexels oldaláról töltöttem le.

Meg fogjuk nézni, hogy mit lehet Photoshopban néhány kattintással kihozni belőlük.

Először is készítek egy másik kivágást a képből, tegyük fel, hogy sztoriba szeretném ezt. Itt ugye használhattam volna a kitöltésnél a Generative Expandet is, amit meg is mutatok mindjárt. Ezt akkor érdemes használni, hogyha az alapján szeretnénk kitölteni, amit már most látunk a képen.

Hogyha kiválasztjuk bármelyik kijelölő eszközt, akkor a Select Subject lehetőséget választva kijelöli nekünk a témát. Én ezt a felhőben szeretem elvégezni, mert akkor pontosabb eredményt ad. Bejelölöm, hogy Select Subject, ami kijelöli a témámat. Innentől kezdve akár itt is navigálhatok, ezzel ellentétes kijelölést teszek és generálok egy új hátteret.

És ugye választhatok a különböző megoldások közül. Valamelyik jobban sikerült, valamelyik kevésbé jól. Ezen utólag is módosíthatok, mondjuk egy lasszó eszközzel kijelölöm, hogy itt szeretném, hogyha lenne egy szikla.

Ebből látszik, hogy az első hozta a legjobb eredményt, és első ránézésre nem néznek ki rosszul ezek a fotók, de ha jobban megnézzük, nagyon messze van egy profi termékfotótól. Itt például egyáltalán nem vettem figyelembe azt, hogy hogyan volt ez a termék eredetileg megvilágítva és egy naplementés hátteret kértem hozzá. Itt ugye nem hátulról érkezett a fény, tehát kilóg a lóláb igazából. Nézzünk meg egy másik példát is.

Tegyünk ide mondjuk egy ilyen vízsugarat. Hát láttam már szebbet életemben, de megteszi. Látszik, hogy még a hátsó üvegek is becsillannak benne.

Tegyünk még mondjuk jégkockákat a képre. Tehát látszik, hogy viszonylag könnyen hozzáadhatunk különböző elemeket a képhez, ezeknek a minősége és konzisztenciája viszont nem biztos, hogy olyan, amit elképzeltünk volna, annak ellenére, hogy ez egy igen komoly stock adatbázison volt kiképezve.

De nem vagyunk messze attól, hogy egy viszonylag gagyi mobilos fotóból egy egészen vállalható, szép hátterű kép keletkezhessen.

Viszont biztosan nem váltja ki a magas szintű termékfotózást, aminek viszont a munkafolyamatait rettenetesen megkönnyítheti a mesterséges intelligencia használata.

Nem gondolom, hogy egy átlagember egy nagyon magas színvonalú szép termékfotót fog tudni készíteni, akkor sem, ha lesznek viszonylag egyszerűbb megoldások erre.

Hogyha fontos, hogy egy koncepció teljesen pontosan legyen kivitelezve és következetesen, több képen átívelve legyen megvalósítva, arra jelenleg még nincsenek ilyen egyszerű megoldások.

Pro tippek képgeneráláshoz

Egy utolsó pro tipp, amit nagyon ajánlok mindenkinek, az az, hogy nézegesse az adott képgenerátorral készült képeket. A Midjourney-nél például itt van ez az Explore Page, és itt meg lehet egészen pontosan nézni, hogy mi volt az a prompt, ami alapján készült a kép és ezt le is lehet másolni.

Ugyanígy a Playgroundnak is van hasonlója. Itt ugye nemcsak a promptot látjuk, hanem a negatív promptot, illetve a különböző beállításokat, amiket láttunk a Playgroundnak a felületén. És az Adobe Firefly-nál pedig már a generálás során is láttuk, hogy meg lehet nézni, hogy milyen parancsokra jöttek létre a képek.

Ezekből nagyon sokat lehet tanulni, és hogyha tetszik valamelyiknek a stílusa, megjelenése, vagy ami van rajta, akkor ezeket tudod inspirációképpen használni.

Az biztos, hogy ha ugyanazt a parancsot használod, akkor se lesz ugyanaz a kép, de ez abból adódik, amit az elején elmondtam, hogy hogyan is működnek ezek.

Remélem, hogy hasznosnak találtad ezt a videót, és hogyha igen, akkor ne felejts el feliratkozni a csatornámra és hagyj kérlek egy kommentet, amivel jelzed az algoritmusnak, hogy tetszett ez a tartalom. 

Ha tetszett a bejegyzés és szeretnél értesülni a hasonló anyagokról, akkor iratkozz fel az email értesítőre!

Oszd meg!

Ez is érdekelhet

Exif

Milyen beállításokkal készült ez a fotó? Avagy: mire jó az EXIF és mire nem (VIDEO)

A kezdő fotósok egyik leggyakoribb kérdése, hogy milyen felszereléssel és beállításokkal készült egy fénykép. Sokszor pedzegettem már, hogy ez nem a legfontosabb kérdés egy fotóval kapcsolatban, de érdemes megnézni, hogy honnan tudhatók meg ezek az adatok, mire jók és mire nem. https://www.youtube.com/watch?v=dEWt6-XXsFEFeliratkoztál már a YouTube csatornámra? Milyen beállításokkal készült ez a fotó? Avagy: mire jó az

Tovább olvasom »
5 hiba, amit ne kövess el photoshopban

5 Photoshop hiba, amit ne kövess el! (VIDEÓ)

Kezdő és akár haladó fotósként is könnyű beleesni ebbe az 5 utómunka hibába. Mutatom azt is, hogy hogyan kerüld el őket! https://youtu.be/FnctKLZ6znwFeliratkoztál már a YouTube csatornámra? 5 Photoshop hiba, amit ne kövess el! A videóban elhangzó szöveg leirata <p>Mik azok a képszerkesztési hibák, amik azonnal elárulják, hogy kezdő vagy a fotózásban? Ha érdekel a fotózás és

Tovább olvasom »
photoshop lightroom újdonságok

Képgenerálás Photoshopban és háttérelmosás Lightroomban (VIDEÓ)

Lightroom és Photoshop újdonságok, amikről fotósként tudnod kell! Háttér elmosása utólag, illetve a képek javítása, átalakítása néhány kattintással a mesterséges intelligencia segítségével! A Lens Blur és Point Color használata Lighroomban és a Generative Fill és Expand alkalmazása Photoshopban. Mit szólsz ezekhez a funkciókhoz? https://youtu.be/V8pdzwb8BO0Feliratkoztál már a YouTube csatornámra? Képgenerálás Photoshopban és háttérelmosás Lightroomban a videóban elhangzó

Tovább olvasom »

Szólj hozzá!

Scroll to Top