Mesterséges intelligencia – képgenerálás a webdesigner munkában

Bejegyzésünkben az AI alapú képgenerálását járjuk körbe, és rámutatunk arra, hogy mindezt webdesignerként hogyan tudjuk hasznosítani.

Mint ahogyan már korábbi bejegyzéseinkben felfedtük, a mesterséges intelligencia itt van, velünk van, a webdesignerek munkáját is fokozatosan átszövi. Az élet minden területen jelen lesz – egy olyan forradalom küszöbén állunk, amely minden iparágban egyszerre zajlik és a képességek újraelosztása történik. Nem versenyezni kell a mesterséges intelligenciával, hanem meg kell tanulni együttműködni vele, és akkor a képességeit a saját javunkra tudjuk fordítani. Az AI nélkül különböző képességűek vagyunk, de a MI használatával bárki kitolhatja a határait. Webdesignerként is számos területen hadra foghatjuk a mesterséges intelligenciát, mint például a képgenerálás területén – különleges „fotós bőrbe” bújhatunk, és csodákat alkothatunk vele.

Nos, elmondható, hogy 2023 a chatGPT éve volt, azé a mesterséges intelligencia alapú programé, amely képes emberi nyelven kommunikálni, szövegeket generálni, kérdésekre választ adni, információkat keresni. Minderre azért képes, mert óriási mennyiségű szöveges adatból tanult, illetve folyamatosan tanítják. Olyan, mint egy nagyon okos chatpartner. A chatGPT az ún. nagy nyelvi modellen alapul. A nagy nyelvi modell (LLM = large language modell) egy mesterséges intelligencia rendszer, amely hatalmas mennyiségű szöveges adatból tanul, hogy megértse és generálja az emberi nyelvet. A chatGPT nevében található GPT pedig a Generative Pre-trained Transformer-re utal, mely egy fejlett nyelvi modell. (Generatív = új szöveget hoz létre; Pre-trained = előre betanított; Transformer = lehetővé teszi a modell számára, hogy egyszerre dolgozzon fel nagy mennyiségű adatot és hatékonyan tanuljon a szövegek összefüggéseiről). Az OpenAI fejlesztette ki, már több GPT modellt is kiadtak, jelenleg (a bejegyzés írásakor) a GPT-4, a GPT-sorozat negyedik tagja áll a porondon. A GPT modelleket nagy mennyiségű adaton tanították fel, hogy megtanulják a nyelv struktúráját, szabályait és mintázatait, és így képesek legyenek a természetes nyelv feldolgozására és generálására, de nemcsak válaszolni tudnak a kérdésekre vagy elemezni szövegeket, hanem képesek új szöveget (cikkeket, történeteket, kódokat) létrehozni, összefüggéseket felismerni. Továbbá specifikus feladatokhoz vagy témákhoz lehet őket finomhangolni, specializálni, például ügyfélszolgálati chatbot, fordító vagy szövegelemző rendszer is készíthető velük.

2024 pedig a képgenerátorok kora, ugyanis leglátványosabban most ezek az AI alapú alkalmazások fejlődnek. Jelenleg ezek vannak abban a fázisban, melyben tavaly volt a chatGPT.

Hogyan működnek a mesterséges intelligencia alapú képgenerátorok?

A működésük megértéséhez szükséges néhány alapfogalmat tisztázni:

promptok, iterálás

Ahogyan például a chatGPT számára, úgy a képgenerátorok számára is pontosan meg kell fogalmazni szavakkal a gondolatainkat, ugyanúgy ember-gép párbeszéd zajlik, ugyanúgy promptokat, tehát utasításokat kell nekik adnunk. Az, hogy milyen és mennyire lesz kreatív a végeredmény, azaz a kért fotó, egyéb vizuális tartalom, ebben az esetben is attól függ, hogy mennyire tudunk együttműködni a mesterséges intelligenciával, mennyire hatékonyan kommunikálunk vele, az mennyire tudja a lehető legpontosabban értelmezni és teljesíteni a kérésünket. És általában nem elég egy prompt, azaz nem elég egy parancs, hanem sok-sok, egymás után folyamatosan finomított promptot kell adni az adott képgenerátornak, hogy végül a megfelelő eredményt kapjuk.

Az egymás után változtatott utasítások megadásának a folyamatát iterálásnak nevezzük. Az AI képgenerátor előállít egy kezdeti képet a megadott bemenet alapján. Ha ez a generált kép nem felel meg az elképzeléseinknek, akkor pontosítjuk a promptot, részletesebb, konkrétabb, specifikusabb promptot fogalmaznunk meg, újra (és újra) beadjuk neki, és a modell ez alapján módosítja a paramétereit, azaz a finomított modell létrehoz egy új képet, ami várhatóan már (jobban) megfelel az előzetes elképzeléseinknek. Ha nem így lenne, akkor az iterálás, vagyis a generálási folyamat többször megismételhető egészen addig, amíg meg nem születik a várt végeredmény, a „tökéletes” generált kép. Az iterációk során a modell egyre jobban megtanulja, hogyan kell a bemeneteket optimálisan feldolgozni, hogy a lehető legjobb eredményt érje el.

Tehát a képgenerátorok számára is szöveges parancsokat adunk meg, és ezekből hoznak létre képeket, vagyis „text to image” elven működnek. Ahogyan más MI alapú program, úgy a képgenerátorok is kóddá, pontosabban számsorozattá alakítják a kapott bemenetet, azaz „lefordítják” a szöveget számukra értelmezhető kódokká, és a kódok alapján készítik el a képet.

A képgenerátorok számára angolul kell megadnunk a szöveges parancsot, hiszen „ezen a nyelven értenek” a legjobban.

Példaként egy nagyon egyszerű iterálási folyamat bemutatása, avagy a kiinduló promptot milyen egyéb információkkal egészítettük ki, hogy az elképzelt végeredményt kapjuk:

NLP

A képgenerátorok a szöveges utasítást az NLP, azaz a Természetes Nyelvfeldolgozás segítségével dolgozzák fel.

A Természetes Nyelvfeldolgozás (NLP) a mesterséges intelligencia egyik ága, amely az emberi nyelv megértésével és feldolgozásával foglalkozik. Az NLP alapvetően két fő folyamatot tartalmaz: a nyelv értelmezését, amely a beszéd vagy a szöveg jelentésének megértésére irányul, és a nyelv generálását, amely az információk kommunikálását célozza meg emberi nyelven.

Az NLP a mesterséges intelligencia alapú képgenerátorok esetében azt biztosítja, hogy a felhasználók szöveges leírásai pontosan és hatékonyan legyenek értelmezve és feldolgozva, így a generált képek pontosan megfeleljenek a felhasználói elvárásoknak.

1. Szövegértés: A felhasználó beír egy leírást vagy utasítást, például „rajzolj egy naplementét a tengerparton”. Az NLP rendszer feldolgozza ezt a szöveget, és megérti, hogy milyen elemeket és tulajdonságokat kell tartalmaznia a generált képnek.

2. Kulcsszavak és kontextus kinyerése: Az NLP algoritmusok azonosítják a kulcsszavakat (például „naplemente”, „tengerpart”) és a kapcsolódó attribútumokat (például színek, időpont, hangulat), hogy pontosan megértsék a felhasználói igényeket.

3. Kép generálása: Az így nyert információ alapján a képgenerátor algoritmus létrehozza a kívánt képet. Ehhez gyakran ún. mélytanulási technikákat, például Generatív Adverzáriális/Ellenfél Hálózatokat (GAN-okat)* használnak.

4. Finomhangolás és visszajelzés: Az NLP visszajelzést is feldolgozhat a felhasználótól, például további szöveges utasításokat a kép módosításához vagy finomításához.



GAN modell

A GAN modell, vagyis a Generatív Ellenfél Hálózat egy speciális típusú mesterséges intelligencia, egy gépi tanulási keretrendszer, mely két neurális hálózatból áll: egy generátorból és egy diszkriminátorból, amelyek egymással versenyeznek (ezért „adverzáriális”).

A generátor feladata, hogy új, valósághű adatokat (például képet, szöveget vagy hangot) hozzon létre, amelyek hasonlítanak a tanító adathalmazra. Célja, hogy olyan adatokat állítson elő, amelyeket a diszkriminátor nem tud megkülönböztetni a valódi adatoktól.

A diszkriminátor feladata, hogy megkülönböztetést végezzen az igazi és a generált adatok között, megpróbálva azonosítani, hogy a generátor által előállított adat hamis-e. Ezt az adatok valódiságának folyamatos értékelésével teszi. Ez a versengés egyfajta „tanulási folyamat”, ahol a generátor egyre jobb lesz az adatok generálásában, míg a diszkriminátor egyre jobb lesz azok azonosításában.

A GAN-ok nagy hatással vannak a képgenerálásra, mivel nagyon élethű és kreatív képek létrehozását teszik lehetővé.

1. Generátor: Ez a hálózat új képeket hoz létre a semmiből. Célja, hogy olyan képeket készítsen, amelyek a lehető leginkább hasonlítanak a valós képekhez.

2. Diszkriminátor: Ez a hálózat értékeli a képeket, és megpróbálja megkülönböztetni, hogy egy kép valódi (valós adatokból származik) vagy hamis (a generátor által létrehozott). Célja, hogy minél pontosabban felismerje a generált képeket.

3. Versengés és tanulás: A két hálózat egymás ellen dolgozik. A generátor arra törekszik, hogy megtévessze a diszkriminátort, míg a diszkriminátor arra törekszik, hogy minél jobban felismerje a hamis képeket. Ebből a versengésből mindkét hálózat folyamatosan tanul és javul. A generátor egyre jobb minőségű és valósághűbb képeket készít, míg a diszkriminátor egyre jobban felismeri a finom különbségeket.

4. Eredmény: Az iterációk során a generátor képes lesz nagyon realisztikus képeket készíteni, amelyek nehezen megkülönböztethetők a valódiaktól.



diffúziós modell

Ha képgenerátorok, akkor nem mehetünk el a diffúziós modell fogalma mellett sem, mert a működésüknek ez az egyik legfőbb „hajtómotorja”.

A képgenerátorok (ahogyan például a GPT-k is) is generatív modellen alapulnak. Magának a generatív modellnek képesnek kell lennie arra, hogy olyan új, még nem látott adatokat hozzon létre, amelyek a tanító adathalmaz mintáinak megfelelőek, de nem azonosak velük. Ezeket az adatokat úgy hozza létre, hogy kiszűri azokat a mintákat és szabályszerűségeket, amelyeket a tanító adathalmazban észlelt, majd ezeket újraalkotja vagy kombinálja. A generatív modell alapú képgenerátorok így teszik lehetővé a soha nem létezett, rendkívül valósághű és sokszínű képek létrehozását.

A generatív modellek képgenerálásra többféle technikát használnak, mint például a diffúziós modellt, mely különösen produktívnak bizonyul a képek és más komplex adattípusok nagy felbontású generálásában. A diffúziós modellek működési elve lényegében egy fokozatos zajadagolási és zajeltávolítási folyamaton alapul, amely során az adatokat először szisztematikusan „rontják el” a zaj hozzáadásával, majd egy inverz folyamat során visszaállítják a tiszta adatokat.

Nagyon egyszerűen:

Van egy kiinduló valós adathalmaz, melyhez a modell fokozatosan ad hozzá zajt, zajrétegeket pakol rá, amíg az eredeti információ teljesen el nem vész, és csak a zaj marad. Majd kiszűri a zajrétegeket, folyamatosan elvesz belőlük, csökkenti a zajt, míg végül teljesen megszűnik ez a zajos állapot, és helyreállnak a valósághű adatok, vagyis kitisztul a kép, megkapjuk a végeredményt. Az új adatok, azaz a legenerált kép egy fordított zajadagolási folyamat során jön létre.

Olyan, mintha egy poros festményről lefújnánk a port. : )


Milyen promptot kell az AI alapú generátor számára adni?

Tehát ahogyan az előzőekben részletesen kifejtettük, a képgenerátor számára is szöveges utasítást, azaz promptot kell adnunk. Nagyon fontos, hogy minél egyértelműbbek legyünk, minél több információt adjunk meg, mert ha kevés infót kap, akkor nagyobb a szabadsága, tehát a lehetséges kimenetel is sokféle lehet, mely nem biztos, hogy megfelel az előzetes elképzeléseinknek. A fokozatosan bővített, pontosított, részletesebb prompttal sokkal konkrétabb, specifikusabb képet tudunk generáltatni a MI-al. A promptban megadott információkkal tudjuk kontrollálni a várható végeredményt.

Néhány jó tanács a promptoláshoz:

Az iterálás során következetesen módosítsuk az utasításunkat, de bátran kísérletezgessünk, teszteljük, hogy mi hogyan változik egy-egy új információ hatására, gyakoroljunk, legyünk kitartók, mert valójában saját magunk számára kell kifejleszteni/kitalálni az ideális promptokat.

A promptolás során tartsuk azt szem előtt, hogy az utasítás elején szereplő információk, kifejezések mindig nagyobb hangsúlyt kapnak, jobban befolyásolják a képgenerálás végeredményét, valamint úgy kalkuláljunk, hogy a prompt elemeinek a felcserélésével nagy valószínűséggel teljesen más eredményt kapunk.

Milyen elemekből állhat a képgenerálási prompt?

Nincsenek kőbe vésett szabályok, nincsenek kötelező elemek, illetve a prompt lehetséges elemei közül sem kell mindig mindegyiket használni, valamint ezek az elemek cserélhetők, így más-más végeredményt kapunk.

Fotós fejjel kell gondolkodnunk és promptolnunk.

A prompt (lehetséges) elemei:

# fő téma, a kép alanya (pl. személy, állat, karakter, helyszín, tárgy)

# médium (pl. fotó, festmény, illusztráció, szobor, firka, gobelin)

# környezet, karakter kapcsolata a környezettel (pl. beltérben, szabadban, holdon, víz alatt, városban)

# stílus (pl. fotorealisztrikus, cyberpunk)

# kompozíció, „Te vagy a rendező” (pl. portré, közelkép, madártávlat)

# színek (pl. élénk, tompa, világos, monokromatikus, színes, fekete-fehér, pasztell)

# megvilágítás, fényviszonyok (pl. lágy, borult, neon, stúdióvilágítás)

# érzelmek, hangulatok (pl. nyugodt, heves, energikus)

# képarány (pl. 1:1, 9:16, álló, fekvő, borítófotó)

# eszköz (pl. fényképezőgép paramétereinek megadása)

# korszak (pl. középkor, 70-es évek)

# fókusz (pl. a témán, az interakción legyen)

# kép szereplői közötti interakció

A legenerált képverziók promptjának elemei:
  • fő téma: mesebeli szőke kisgyerek vakító fehér, erős fényben
  • médium: fotó
  • környezet: mesebeli fantáziavilág, csillagköd
  • stílus: fotórealisztikus
  • kompozíció: valósághű, részletgazdag portré
  • színek: arany és cián színek
  • megvilágítás, fényviszonyok, technika: lágy fókuszú lencse (a kép elmosódásának látszatát kelti, miközben megőrzi az éles széleket)
  • érzelmek, hangulatok: nyugalom
  • eszköz: Canon EOS 5D Mark IV
Néhány példa promptokra és az azokra kapott végeredményekre:

Prompt: Ragadd meg a modern, rusztikus elegancia lényegét a loft stílusú építészetből merítve. Képzelj el egy olyan teret, ahol az olyan nyersanyagok, mint a téglafalak, a fagerendák és a nagy, vintage megjelenésű gyári ablakok egyesülnek, hogy egy modern és melegen hívogató hangulatot teremtsenek.

Prompt: Állítsd össze a trópusi tájak hiperrealisztikus és vibráló ábrázolását. Képzelj el egy jelenetet, melyen a naplementés strandok élénk színei, a burjánzó növény- és állatvilág, a trópusi esőerdők és a türkizkék vizekben élő tengeri élőlények aprólékos részletekkel kelnek életre, egzotikus szépségű világba invitálva a nézőt.

Prompt: Ragadd meg az életút lényegét azáltal, hogy szemlélteted az egyént élete különböző szakaszaiban. Mutasd be a jellem és a megjelenés időbeli alakulását, a fiatalság ártatlanságától a kor bölcsességéig, mindezt portrék sorozatában, amelyek az idő múlásának és az átalakulásnak a csendes, mégis mély történetét mesélik el.

Alapvetően egy rövid utasítással egy jelenetet hozunk létre a fő téma megadásával, majd erre az egy mondatra építkezik a modell a képgenerálás során. Újabb és újabb, bővített promptokat, tehát további információkat, részleteket „csepegtetünk” számára, és így dolgozik tovább a képen.

TIPP: a chatGPT tud konkrét ötleteket adni a prompt elemeihez, továbbá promptokat is meg tud fogalmazni. Leírjuk, hogy mit szeretnénk, és ő promptot készít belőle, melyet aztán beadunk az adott képgenerátornak.

Milyen előnyei vannak a mesterséges intelligencia alapú képgenerálásnak a webdesigner/weboldalkészítő munkánk során?

A mesterséges intelligencia verhetetlen a látványos fotók legenerálásában. Egyedi, máshol szembe nem jövő fotókat generáltathatunk a MI alapú generátorokkal, melyeket a weboldalakon és a grafikai munkáinkban egyaránt felhasználhatunk.

Nem kell napokig keresnünk a tökéletes fotókat a honlapokra, a különféle marketinganyagokhoz, hanem mi magunk, adott témára, adott stílusra szabottan, a saját/megrendelői igények alapján tudjuk őket létrehozni a képgenerátorok segítségével. Egyszóval rengeteg időt és energiát spórolunk azzal, ha MI alapú képgenerátorokkal dolgozunk.

Ha konkrét elképzelésünk van arról, hogy milyen fotót szeretnénk a weboldalra, akkor az esetek többségében pontosan olyan fotót biztosan nem találnánk a fotóletöltő oldalakon. Majd máskor, amikor nem keresgélnénk ennyire, lehet, hogy éppen szembe jönne egy ilyen – így szokott ez lenni. : ) No, de tényleg kicsi annak az esélye, hogy az elképzeléseinknek 100%-osan megfelelő fotót találjunk. Tehát ha részletekbe menően tudjuk azt, hogy milyen képre van szükségünk, akkor igazán hasznos a mesterséges intelligencia alapú képgenerálás, hiszen tűpontosan megadhatjuk, hogy milyen fotót szeretnénk „készíteni”. Szükség esetén a folyamatos finomhangolásokkal megszülethet az a fotó, ami kezdettől fogva a szemünk előtt lebegett.

A célközönségre szabott egyedi fotókkal megtűzdelt munka, legyen az honlap vagy grafikai munka, kitűnik a „tömegből”, megragadja, felkelti a figyelmet az adott márka/szolgáltatás iránt.

Nem kell fotóst megbízni a fotózásokkal, tehát az ő munkadíját is megspórolhatjuk. (Nyilván ha termékeket vagy eseményt és embereket kell fotózni, akkor szükség lesz a hús-vér fotósra.)

A mesterséges intelligencia alapú képgenerátorok nagyon sok kísérletezésre adnak lehetőséget, újabb és újabb csodákat alkothatunk velük, használatuk kreativitásunk fejlesztéséhez, de akár kreatív énidőnek is ideális.

Te már használtad képgenerálásra a mesterséges intelligenciát?

Próbálj ki mesterséges intelligencia alapú képgenerátorokat! >>>

Hozzászólás írása

Az e-mail-címet nem tesszük közzé.