Od jedné fotky ke komiksu. Lokální AI s Palit GeForce RTX 5070

Umělá inteligence konečně drží fazónu a vykouzlí profi rodinný komiks za hubičku.

Reklama

Sociální sítě se dnes hemží tisíci dokonalých virtuálních influencerek a ty opravdové využívají AI přinejmenším ke zkrášlení. Vygenerovat líbivý portrét je dnes otázkou několika kliknutí a dobře napsaného promptu. Proč ale tuto kreativní moc nevyužít k něčemu smysluplnějšímu?

Nejsem zrovna nadaný malíř, ale vždy jsem miloval komiksy. A moje dcerka není jiná. Napadlo mě tedy, proč jí nepřipravit krátký příběh přímo o ní. Něco, co by ji nejen pobavilo, ale i potěšilo.

Jenže tvorba příběhu složeného z více navazujících obrázků není jen o jednoduchém promptování. Skutečnou zkouškou pro každý AI nástroj je udržení takzvané vizuální konzistence. Vaše hlavní postava musí vypadat naprosto totožně, ať už popíjí čaj v detailním záběru, utíká před záporákem v širokém úhlu, nebo se zlověstně culí. Přesně pro tyto účely slouží pokročilé prostředí ComfyUI ve spojení s moderním hardwarem, jakým je grafická karta Palit GeForce RTX 5070 Infinity 3 OC s rychlou 12GB pamětí. Tu jsem dostal na zápůjčku, abych si osahal, jak NVIDIA v řadě RTX 50 skutečně pokročila právě na poli generativní AI.

Vizualní konzistence

Každý dobrý komiks musí být uvěřitelný a vizuálně navazovat. Lokální generativní umělá inteligence dnes bez problémů dokáže vygenerovat překrásnou ilustraci hlavní hrdinky pro první panel. Zásadní problém ale nastává ve chvíli, kdy potřebujete naprosto stejnou postavu zobrazit v dalším okně, jak otevírá dveře nebo překvapeně uskakuje. Běžné obrázkové generátory fungují tak trochu jako loterie. Vytvoří vám sice nádhernou ilustraci, jenže vaše hrdinka má najednou úplně jiný tvar očí, delší vlasy nebo odlišný střih bundy.

Tento nedostatek okamžitě rozbije celou iluzi komiksového vyprávění. Čtenář a v mém případě právě moje dcerka musí hlavní postavu bezpečně poznat na první dobrou v každém jednotlivém záběru. Nejde přitom jen o zachování stejného obličeje. Zcela přesně musí sedět tělesné proporce, specifické detaily oblečení i celkový umělecký styl samotné kresby. Pokud se hrdinka v jednom panelu tváří vesele a v tom následujícím k smrti vyděšeně, stále to zkrátka musí být prokazatelně ona.

Zatímco při běžném hraní s textovými zadáními se spoléháte spíše na náhodu a neustálé generování desítek variant, při tvorbě ucelenějšího díla potřebujete mít nad celým procesem absolutní kontrolu. V cloudových službách tak velmi rychle zjistíte, že naklikat něco trochu komplexnějšího není vůbec jednoduché. Právě tady přichází ke slovu pokročilé lokální řešení, které naplno využije surový výpočetní výkon dedikované grafické karty z rodiny GeForce RTX 50.

Image edit jako výchozí bod

S pouhým textovým promptem se vždy dostanete maximálně na půl cesty. Chcete-li, aby vaše postava vypadala opravdu přesvědčivě, nebo dokonce věrně připomínala konkrétního člověka z masa a kostí, nejjednodušším řešením je použít skutečnou fotografii. Jelikož jsem měl v plánu vytvořit velmi jednoduchý příběh o tom, jak dcerka vyráží na gymnastické závody, našel jsem její vtipnou letní fotku v jejím oblíbeném triku a využil ji jako základ pro celý komiks. Pro zachování maximální jednoduchosti jsem v předpřipravené šabloně FireRed Image Edit 1.1 zpočátku vůbec nic neměnil a jen napsal velmi jednoduchý prompt. Skutečné kouzlo těchto workflow ale spočívá v tom, že si je můžete kdykoliv rozkliknout a jednotlivé uzly libovolně upravovat, měnit nebo nahrazovat doporučené modely za ty úzce specializované pro konkrétní úkoly.

Právě zde se naplno ukazuje za mě ten největší bonus lokální umělé inteligence. Nemusíte mít žádný strach používat citlivé osobní fotografie, protože žádná data nikdy neopustí váš počítač a veškeré výpočty probíhají bezpečně u vás doma. V dnešní době nikdy nevíte, co přesně obří korporace stojící za nejpopulárnějšími cloudovými generátory s vašimi nahranými snímky dělají a jak na nich případně trénují své další modely.

Při tvorbě jsem si tak bez problémů vystačil pouze s prostředím ComfyUI. Jedná se o úžasnou opensource platformu, ve které můžete snadno spouštět složité lokální modely i celá komplexní workflow. Díky integrovanému API navíc umožňuje plynulé napojení na externí grafický a 3D software. Pomocí šikovných pluginů tak můžete mít pokročilé generování obrazu zcela zdarma dostupné v programech jako Adobe Photoshop, nebo Blender.

Jeden obraz jim všem káže

Zde konečně přichází to pravé kouzlo. V nové verzi ComfyUI jsem si všiml, že přímo do šablon přibyl předpřipravený workflow pro konzistenci postav s názvem Character Angles. Ačkoliv je jeho výchozí nastavení koncipováno spíše pro generování instagramových modelek, díky jeho funkci se idealně hodí pro tvorbu komiksu. Celé workflow funguje tak, že načte jeden vstupní referenční obrázek a následně ho paralelně zpracuje přes osm samostatných větví. Každá z těchto větví přitom aplikuje zcela odlišný prompt.

Zde jsem ocenil výhody ekosystému NVIDIA Studio a hrubý výkon karty. Rozběhnout osm náročných generativních větví současně vyžaduje poměrně velkou porci paměti a surové výpočetní síly. Zde absolutně exceluje testovaná karta Palit GeForce RTX 5070 Infinity 3 OC se svými 12 GB VRAM. Díky optimalizovaným ovladačům NVIDIA Studio a nativní podpoře architekry FP8, použitý model bez problému dokáže kvalitně fungovat i na menším množství VRAM. Zatímco na starším hardwaru byste při takto složitém uzlu čekali dlouhé desítky minut nebo by vám systém rovnou spadl pro nedostatek paměti, moderní grafika z rodiny RTX 50 zvládne celý proces zpracovat s neuvěřitelnou lehkostí a výsledek se dostavil do pár minut.

Tento workflow využívá pokročilé modely Qwen doplněné o dvě specializované LoRA vrstvy. Ty se starají o udržení identity postavy z nejrůznějších úhlů pohledu. Kromě samotné rotace kamery ale dokáže systém stejně dobře měnit i celkový obsah scény. Do připravených textových polí jednoduše napíšete, co přesně má hrdinka na daném panelu dělat. Protože Qwen Image Edit FP8 funguje primárně jako model pro úpravu obrazu a nikoliv jako běžný generátor z textu, je vhodné do zadání specificky uvést, že chcete původní postavu maximálně zachovat, ale potřebujete ji například převléci, umístit do jiného prostředí nebo jí vtisknout odlišný výraz ve tváři. Vzhledem k tomu, že model neustále pracuje s původním referenčním obrázkem, veškeré výstupy z něj přirozeně vycházejí a bezchybně zachovávají i ty nejdrobnější detaily, jako je oblíbená čelenka ve vlasech, přesná délka účesu nebo specifický potisk na tričku.

Závěr

Celý výsledek si můžete prohlédnout níže. Z jediné letní momentky jsem dcerce připravil krátký příběh a ještě více ji tak namotivoval na sobotní závody. Samotného mě upřímně překvapila celková rychlost a neuvěřitelná preciznost v zachování sebemenších detailů. Vývoj v této oblasti jde kupředu tak obrovským tempem, že prakticky není v lidských silách sledovat všechny novinky. Generování podobných komiksů je sice primárně domácí zábava pro radost, ale naprosto ukázkově prezentuje možnosti dnešní lokální umělé inteligence.

Grafická karta Palit GeForce RTX 5070 Infinity 3 OC se během testování ukázala jako mimořádně schopný kus hardwaru. Za příjemnou pořizovací cenu nabízí rychlé a efektivní generování obrazu. Díky neustále výkonnějším modelům a pokročilým metodám komprese se dostáváme do fascinujícího bodu, kdy pro vážnou tvorbu už nutně nepotřebujete ten absolutně nejdražší stroj na trhu. Když k tomu navíc připočteme neustále rostoucí ceny za různá cloudová předplatná, začíná provozování lokální AI dávat stále větší ekonomický i praktický smysl. Ona lokální AI už zkrátka dávno neslouží jen k tvorbě náhodných portrétů a nicneříkajících memů. Proměnila se v mocný nástroj, který vám dává absolutní kontrolu nad vyprávěním vlastních příběhů a zároveň maximálně chrání vaše citlivé osobní fotografie. Pokud máte v počítači moderní výkonnou grafiku z rodiny GeForce RTX 50, máte před sebou pískoviště nekonečných možností, kde jedinou skutečnou hranicí zůstává pouze vaše vlastní fantazie.