Generatory obrazów AI. Przyszłość w tworzeniu sztuki.

Ostatnio bardzo popularne stały się narzędzia pozwalające na generowanie obrazów na bazie tekstu. Narzędzia takie jak Dall-E, Imagen czy MidJourney wykorzystują sztuczną inteligencję (ang, Artificial Intelligence, AI) do tworzenia nowych, unikalnych obrazów, często łudząco podobnych prac profesjonalnych artystów. Z tym że nie musimy już być profesjonalnym artystą. Nie musimy znać się na malowaniu. Nie musimy znać Photoshopa na wylot. Nie musimy poświęcać godzin lub dni na rysowaniu konceptów. Jedyne co musimy zrobić to opisać w formie tekstu obraz, którego oczekujemy, a algorytm wygeneruje go w ciągu kilku chwil. To jest przełomowa technologia, odblokowująca nowe możliwości dla osób z mniejszym talentem artystycznym. Jak jednak wpłynie ona na profesjonalnych artystów? Co powinni zrobić, żeby wyciągnąć z niej jak najwięcej? Przyjrzyjmy się temu zagadnieniu.

Jak sztuczna inteligencja wpływa na branżę kreatywną?

Branża kreatywna już teraz korzysta z rozwoju AI w różnych dziedzinach. Przykładowo, Wykrywanie Istotnych Obiektów (ang. Salient Object Detection) wykorzystuje mechanizmy uwagi wizualnej do przewidywania, które obiekty będą w centrum uwagi. Ten rodzaj technologii może pomóc w różnych zastosowaniach, np. w VR, w kompresji i interpretacji treści. Proces składa się z segmentacji i predykcji obiektów oraz zastosowania technik nadzorowanego uczenia się.

Zastosowania sztucznej inteligencji w branżach kreatywnych gwałtownie wzrosły w ciągu ostatnich pięciu lat. Według badania przeprowadzonego przez Johna Daviesa i in. z 2020 roku w publikacji “The Art in the Artificial AI and the creative industries”, liczba publikacji AI wzrosła o ponad 500% od 2015 do 2019, przy czym większość badań skupia się na danych opartych na obrazach (ponad 10 tys publikacji). Inne zastosowania AI w branży kreatywnej obejmują gry wideo, aplikacje immersyjne oraz reklamę i marketing. Techniki sztucznej inteligencji mogą pomóc branżom kreatywnym zautomatyzować i usprawnić niektóre pracochłonne zadania. Na przykład sztuczna inteligencja może analizować duże ilości danych i przewidywać wyniki z dużą pewnością. Może również pomóc producentom w pozyskiwaniu informacji, analitykom w ulepszaniu strategii marketingowych, a dziennikarzom w wyszukiwaniu odpowiednich treści podczas dochodzeń.

DeepDream

Sztuczna inteligencja to potężne narzędzie, które może tworzyć dziwaczną, psychodeliczną i dziwną sztukę. Oprogramowanie DeepDream firmy Google zostało pierwotnie zaprojektowane do wizualizacji działania Konwolucyjnych Sieci Neuronowych (ang. Convolutional Neural Network, CNN). Wkrótce naukowcy odkryli, że podrasowanie równań spowoduje, że algorytm będzie tworzył obrazy. Była to jedna z pierwszych prób wykorzystania AI do generowania obrazów, a zarazem przełom, który zrewolucjonizuje świat sztuki.

DeepDream wykorzystuje splotową sieć neuronową do identyfikowania wzorców na obrazach. Technika ta jest znana jako algorytmiczna pareidolia syntetyczna. Pareidolia to zjawisko psychologiczne, które występuje, gdy ludzie postrzegają wzorce w swoim środowisku. Niektóre typowe przykłady obejmują identyfikowanie kształtów zwierząt w chmurach i słuchanie ukrytych wiadomości w muzyce. Symulując to zjawisko, DeepDream jest w stanie tworzyć obrazy, które są zarówno realistyczne, jak i abstrakcyjne.

DeepDream to jeden z najbardziej zaawansowanych generatorów obrazów AI na rynku. Jest w stanie tworzyć obrazy o wysokiej rozdzielczości w ciągu kilku minut. Ma potencjał do tworzenia grafiki specyficznej dla gatunku na podstawie istniejącego wkładu ludzkiego. Jego sztuczna inteligencja ma również potencjał do tworzenia sztuki w gatunkach wcześniej niemożliwych do wyobrażenia. To sprawia, że technologia jest przyszłością tworzenia sztuki.

Imagen

Imagen to drugi projekt Google, który wykorzystuje sztuczną inteligencję do tworzenia obrazów z tekstu. Program jest jeszcze w fazie zamkniętych testów, ale już generuje kreatywne i pomysłowe obrazy. Oprogramowanie może wyprodukować wszystko, od zalanej galerii sztuki Moneta, w której biorą udział roboty, po truskawkowy kubek unoszący się w morzu ciemnej czekolady, a nawet koalę obracającą marmurowy gramofon.

Imagen generuje swoje obrazy za pomocą kombinacji rozpoznawania i dyfuzji języka, metody, która wykorzystuje wzory z kropek do stworzenia wizualnego obrazu. Algorytm dyfuzji języka przetwarza tekst wejściowy na serię opisów (ang. Word Embedding). Proces ten pozwala na wyekstrahowanie konkretnego znaczenia z tekstu. Dalej model konwertuje szum Gaussa na próbki, tworząc podstawowy obraz o rozmiarach 64 × 64 pikseli. Następnie obraz ten jest skalowany w górę do rozmiarów 1024 × 1024 pikseli. Wykorzystuje się do tego kolejny algorytm wspomagany sztuczną inteligencją.

Imagen jest w stanie tworzyć fotorealistyczne obrazy z tekstu wejściowego. Oferuje „bezprecedensowy fotorealizm i bezprecedensowy poziom zrozumienia języka”, jak twierdzą autorzy. Na tym nie koniec. Niedawno naukowcy z Google ogłosili, że pracują nad kolejnym narzędziem do generowanie obrazów z tekstu Parti [www.parti.research.google]. Ma on korzystać z innego, autoregresyjnego modelu, pozwalającego na jeszcze dokładniejsze odwzorowanie realizmu obiektów, które nigdy nie istniały. Niezależnie od tego, czy wynik jest realistyczny, czy nie, Imagen i Parti są obiecującymi technologiami dla przyszłych badań i rozwoju AI.

Dall-E 2

OpenAI stworzyło własną wersję generatora obrazów, obecnie w już wersji drugiej. Dall-E 2 jest w stanie generować obrazy na podstawie dostarczonych opisów. Może dodawać, usuwać lub integrować części obrazów na podstawie tego, co zostało podane w opisie. Może również uwzględniać cienie, odbicia i tekstury.

Dall-E 2 został wytrenowany na serii obrazów i ich opisów, dzięki czemu jest w stanie je interpretować. Uczy się relacji pomiędzy tekstem a obiektami odnalezionymi na obrazie. Może również tworzyć wiele wersji tego samego obrazu, z których każdy ma swoje unikalne znaczenie koncepcyjne.

MidJourney

Imagen i DALL-E to przykłady dużych modeli sztucznej inteligencji, które są trenowane na ogromnej liczbie obrazów. Na rynku pojawiają się też mniejsze projekty, takie jak Midjourney [www.midjourney.com/home], które również pracują nad rozwojem podobnej technologii. I podczas gdy więksi poprzednicy są dostępni, póki co tylko dla niewielkiego grona naukowców, MidJourney oferuje darmowy (próbny) oraz płatny dostęp do swojego narzędzia. Wystarczy dołączyć do ich społeczności na Discordzie, by móc wysyłać tekstowe zapytania do generatora. Na stronie www znajduje się też galeria wyselekcjonowanych obrazów, wygenerowanych przez użytkowników.

Generator jest obecnie na wczesnym etapie rozwoju, dlatego nie mamy zbyt wielu informacji nt działania jego modelu. Podstawowe zasady są jednak takie same jak w przypadku konkurencji: tworzymy zapytanie w postaci tekstu, opisując obraz, który chcemy uzyskać. Po chwili otrzymujemy kilka wyników, które możemy iterować, wysyłając ponownie do generatora.

W porównaniu z fotorealistycznymi obrazami stworzonymi przez Imagen czy Dall-E, MidJourney generuje częściej wyimaginowane, mniej realistyczne, ale bardziej emocjonalne koncepcje, w których dominują ciężkie, ciemne kolory. Gdybyśmy próbowali odtworzyć nasz ostatni sen na papierze, osiągnęlibyśmy coś na kształt tego, co tworzy MidJourney. Jest to zatem idealna technologia dla koncept-artystów, szukających inspiracji dla swojego kolejnego dzieła.

Jak wykorzystać je w pracy?

Choć obrazy generowane przez sztuczną inteligencję mogą brzmieć jak podróbka, istnieje wiele rzeczywistych korzyści. Mają one zdolność naśladowania wielu ludzkich cech, takich jak sposób, w jaki mówimy i sposób, w jaki powtarzamy wiadomości. Co więcej, obrazy generowane przez sztuczną inteligencję nie zawsze są zabawne. Niektóre mogą być nawet nielegalne. Jednak technologia ta jest wielkim dobrodziejstwem dla branży kreatywnej.

Na przykład grafiki generowane przez sztuczną inteligencję są już używane w grach przeglądarkowych, takich jak Hekimu albo AI Kaiga. Są to gry typu Visual Novel, dostępne za darmo na japońskiej stronie Game Atsumaru. W obydwu przypadkach obrazy zostały wygenerowane przy użyciu MidJourney. Innym przykładem jest brytyjski magazyn The Economist, który również wykorzystał MidJourney do stworzenia grafiki na okładkę swojego czerwcowego wydania.

Źródło: www.economist.com/weeklyedition/2022-06-11

Gdzie jeszcze moglibyśmy wykorzystać powyższe narzędzia? Wszędzie tam, gdzie potrzebujemy nietypowej grafiki, nowej koncepcji lub śmiesznego obrazka. Z pomocą Imagen lub Dall-E możemy stworzyć wysokiej rozdzielczości tekstury do wykorzystania przy budowie nowych szablonów stron internetowych, lub graficznego interfejsu w grze komputerowej.

Przykładowo, wpisując w MidJourney zapytanie “egyptian bar texture stylized” otrzymamy 4 przykłady tekstur stylizowanych na starożytny Egipt. Jeśli tworzymy grę karcianą lub planszówkową, sprawa jest jeszcze prostsza — opisujemy postać, lub przedmiot i w ciągu chwili otrzymujemy wynik. Oczywiście, tak wygenerowane grafiki wymagają jeszcze obróbki, zanim będą mogły być wykorzystane w końcowym produkcie, jednak możliwość szybkiego testowania różnych koncepcji i iterowanie na gotowych grafikach może znacząco przyspieszyć pracę.

Czy AI sprawi że graficy staną się niepotrzebni?

Sztuczna inteligencja umożliwia realizowanie zadań wcześniej wykonywanych przez ludzi za pomocą jednego kliknięcia. Jest stworzona, tak by podejmować decyzje na podstawie kontekst, a nie preferencje użytkownika. Obecnie sztuczna inteligencja jest najczęściej wykorzystywana przez projektantów w podstawowych zadaniach, takich jak wybieranie kolorów, krojów pisma i układów. W przyszłości będzie ją można wykorzystać do bardziej kreatywnych celów. Wciąż jednak nie posiadamy jednego wielkiego czerwonego przycisku, po naciśnięciu którego otrzymamy całkowicie nowy, unikalny szablon strony www, okładkę książki czy interfejs graficzny do gry. Dalej potrzebujemy artystę, który jest w stanie doszlifować, to co wygenerował algorytm.

Oznacza to, że narzędzia oparte na sztucznej inteligencji mogą szybko tworzyć wysokiej jakości projekty na podstawie wstępnie załadowanych obrazów. Narzędzia te doskonale nadają się do przyspieszenia procesu projektowania. Mogą tworzyć pierwsze wersje logo dla klientów bez pomocy ludzkiego projektanta. W ten sposób projektanci będą mieli więcej czasu, by tworzyć bardziej efektowne i zapadające w pamięć projekty.

Tak jak pierwsze komputery osobiste sprawiły, że każdy mógł pisać własne, skomplikowane programy, tak generatory obrazów sprawią, że każdy będzie mógł poczuć się przez chwilę, jak artysta. Wciąż jednak potrzebujemy profesjonalistów, umiejących odróżnić złoto od śmieci. Graficy wciąż będą pracować wśród nas. Z tą różnicą, że teraz mogą skorzystać z nowoczesnych narzędzi, usprawniającymi ich pracę.

W dłuższej perspektywie sztuczna inteligencja prawdopodobnie odegra kluczową rolę w branży kreatywnej. Chociaż uczenie maszynowe może inspirować kreatywność i innowacyjność, nie wolno nam naruszać podstaw projektowania graficznego. Sztuczna inteligencja już teraz wpływa na projektowanie stron internetowych. Po kilku latach doświadczenia z tymi narzędziami zobaczymy, jak sztuczna inteligencja wpływa na kariery grafików w bardziej znaczący sposób.

AI już teraz jest w stanie generować bardzo realistyczny kontent. Czy będziemy w stanie odróżnić go od prac wyprodukowanych przez człowieka? Przyszłość pokaże. Ja tymczasem nadmienię jedynie, że powyższy tekst został napisany również przy pomocy sztucznej inteligencji.