Marcin Rossa z Creaitme na tle jednej ze swoich produkcji.
Rozmawiam z Marcinem Rossą o wykorzystaniu generatywnego AI przez branżę filmową. Fot. Marcin Rossa/Creaitme

O generatywnej AI możemy mieć skrajnie różne opinie, ale to jest diabeł, który już wyskoczył z pudełka. Profesjonaliści już teraz tworzą z tym narzędziem filmy, które trafiają na światowe festiwale. O nowej magii kina rozmawiam z Marcinem Rossą, producentem ze studia AI Creatai.me.

REKLAMA

Wyobraźcie sobie, że oglądacie ulubiony polski serial i dowiadujecie się, że efekty w nim stworzono dzięki sztucznej inteligencji. Jaką macie reakcję: gniew czy wzruszenie ramion? Zdaniem Marcina Rossa, profesjonalnego producenta ze studio Creait.me, dobrze zrobiona produkcja będzie nie do odróżnienia od innych efektów specjalnych i widz nie dostrzeże różnicy.

Jak wygląda taka praca? Dlaczego życzono mu upadku? I po co się robi casting na wirtualnych aktorów? Dowiecie się z tego wywiadu.

AI w filmach i serialach. Jak profesjonalista wykorzystuje sztuczną inteligencję?

Sebastian Luc-Lepianka: Spotykasz się częściej z akceptacją swojej pracy czy hejtem?

Marcin Rossa: Obracam się w środowisku ludzi, którzy cenią ambitne, nieszablonowe projekty. To nie jest proste promptowanie wideo w narzędziach takich jak Veo czy Sora.

W branży kreatywnej działam od 18 lat. Jako dyrektor kreatywny i reżyser. I pewnie widzisz jak branża filmowa na przestrzeni ostatnich dekad się zmienia. Na początku filmy były kręcone kamerą, potem pojawiło się CGI, czyli animacje czy efekty 3D, a od niedawna pojawiła się trzecia droga, czyli AI, które daje nam nowe możliwości.

Dzięki sztucznej inteligencji tworzę dziś z moim zespołem kompozycje całych scen, gdzie ograniczenia się zmniejszają z każdym tygodniem. To otwiera przed nami przestrzeń do realizacji projektów, które były zarezerwowane dla ogromnych studiów międzynarodowych. Możemy teraz robić też eksperymenty i projekty, które pozwalają wychodzić poza skalę dotychczasowych wyobrażeń.

Więc jak wygląda profesjonalne tworzenie filmów z AI? Co konkretnie produkujesz?

Mam na koncie realizację efektów specjalnych, które pojawiały się w kinie i telewizji. Tworzę filmy krótkometrażowe, które wygrały m.in. festiwale w Los Angeles czy Hollywood. Podczas imprezy towarzyszącej Festiwalu w Wenecji zostałem uznany za jednego z najlepszych 50 twórców i reżyserów AI na świecie.

Każda produkcja filmowa – także ta realizowana z wykorzystaniem AI – składa się z kilku etapów. Zaczynamy od pełnego scenariusza i storyboardów, scena po scenie, dokładnie tak jak w klasycznej produkcji filmowej.

Różnica polega na tym, że w profesjonalnym workflow opartym na AI część procesów wygląda inaczej też w zależności, jaką część produkcji chcemy wykonać w AI.

Na przykład?

Możemy przeprowadzić casting wirtualnych bohaterów, w których wcielą się prawdziwi aktorzy, a lokacje, kostiumy czy rekwizyty projektujemy cyfrowo.

Czekaj, casting dla fikcyjnych aktorów? Jak to działa?

Dla mnie istotne jest to, by klient miał kontrolę nad każdym etapem produkcji, również nad wyborem aktorów, w tym wypadku aktorów AI. To nie musi oznaczać, że w materiale nie zagrają prawdziwi aktorzy, ale np. odbędzie się to na zasadzie motion capture, czyli pod prawdziwego aktora podłożymy stworzoną przez nas postać. To tak jak z Golumem we Władcy Pierścieni.

Dlatego tworzymy kilka wariantów postaci do wyboru. Mamy wpływ na wszystko: od tonu wypowiedzi, przez mimikę, aż po proporcje w okazywaniu emocji. Możemy ustalić ile procent emocji to będzie złość, a ile zaskoczenie.

To daje ogromne możliwości, ale jednocześnie wymaga odpowiedzialnego podejścia. Niezbędny jest proces weryfikacji, który pozwala upewnić się, że wybrana postać nie przypomina żadnej prawdziwej osoby. Takie sytuacje się zdarzają. Miałem przypadek, gdy jeden z wiodących modeli AI wygenerował postać niemal identyczną jak znana aktorka.

Miałeś z tego powodu problemy?

Wykryliśmy to, zanim stało się problemem. Korzystamy z narzędzi, które pozwalają porównywać wygenerowane postacie z ogólnodostępnymi bazami internetowymi, a nawet z bazami osób karanych. Wszystko po to, by uniknąć ryzyka nieuprawnionych podobieństw.

Bo wystarczy zadać sobie jedno pytanie: jak byś się czuł, gdybyś nagle zobaczył wizerunek swojego dziecka na billboardzie jakiejś reklamy?

Byłbym wściekły.

I pierwszą rzeczą, którą byś zrobił, byłby pozew, prawda?

A jakie miałbym szanse w tym wypadku?

My tworzymy tzw. repozytorium, czyli historię powstawania całej postaci. Mamy gotowe do pokazania archiwum, które nas zabezpiecza i udowadnia, jak wyglądał nasz proces twórczy.

Czyli z twoją firmą bym nie wygrał. Modele AI firm, z których możliwości korzystacie, wyprzedzają prawo. Wymiar sprawiedliwości w Polsce jest bezradny wobec choćby rozbierania ludzi na zdjęciach z użyciem Groka Elona Muska.

Tu kluczowa jest polityka prywatności i sposób trenowania modeli. Jeśli modele były uczone na gotowych zbiorach danych, my dodatkowo eliminujemy ryzyko podobieństw poprzez proces weryfikacji, o którym mówiłem wcześniej.

Nie używamy modeli trenowanych na nielegalnych bazach, które naruszają prawa autorskie lub prywatność. To absolutnie fundamentalna zasada naszej pracy.

"Życzono twojej firmie upadku"

Temat budzi ogromne emocje. W komentarzach w internecie ludzie wprost życzą twojej firmie upadku.

W XIX wieku ludzie byli negatywnie nastawieni do fotografii czy do pociągów. Te ostatnie ze strachu obrzucali kamieniami. To ludzka natura: gdy pojawia się coś nowego, rewolucyjnego, często podchodzimy do tego ostrożnie, sceptycznie lub nawet z lękiem. Ci, którzy widzą w tym szansę i wybierają drogę pragmatyczną, są odważnymi wizjonerami. Można powiedzieć, że to oni na tej zmianie wygrywają.

Dlatego tak dużą wagę przykładam do edukacji. Tłumaczę moim klientom na czym dokładnie polega moja praca, co dostaną, czego nie muszą się obawiać, a gdzie są ograniczenia. Ostatnio była taki głośny przypadek, że wyemitowano reklamę z wygenerowanym głosem znanego lektora.

Tak, reklama producenta betonowych zbiorników kanalizacyjnych.

To przykład czegoś skrajnie nieetycznego. Podobnie jak generowanie obrazów "w stylu Ghibli". Poruszałem ten temat w mediach społecznościowych i w swojej branży, ponieważ uważam, że cały proces powinien wyglądać inaczej.

Jeśli firma chce korzystać z czyjegoś stylu, wizerunku czy głosu, powinna zwrócić się bezpośrednio do źródła i zapłacić za licencję. Coraz więcej agencji modelingowych i aktorskich uwzględnia już w swoich regulacjach możliwość wykupienia licencji na trenowanie postaci wirtualnych na podstawie wizerunku i głosu reprezentowanych talentów.

Kilka dni po przeprowadzeniu tego wywiadu rozpoczął się proces ws. kradzieży głosu Jarosława Łukomskiego. Firma JFC Polska wysłała nam oficjalne stanowisko, że ich zdaniem w przypadku tej reklamy doszło właśnie do sytuacji, o której rozmawiam z Rossą: AI wygenerowało głos przypadkiem. Pełne oświadczenie przeczytacie w dedykowanym artykule. W wywiadzie zostawiłem oryginalne odpowiedzi Marcina Rossy, doprecyzuję tylko kontekst jego wypowiedzi: "skrajnie nieetycznym" określał przypadek, gdyby celowo dobrano czyjś głos do reklamy bez zgody właściciela. Ostatecznie czy tak było rozstrzygnie sąd.

Ludzie oburzają się na sam fakt, że do takich zdarzeń dochodzi. Kojarzą to właśnie z tą technologią.

To zrozumiałe, bo tak jak wspominałem, nowe technologie budzą silne emocje. W takich sytuacjach łatwo przypisać winę samemu narzędziu zamiast skupić się na tym, jak i przez kogo zostało użyte. Tymczasem problemem nie jest technologia, lecz konkretne nadużycia.

Może przecież zdarzyć się i tak, że w realnym filmie, w tle, pojawi się drugoplanowa postać będąca sobowtórem kogoś znanego. Co wtedy?

Jest mała różnica: ta osoba pojawi się w napisach końcowych pod własnym nazwiskiem. Wy nie podpisujecie wirtualnych aktorów.

To prawda, dlatego w przypadku wirtualnych postaci tak ważne są jasne zasady i transparentność. Nie są one przypisane do realnych osób, lecz stanowią fikcyjne kreacje, projektowane w sposób, który wyklucza powiązanie z konkretną tożsamością.

No chyba że wykorzystujemy wizerunek lub głos ze świadomą zgodą właścicielki lub właściciela. Wtedy sytuacja wygląda zupełnie inaczej, ale mówimy o legalnej i etycznej współpracy, która jest oparta na licencji i jasno określonych zasadach wykorzystania.

A są klienci, którzy przychodzą z pękatym portfelem i mówią wprost: zrób mi w AI sobowtóra kogoś znanego?

Miałem jedną taką sytuację. W trakcie wyborów prezydenckich ktoś zapytał mnie, czy mógłbym zrealizować na szybko materiał AI prezentujący pewną osobę w niekorzystnym świetle, tak dla "pośmiania się". W grę wchodziły realne pieniądze i poważne nazwiska. Odmówiłem, argumentując, że to nic innego, jak forma hejtu.

Hejt i materiały tworzone z wykorzystaniem AI kształtują dzisiaj dialog społeczny, a to ma realne przełożenie na zdrowie psychiczne ludzi. Jako tata sześciorga dzieci czuję szczególną odpowiedzialność za to, w jaki sposób ta technologia jest wykorzystywana. Zależy mi na tym, aby rozwijać ją w sposób etyczny, chronić przed nadużyciami i ograniczać ryzyko sytuacji, w których ofiarami stają się młodzi ludzie, o czym niestety coraz częściej słyszymy.

Nie wydaje się, aby niechęć do AI dotyczyła tylko manipulacji rodem z mediów społecznościowych. Świąteczne AI-spoty Coca-Coli są powszechnie wyśmiewane. Przecież ty też tworzysz podobne reklamy.

Nie jestem fanem tych spotów Coca-Coli. I jestem też zdziwiony pewnymi niedociągnięciami, które się tam pojawiły. Mam przekonanie, że realizując reklamy w takiej skali nie powinno być przestrzeni dla takich błędów.

Mam zlecenia na realizacje reklam, choć wszystko zależy od klienta i jego potrzeb. Zwykle przeważa pragmatyzm ze strony klienta: jak szybko musimy przygotować materiał i na jakie ustępstwa jesteśmy gotowi w związku z tym pójść.

Dla klientów często istotna jest optymalizacja kosztów i czasu przy wyborze AI. Nad tym przypadkiem Coca-Coli ubolewam, bo mam wrażenie, że koszty i czas realizacji były ważniejsze niż jakość. Przecież ta reklama mogła być zdecydowanie lepiej zrobiona.

A gdyby przyszli z tym do ciebie?

Widzę, że pewne sceny dałoby się zrobić inaczej, lepiej. Ale to tak samo, jak w tradycyjnych reklamach czy pełnometrażowych filmach: zdarzają się gnioty. Niektóre produkcje po prostu nie wypadają najlepiej i nie działają tak, jak powinny.

A odbiorcy nie mają litości.

Ale to prędzej ludzie z branży będą wyłapywać jakieś błędy czy niedociągnięcia niż przeciętny odbiorca. To twórcy mogą czuć się zagrożeni przez nowe narzędzie na rynku. Stąd moim zdaniem większa tendencja do krytykowania i wytykania słabości rozwiązań związanych z AI właśnie przez branżę filmową.

Widzę, jak rynek podzielił się w minionym roku na zwolenników i przeciwników AI.

Jak odbiera się tworzenie filmów z AI?

Czy odbiór filmów AI różni się w Polsce i za granicą?

Na polskim rynku widzę więcej obaw. Realizuję również projekty zagraniczne, uczestniczę w międzynarodowych wydarzeniach, gdzie dużo mówi się o AI…

Mówimy o wydarzeniach na dużą skalę czy niszowych eventach dla wąskiej grupy specjalistów?

Byłem ostatnio w Paryżu na Motion Plus Design. To wydarzenie dla twórców z całego świata, w jednej sali kinowej zasiadły prawie trzy tysiące osób.

I widziałem tam większy zachwyt i świadomość tego, jak rozwiązania AI rozwijają możliwości branży filmowej. Był tam m.in. Patrick Clair, twórca czołówek do takich produkcji jak "Westworld", "The Crown" czy "True Detective". Mówił o AI z wielkim entuzjazmem.

A w Polsce znam studia, które nie wprowadzają AI do swojego cyklu produkcji, bo boją się zmieniać swój wypracowany workflow i nie inwestują w edukację zespołów. Są też ludzie, którzy są przekonani, że jaki to problem napisać prompta dla generatywnego modelu. Tymczasem proces jest dużo bardziej złożony.

W kraju mamy takie fenomeny, jak szał na wulgarne polskie piosenki AI na Spotify. Z drugiej strony znam środowiska, w tym medialne, które reagują alergicznie na treści wygenerowane przez sztuczną inteligencję. Sam jestem taką osobą.

Mnie jest niedobrze, jak słyszę o AI w mediach społecznościowych i o tych wszystkich filmikach prezentujących kotki, myszki i fejkowe rzeczy. Jest dużo śmieci AI-owych w internecie, które albo są głupie albo marnej jakości.

Dla przeciętnego odbiorcy najważniejsza jest ogólna percepcja – vibe, atmosfera i fajna piosenka. Nie wie, czy coś jest stworzone przy użyciu AI, czy nie.

AI w twojej telewizji

Ty oznaczasz swoje materiały?

Określam się jako AI Production Studio, więc tego nie ukrywam.

A kiedy są emitowane w telewizji, to są odpowiednie oznaczenia?

Są produkcje, przy których klient nie chce tego ujawniać. Właśnie zakończyłem pracę nad pewnymi scenami do jednego serialu, który jest już w telewizyjnej emisji. Nie mogę opowiedzieć szczegółów, ale to efekty specjalne i sceny wygenerowane i obrobione, jako tańsza alternatywa dla CGI lub nagrywania za granicą.

Czy konsument nie powinien wiedzieć, że coś powstawało metodami, jakie uważa za niepożądane albo zawiera składniki, których nie znosi?

A oznaczamy reklamy czy filmy robione w CGI? Nawet praca nad zdjęciami przygotowanymi do reklamy serka homogenizowanego to fotomanipulacja na wysokim poziomie. Tak samo zdjęcia modelek. Powiem ci też w tajemnicy, że Hogwart z Harry'ego Pottera też nie istnieje.

Myślę, że jako ludzie jesteśmy w stanie zrobić pewną selekcję i wybierać, co chcemy konsumować. I tu warto podkreślić, że są rzeczy naprawdę wartościowe tworzone nowoczesnymi metodami. Irytuje mnie, że wrzuca się wszystko do jednego worka, zrównuje taką pracę, jak moja, z sieką wrzuconą na media społecznościowe.

Czyli chcesz powiedzieć, że to sieczka AI wpływa na negatywny odbiór twoich treści i strach klientów?

Oczywiście, ale nie tylko. Lubię edukować ludzi i zależy mi na budowaniu większej świadomości tego, co faktycznie umożliwia AI. W Polsce ta świadomość jest nadal na dość niskim poziomie. Nawet w branży kreatywnej, gdzie odmienia się AI przez wszystkie przypadki.

Bywają przetargi, gdzie np. na pięć agencji trzy przychodzą z dokładnie tym samym konceptem kreatywnym, bo wygenerowanym tymi samymi narzędziami. Byłem w szoku, kiedy to zobaczyłem.

Czy i kiedy to się zmieni?

Myślę, że już oswajamy się z pewnymi rzeczami związanymi z AI. Jestem przekonany, że w tym roku będziemy widzieć w telewizji coraz więcej produkcji wykorzystujących AI.

Przyszłość kina w erze AI

Może do zmiany potrzeba filmu w 100 proc. wygenerowanego w AI, tak jak to było kiedyś z animacją 3D? Chciałbyś taki nakręcić?

Chciałbym, ale nie wiem, czy wygenerowany w 100 proc. Acz mam podobne projekty, do których szukam finansowania.

Chciałbym zrobić film wykorzystujący potencjał polskich legend. Za mało w Polsce korzystamy z takiego dorobku kulturowego, od folkloru po legendy miejskie.

Jaką przyszłość widzisz dla kinematografii z udziałem AI?

Wierzę, że będziemy mogli tworzyć filmy dostosowane do odbiorców responsywnie. Chodzi o filmy reagujące inaczej na potrzeby emocjonalne każdego widza. Ty będziesz widzieć inną mimikę bohaterów niż ja. Profilowanie filmów pod siebie brzmi ekscytująco.

Na pewno? Ludzie często nie są świadomi, czego chcą. Lubią powtarzać te same rzeczy… i nie mają know-how narracyjnego, aby zapewnić sobie sami takie przeżycia emocjonalne, jak da im doświadczony reżyser i wybitny aktor.

Pełna zgoda. To duży problem, że pragmatyzm konsumpcyjny przewyższa większe idee. W efekcie powstają treści, które się sprzedają, a niekoniecznie wnoszą jakąś dodatkową wartość dla widza czy odbiorcy.

Dokładnie ten sam mechanizm funkcjonuje w kilkbajtowych tytułach artykułów. Chodzi o to, żeby szybko przyciągnąć uwagę tak, aby statystyki podskoczyły do góry i można je było spieniężyć.

Jeden z profesorów krakowskiego AGH twierdzi, że żyjemy w czasie smogu informacyjnego. Bardzo lubię to porównanie. Naszą misją, jako twórców, powinno być to, żebyśmy nie przykładali się do tego smogu i tworzyli treści, które będą mieć pozytywny wpływ na społeczeństwo.

Czyli umiejętności filmowców dalej będą ważne, nawet jak AI każdemu będzie robić przeróbki pod jego gusta?

Tak jest. Talent, doświadczenie, pewna wrażliwość i umiejętność pracy nad filmem jest wymagana do każdej produkcji, także tej z wykorzystaniem AI. Tego technologia nigdy nie zastąpi.