Oto cud na Orlenie oczami AI. Nowy generator obrazów w Bing jest kosmiczny (i darmowy)
Czyżby w końcu rzetelny powód do używania Binga? Żarty na bok, bo AI Microsoftu otrzymuje szybciej dostęp do DALLE-3 niż ChatGPT. Czym w ogóle jest ten program i jak działa? Wyjaśniamy, przy okazji zaciągając generator do ilustrowania kilku wybranych tekstów z INNPoland.
Co to jest DALL-E 3
To trzecia wersja modelu sztucznej inteligencji generującego obrazy, również autorstwa OpenAI. Teraz wyposażone w lepsze zrozumienie poleceń, zwiększoną kreatywność i możliwość tworzenia fotorealistycznych obrazów. Został zintegrowany z Bing jako element chatbota i poprzez rozmowę z nim będziemy doskonalić umiejętności maszyny. W październiku 2023 planowane jest wdrożenie generatora do ChatGPT, dla użytkowników płatnych wersji.
Jak go użyć? Jest to banalnie łatwe - możemy wygenerować 50 bezpłatnych grafik dziennie, pisząc do chatbota na tej stronie (wymagane jest posiadanie konta Microsoft). Rozumie polecenia po angielsku, polsku i w innych językach.
Formuły mogą być skomplikowane, możemy doprecyzować detale albo jakie szczegóły chcemy. Na powyższym przykładzie, nawiązując do tekstu o Antynoblach 2023, poprosiłem AI o wprowadzenie ludzików Lego, a całość wykonaną w stylu Vincenta van Gogha. Im więcej szczegółów, tym bardziej precyzyjnie kreuje. Ja byłem szczególnie zadowolony z grafik w stylu science fiction.
Przy tworzeniu Bing podrzuca nam kolejne sugestie - gotowe formuły, podpowiedź zmiany stylu, albo obiektu na inny. Możemy też dać się zaskoczyć losową grafiką. Po skończeniu tworzenia, program zaproponuje nam kilka wersji obrazka, które możemy zapisać i udostępniać znajomym.
Jeśli tokeny na grafiki się wyczerpią, to tworzenie obrazów trwa zwyczajnie dłużej. Zainteresowanie jest spore i wpływa na prędkość działania Bing. Bawiłem się jeszcze chwilę z DALL-E na początku października i co pewien czas spotykałem się z komunikatem: "Z powodu dużego zapotrzebowania nie możemy przetworzyć nowych żądań. Spróbuj ponownie później."
Zabezpieczenia DALL-E 3
Warto zwrócić uwagę, że DALL-E 3 ma silne narzędzia bezpieczeństwa. Nie pozwala nam tworzyć obrazów znanych postaci publicznych, tworzyć treści obraźliwych czy dla dorosłych. Wyświetla wtedy komunikat: "Ten monit został zablokowany. Nasz system automatycznie oflagował ten monit, ponieważ może on powodować konflikt z naszymi zasadami dotyczącymi zawartości. Więcej naruszeń zasad może prowadzić do automatycznego zawieszenia dostępu."
W razie problemu jest możliwość odwołania się, bo czasem system reaguje zbyt ostro. Próbowałem np. stworzyć grafikę na podstawie tytułu felietonu o problemie polskich żołnierzy z brakiem podstawowego ekwipunku, ale AI miało problem z tematem majtek jak i żołnierzy. Dlatego obszedłem to nieco na około i dla polskiego kontekstu kazałem osadzić w rodzimej sztuce ludowej. Można być pewnym, że samo narzędzie raczej nie posłuży redakcji do generowania grafik do artykułów.
Nawet jeśli nie zostaniemy ostrzeżeni, nie zmusimy AI do wykreowania pewnych osób. Do głównego zdjęcia artykułu chciałem od DALL-E 3 Daniela Obajtka dokonującego cudu przy pylonie Orlenu. Efekt wciąż budzi uśmiech, ale w innych wariantach polecenia AI tworzyło losowych mężczyzn w miejscu prezesa Orlenu albo zastępowało go figurami religijnymi, z czym problemu już nie ma.
O samym Orlenie i cudach z cenami paliw pisaliśmy już wielokrotnie na łamach INNPoland. Więc tematy około polityczne pozostają bezpieczne, ale osoby znane światowej publice odpadają. Przy próbie stworzenia obrazka z Donaldem Tuskiem albo Jarosławem Kaczyńskim (a zapragnąłem niewinnego mema z jego kotem) dostawałem natychmiastowe ostrzeżenie.
Wśród zabezpieczeń pojawiły się również znaki wodne, umożliwiające identyfikację każdego obrazu jako treść stworzoną przez sztuczną inteligencję.
Z kolei tak wygenerował polecenie "idealne osiedle lewicy", do którego zainspirował mnie artykuł o podróży redakcyjnego kolegi do Wiednia. Jak widać, AI popłynęło z wyobraźnią w stronę zielonych technologii. Znając życie, Adrian Zandberg chętnie przeprowadziłby tutaj konwencję mieszkaniową.
Poprosiłem o wersję tego prompta w stylu pixelart i otrzymałem coś bardziej zbliżonego, do tego co widział Kamil… acz pewien jestem, że w czasie wizyty w Wiedniu nie przyświecało im słońce z sierpem i młotem.
To może teraz przetestujmy jak sobie radzi z czymś bardziej skomplikowanym. Polecenie: "wygeneruj wyjaśnienie hipotezy "Grabby Aliens" na jednym obrazku, ale w stylu plakatu filmowego z lat 60". Efekty były w większości skupione na chwytaniu różnych rzeczy (tłumaczenie "grabby" to chwytające) i mogłem napatrzeć się na typowo spotworniałe ręce w wykonaniu AI, ale przy jednym Bing i DALL-E nawet trafili w coś zbliżonego do tematu artykułu.
Rozwój DALL-E 3
Microsoft planuje wdrożyć to narzędzie do innych flagowych programów. Bezpośrednio do Windows przeniesie go w przyszłości aplikacja Paint Cocreator. Zainteresowania takimi narzędziami z pewnością nie brakuje.