GPT-4o od OpenAI. Już wiemy, co potrafi omni?

Co potrafi GPT-4o? Fot. zrzut ekranu/OpenAI 
W poniedziałek wieczorem 13 maja OpenAI zaprezentowali swój najnowszy model GPT-4o. Nazwano go "przyszłością interakcji między nami a maszynami". Sztuczna inteligencja będzie odpowiadała ekspresyjnie i asystowała w wielu zadaniach.
Więcej ciekawych artykułów znajdziesz na stronie głównej INNPoland.pl
REKLAMA 
Świat technologii czekał z zapartym tchem na nowe ogłoszenie od OpenAI, twórców słynnego ChatGPT. Kiedy ostatnio odkryli karty z Sorą, modelem tworzącym filmy, wiele osób zbierało szczęki z podłogi. Wygląda na to, że wczoraj o 19 czasu polskiego znowu zrzucili prawdziwą "bombę" z GPT-4o.
Zachęcamy do subskrybowania kanału INN:Poland na YouTube. Twoje ulubione programy "Rozmowa tygodnia", "Po ludzku o ekonomii" i "Koszyka Bagińskiego" możesz oglądać TUTAJ.
Co to jest GPT-4o?
"O" w nazwie stoi za "omni", czyli wszech, jak wszechstronny. Aktualizacja jednego z najpopularniejszych AI ma przyjmować jako dane wejściowe dowolną kombinację tekstu, dźwięku i obrazu i odpowiedzieć… tym samym, w zależności od naszych potrzeb. Na przykład zinterpretuje nam odgłosy ptaków albo narysuje wykres z opisu.
REKLAMA 
Jego zaletą ma być szybki czas reakcji. Jak podaje OpenAI GPT-4o ma poradzić sobie z sygnałami dźwiękowymi w ciągu 232 milisekund, porównywalnie z czasem reakcji człowieka.
W osiągach dogania więc Chat GPT-4 Turbo. A czy w precyzji? OpenAI nie kryją się, że przed modelem jeszcze długa droga. Nowy model korzysta z tej samej sieci neuronowej co starszy typ, a dodatkowo po raz pierwszy łączy w sobie obsługę kilku modułów.
"Dopiero zaczęliśmy badać wierzchołek góry lodowej, tego, co ten model potrafi i jakie ma ograniczenia" – informuje OpenAI.
Więc co właściwie potrafi? Na materiałach od OpenAI widzimy, jak z jego pomocą ChatGPT prowadzi konwersację, korzystając z ekspresyjnego, naturalnego języka, dobierając nowe głosy. To jednak blednie w porównaniu do funkcji rozpoznawania audio i obrazów. 
Możemy poprosić, aby maszyna oceniła nasz ubiór albo pokazać jej zadanie domowe na kartce, które szybko zacznie wypełniać. Posłuży też za tłumacza na żywo, lepiej też rozpoznaje emocje. 
REKLAMA 
Dla mnie najbardziej imponującym pokazem było nagranie, gdzie GPT-4o działa jako oczy dla osoby niewidomej. Opisuje baraszkujące w wodzie kaczki, potrafi dać znać, czy nadjeżdża wolna taksówka. Sam Altman określił te możliwości jako "magiczne".
Zobacz także
ChatGPT dostałby pałę z j. polskiego. Uczniowie nie powinni na nim polegać
Wpadka Amazona. Zamiast AI, ludzi obsługiwało 1000 Hindusów
GPT-4o zostanie udostępniony wszystkim użytkownikom w bezpłatnej wersji ChatGPT. Demonstracja wykorzystywała aplikację na komputery Mac z trybem głosowym, który będzie obecny wyłącznie na urządzeniach mobilnych. Na skorzystanie z tych wszystkich bajerów poczekamy kilka tygodni, będą one wprowadzane stopniowo. Wedle zapowiedzi dostaniemy najwcześniej opcje głosowe. 
REKLAMA 
Podobnie jak z Sorą, częścią opóźnienia we wdrożeniu GPT-4o są kwestie bezpieczeństwa, szczególnie ws. odczytywania obrazów i audio.
Firma dąży też do zrezygnowania z rejestracji, aby skorzystać za darmo z ChatGPT.
Masz propozycję tematu? Chcesz opowiedzieć ciekawą historię? Odezwij się do nas na kontakt@innpoland.pl
Wielofunkcyjni asystenci AI
Wejście GPT-4o jest częścią wyścigu nowej generacji sztucznej inteligencji, łączącej w sobie wiele różnych narzędzi. Jeśli opisywane powyżej funkcje wydają się czytelnikom znajome, to być może dlatego, że Google oferowało już takie cuda w ich Gemini. Okazało się jednak, że prezentacja była zmontowana, a AI w rzeczywistości wcale tak szybko nie pracowało. A też miało być magicznie.
REKLAMA 
Dlatego zostawiam sobie szczyptę sceptycyzmu, co do oferty OpenAI. Pamiętajmy też, że publicznie dostępna wersja ChatGPT bywa zawodna. Poczekamy, zobaczymy.
Pewnie przy okazji znowu wróci temat AGI, czyli sztucznej inteligencji zdolnej do robienia tego, co my. Eksperci nie są przekonani, że takiej doczekamy się niedługo, ale pojawienie się GPT-4o przewidywali trafnie.
– Kiedy chcemy zaprojektować taki system, to musimy albo połączyć kilka modeli, albo starać się o model multimodalny o wysokiej dokładności, którego jeszcze tak naprawdę nie prezentują duże firmy typu Google albo OpenAI. Pierwszą taką próbą jest Gemini od Google. Stawiałam jeszcze, że wyprzedzi ich OpenAI – powiedziała w rozmowie z INNPoland Maria Kabacińska Mikołajczak, zajmującą się m.in. programem GenAI (generatywnej AI) i nauczaniem maszynowym.
REKLAMA 
Z ekspertką rozmawialiśmy o tym, co może przynieść najbliższy rok w dziedzinie AI, a cały wywiad przeczytacie na INNPoland.
Czytaj także:
TechnologieCzy rok 2024 będzie spod znaku AGI? Wywiad z ekspertką
OpenAI znowu wypuszcza torpedę. GPT-4o ma mieć wręcz "magiczne" właściwości

Co to jest GPT-4o?

Wielofunkcyjni asystenci AI