OpenAI znowu wypuszcza torpedę. GPT-4o ma mieć wręcz "magiczne" właściwości
Świat technologii czekał z zapartym tchem na nowe ogłoszenie od OpenAI, twórców słynnego ChatGPT. Kiedy ostatnio odkryli karty z Sorą, modelem tworzącym filmy, wiele osób zbierało szczęki z podłogi. Wygląda na to, że wczoraj o 19 czasu polskiego znowu zrzucili prawdziwą "bombę" z GPT-4o.
Co to jest GPT-4o?
"O" w nazwie stoi za "omni", czyli wszech, jak wszechstronny. Aktualizacja jednego z najpopularniejszych AI ma przyjmować jako dane wejściowe dowolną kombinację tekstu, dźwięku i obrazu i odpowiedzieć… tym samym, w zależności od naszych potrzeb. Na przykład zinterpretuje nam odgłosy ptaków albo narysuje wykres z opisu.
Jego zaletą ma być szybki czas reakcji. Jak podaje OpenAI GPT-4o ma poradzić sobie z sygnałami dźwiękowymi w ciągu 232 milisekund, porównywalnie z czasem reakcji człowieka.
W osiągach dogania więc Chat GPT-4 Turbo. A czy w precyzji? OpenAI nie kryją się, że przed modelem jeszcze długa droga. Nowy model korzysta z tej samej sieci neuronowej co starszy typ, a dodatkowo po raz pierwszy łączy w sobie obsługę kilku modułów.
"Dopiero zaczęliśmy badać wierzchołek góry lodowej, tego, co ten model potrafi i jakie ma ograniczenia" – informuje OpenAI.
Więc co właściwie potrafi? Na materiałach od OpenAI widzimy, jak z jego pomocą ChatGPT prowadzi konwersację, korzystając z ekspresyjnego, naturalnego języka, dobierając nowe głosy. To jednak blednie w porównaniu do funkcji rozpoznawania audio i obrazów.
Możemy poprosić, aby maszyna oceniła nasz ubiór albo pokazać jej zadanie domowe na kartce, które szybko zacznie wypełniać. Posłuży też za tłumacza na żywo, lepiej też rozpoznaje emocje.
Dla mnie najbardziej imponującym pokazem było nagranie, gdzie GPT-4o działa jako oczy dla osoby niewidomej. Opisuje baraszkujące w wodzie kaczki, potrafi dać znać, czy nadjeżdża wolna taksówka. Sam Altman określił te możliwości jako "magiczne".
GPT-4o zostanie udostępniony wszystkim użytkownikom w bezpłatnej wersji ChatGPT. Demonstracja wykorzystywała aplikację na komputery Mac z trybem głosowym, który będzie obecny wyłącznie na urządzeniach mobilnych. Na skorzystanie z tych wszystkich bajerów poczekamy kilka tygodni, będą one wprowadzane stopniowo. Wedle zapowiedzi dostaniemy najwcześniej opcje głosowe.
Podobnie jak z Sorą, częścią opóźnienia we wdrożeniu GPT-4o są kwestie bezpieczeństwa, szczególnie ws. odczytywania obrazów i audio.
Firma dąży też do zrezygnowania z rejestracji, aby skorzystać za darmo z ChatGPT.
Wielofunkcyjni asystenci AI
Wejście GPT-4o jest częścią wyścigu nowej generacji sztucznej inteligencji, łączącej w sobie wiele różnych narzędzi. Jeśli opisywane powyżej funkcje wydają się czytelnikom znajome, to być może dlatego, że Google oferowało już takie cuda w ich Gemini. Okazało się jednak, że prezentacja była zmontowana, a AI w rzeczywistości wcale tak szybko nie pracowało. A też miało być magicznie.
Dlatego zostawiam sobie szczyptę sceptycyzmu, co do oferty OpenAI. Pamiętajmy też, że publicznie dostępna wersja ChatGPT bywa zawodna. Poczekamy, zobaczymy.
Pewnie przy okazji znowu wróci temat AGI, czyli sztucznej inteligencji zdolnej do robienia tego, co my. Eksperci nie są przekonani, że takiej doczekamy się niedługo, ale pojawienie się GPT-4o przewidywali trafnie.
– Kiedy chcemy zaprojektować taki system, to musimy albo połączyć kilka modeli, albo starać się o model multimodalny o wysokiej dokładności, którego jeszcze tak naprawdę nie prezentują duże firmy typu Google albo OpenAI. Pierwszą taką próbą jest Gemini od Google. Stawiałam jeszcze, że wyprzedzi ich OpenAI – powiedziała w rozmowie z INNPoland Maria Kabacińska Mikołajczak, zajmującą się m.in. programem GenAI (generatywnej AI) i nauczaniem maszynowym.
Z ekspertką rozmawialiśmy o tym, co może przynieść najbliższy rok w dziedzinie AI, a cały wywiad przeczytacie na INNPoland.
Czytaj także: https://innpoland.pl/202871,nowy-bog-urodzi-sie-w-chinach-wywiad