DeepSeek cenzuruje hasła o Tienanmen. Chińskie AI to "moment na miarę Sputnika"

Wiktor Knowski

28 stycznia 2025, 16:08 • 1 minuta czytania

Nieznany dotąd startup wywołał panikę w amerykańskiej branży AI. Okazało się, że ograniczony budżet i mniejszy dostęp do technologii wcale nie muszą powstrzymać nowych graczy do dołączenia do wyścigu z gigantami pokroju Google i OpenAI. Tylko że z chińskim modelem AI nie porozmawiasz tak swobodnie.

A co, jeśli model, z którego korzystamy, nie wierzy w wydarzenia na placu Tiananmen? Fot.: Andy Wong/Associated Press/East News

Więcej ciekawych artykułów znajdziesz na stronie głównej

"Deepseek R1 to dla branży AI moment na miarę Sputnika" – skomentował wydanie rozumującego modelu przez chińskiego producenta Marc Andreessen, partner w Andreessen Horowitz.

O DeepSeek pierwszy raz zrobiło się głośno w ubiegłym miesiącu, kiedy ten nieznany startup ogłosił, że mimo znacznych ograniczeń technologicznych i finansowych, zdołał stworzyć model AI zdolny konkurować z produktami OpenAI. Tym samym podważył kilka dogmatów branży technologicznej.

Po pierwsze pokazał, że stworzenie skutecznego modelu AI nie wymaga dziesiątek milionów dolarów. Po drugie – można to zrobić, wykorzystując zdecydowanie mniejszą ilość chipów. Po trzecie – branża AI wcale nie należy do Stanów Zjednoczonych.

Czytaj także: https://innpoland.pl/210158,co-najwieksza-banka-finansowa-cyfrowego-swiata-mowi-nam-o-ai

Nie tylko Dolina Krzemowa

W poniedziałek akcje największych firm technologicznych w USA poleciały w dół. Najbardziej ucierpiała Nvidia – firma, która do tej pory zyskała najwięcej na rewolucji AI, na której chipach bazują wszystkie znane modele. Panika na giełdzie sprawiła, że w kilka godzin wartość rynkowa spółki spadła o 600 mld dol.

W końcu DeepSeek pokazało, że jakość budowanego modelu nie jest wprost proporcjonalna do ilości posiadanych chipów Nvidii. Zwykle chatboty szkolone są przy użyciu superkomputerów bazujących na ok. 16 tys. procesorach graficznych (jak w przypadku najnowszego modelu od Meta). DeepSeek zdołał osiągnąć podobny wynik na 2 tys.

Jak twierdzi startup, koszt wyprodukowania modelu V3 wyniósł ok. 6 mln dol. Dla porównania produkcja ChataGPT-4 kosztowała ponad 100 mln dol. Może to oznaczać, że wyścig AI będzie miał coraz więcej uczestników, których siedziby nie będą tylko w San Francisco.

"Stało się jasne, że inne firmy, a nie tylko OpenAI, mogą budować tego typu systemy" – komentował Tim Dettmers, badacz w Allen Institute for Artificial Intelligence. "DeepSeek korzysta z metod, które każdy może powtórzyć".

Czytaj także: https://innpoland.pl/210824,wstrzasajacy-debiut-deepseek-akcje-nvidii-rekordowo-pikuja

Deklaracje startupu i panika na rynkach technologicznych to jednak nie są do końca rzetelne informacje. Według specjalistów rzeczywiste koszty produkcji modeli DeepSeek, a w szczególności ich ostatniego modelu rozumującego, są zdecydowanie większe.

"Z dostępnych informacji wynika, że model V3 został wytrenowany za około 6 milionów dolarów, jednak koszt trenowania późniejszego modelu R1 pozostaje nieznany" – mówi Radosław Mechło, doradca ds. AI w firmie BUZZcenter.

"Spekuluje się, że firma DeepSeek wykorzystała ogromną infrastrukturę obliczeniową: 10 tysięcy procesorów H800 oraz 50 tysięcy H100, co w sumie może być warte ponad 2 miliardy dolarów".

Więcej za mniej

Szkolenie systemów AI polega na określaniu wzorców w ramach ogromnych baz danych. Inżynierowie DeepSeek zademonstrowali zdecydowanie bardziej wydajny sposób przeprowadzania tego procesu. Innowacyjna technika chińskiego startupu polega na dzieleniu analizy danych na kilka wyspecjalizowanych modeli, jednocześnie minimalizując czas tracony na przenoszenie danych między nimi.

Sam podział analizy danych, nazywany "miksem ekspertów", nie jest w końcu nową techniką. DeepSeek zdołało jednak przeprowadzić ten proces w taki sposób, żeby drastycznie zmniejszyć wymaganą do niego moc obliczeniową.

Dzięki tym rozwiązaniom udało im się zaprezentować dwa główne modele: DeepSeek-V3 i DeepSeek R1. To drugi z nich wywołał panikę w amerykańskiej branży AI. Jest to odpowiedź chińskiego startupu na modele rozumujące, takie jak ChatGPT o3, a osiągane przez niego rezultaty są porównywalne do jego amerykańskiej konkurencji.

Czytaj także: https://innpoland.pl/210827,janus-pro-od-deepseek-nowy-model-graficznej-ai

Nie pytaj mnie o plac Tiananmen

Przypadek DeepSeek pokazuje nie tylko, że nie są konieczne tak gigantyczne środki, ani status w branży, żeby uczestniczyć w rewolucji AI. Chiński startup konkurujący z firmami pokroju Google’a czy OpenAI rzuca nowe światło na relację między dwoma najpotężniejszymi mocarstwami współczesnego świata – USA i Chinami.

Trwające embargo na chipy nie powstrzymało chińskiego producenta przed stworzeniem technologii, która nie tylko może konkurować z amerykańskimi odpowiednikami, ale również zyskuje popularność na zachodnich rynkach. Przez weekend aplikacja DeepSeek wybiła się w końcu na szczyt popularności App Store.

Czytaj także: https://innpoland.pl/210716,testujemy-rednote-czerwona-ksiazeczke-uchodzcow-z-tiktoka

Dominacja na rynku sztucznej inteligencji ma również znaczenie w dziedzinie, której nie jesteśmy w stanie zmierzyć ani ilością czipów, ani kosztami produkcji. Modele AI coraz częściej stają się naszym pośrednikiem informacji i odpowiadają za narracje, do których mamy dostęp. Coraz częściej pomagają nam nie tylko ugotować obiad, ale również zrozumieć globalne wydarzenia.

A co, jeśli model, z którego korzystamy, nie wierzy w wydarzenia na placu Tiananmen? Co jeśli uważa, że Tajwan jest częścią Republiki Chińskiej? Co jeśli nie będzie z nami rozmawiał o Ujgurach?

Takim modelem jest właśnie DeepSeek. W odpowiedzi na tego typu zapytania odpowiada najczęściej: "Wybacz, jeszcze nie wiem, jak podejść do tego typu pytań."