Pełna treść przemówienia Huanga Renxuna wygłoszonego podczas konferencji GTC: Nadeszła era wnioskowania – przewiduje się, że do 2027 roku przychody z tego sektora osiągną co najmniej bilion dolarów, a „Lobster” jest nowym systemem operacyjnym

By: rootdata|2026/03/17 12:54:44
0
Udostępnij
copy

16 marca 2026 r. oficjalnie rozpoczęła się konferencja NVIDIA GTC 2026, a przemówienie inauguracyjne wygłosił założyciel i dyrektor generalny firmy NVIDIA, Jensen Huang.

Podczas tej konferencji, uznawanej za „coroczną pielgrzymkę branży sztucznej inteligencji”, Huang szczegółowo omówił transformację firmy NVIDIA z „producenta chipów” w „dostawcę infrastruktury i rozwiązań w zakresie sztucznej inteligencji”. Odnosząc się do obaw rynku dotyczących trwałości wyników i potencjału wzrostu, Huang szczegółowo opisał podstawową logikę biznesową napędzającą przyszły wzrost – „ekonomię fabryki tokenów”.

Prognozy dotyczące wyników są niezwykle optymistyczne: „Popyt wyniesie co najmniej 1 bilion dolarów do 2027 roku”

W ciągu ostatnich dwóch lat światowe zapotrzebowanie na moc obliczeniową w zakresie sztucznej inteligencji wzrosło wykładniczo. Wraz z ewolucją dużych modeli od etapów „postrzegania” i „generowania” do etapów „wnioskowania” i „działania (wykonywania zadań)” zużycie mocy obliczeniowej gwałtownie wzrosło. W odpowiedzi na obawy rynku dotyczące limitów zamówień i przychodów Huang przedstawił bardzo optymistyczne prognozy.

Huang stwierdził w swoim przemówieniu:

W zeszłym roku o tej porze wspomniałem, że odnotowaliśmy prognozę popytu o wysokim stopniu pewności na poziomie 500 miliardów dolarów, obejmującą firmy Blackwell i Rubin do 2026 roku. W tej chwili szacuję, że do 2027 roku popyt wyniesie co najmniej 1 bilion dolarów.

Prognoza Huanga dotycząca wartości rynkowej na poziomie biliona dolarów spowodowała kiedyś wzrost kursu akcji firmy NVIDIA o ponad 4,3%.

Ponadto podał dodatkowe wyjaśnienie dotyczące tej liczby:

Czy to rozsądne? O tym właśnie zamierzam teraz opowiedzieć. W rzeczywistości możemy nawet stanąć w obliczu niedoborów dostaw. Jestem pewien, że rzeczywiste zapotrzebowanie na moc obliczeniową będzie znacznie większe.

Huang zwrócił uwagę, że dzisiejsze systemy NVIDIA sprawdziły się jako „najtańsza infrastruktura” na świecie. Ponieważ NVIDIA umożliwia uruchamianie modeli sztucznej inteligencji w niemal każdej dziedzinie, ta wszechstronność gwarantuje, że zainwestowany przez klientów 1 bilion dolarów może zostać w pełni wykorzystany i utrzymany przez cały długi cykl życia.

Obecnie 60% obrotów firmy NVIDIA pochodzi od pięciu największych dostawców usług chmury hiperskalowej, natomiast pozostałe 40% rozkłada się na chmury państwowe, przedsiębiorstwa, różne branże, robotykę oraz przetwarzanie brzegowe.

Ekonomia produkcji tokenów, gdzie wydajność na wat stanowi siłę napędową biznesu

Aby uzasadnić zasadność tego żądania wartego 1 bilion dolarów, Huang przedstawił prezesom światowych korporacji nowe podejście do biznesu. Zwrócił uwagę, że przyszłe centra danych nie będą już magazynami służącymi do przechowywania plików, lecz „fabrykami” wytwarzającymi tokeny (podstawową jednostkę generowaną przez sztuczną inteligencję).

Huang podkreślił:

Każde centrum danych i każda fabryka są ograniczone pod względem zasilania. Fabryka o mocy 1 GW (gigawata) nigdy nie stanie się fabryką o mocy 2 GW; to prawo fizyki i atomów. Przy stałej mocy ten, kto osiąga największą przepustowość tokenów na wat, będzie miał najniższe koszty produkcji.

Huang podzielił przyszłe usługi oparte na sztucznej inteligencji na cztery poziomy biznesowe:

  • Pakiet bezpłatny (duża przepustowość, niska prędkość)
  • Średni poziom (ok. 3 USD za milion tokenów)
  • Najwyższy poziom (ok. 6 USD za milion tokenów)
  • Poziom szybki (ok. 45 USD za milion tokenów)
  • Poziom ultraszybki (~150 USD za milion tokenów)

Zauważył, że wraz ze wzrostem rozmiarów modeli i wydłużaniem się kontekstów sztuczna inteligencja będzie stawać się coraz bardziej zaawansowana, ale tempo generowania tokenów ulegnie zmniejszeniu. Huang stwierdził:

W tej Token Factory wydajność i tempo generowania tokenów bezpośrednio przełożą się na konkretne przychody w przyszłym roku.

Huang podkreślił, że architektura firmy NVIDIA pozwala klientom osiągać niezwykle wysoką przepustowość w ramach bezpłatnego pakietu, a jednocześnie zapewnia aż 35-krotny wzrost wydajności w ramach najdroższego pakietu przeznaczonego do wnioskowania.

Vera Rubin osiąga 350-krotne przyspieszenie w ciągu dwóch lat, a Groq wypełnia lukę w zakresie ultraszybkiego wnioskowania

W obliczu fizycznych ograniczeń firma NVIDIA zaprezentowała swój najbardziej złożony jak dotąd system obliczeniowy oparty na sztucznej inteligencji – Vera Rubin. Huang stwierdził:

Kiedyś, gdy wspominałem o Hopperze, pokazywałem chip, co było fajne. Ale kiedy mowa o Verze Rubin, wszyscy mają na myśli cały system. W tym systemie, w 100% chłodzonym cieczą, który całkowicie eliminuje tradycyjne okablowanie, montaż szaf, który wcześniej zajmował dwa dni, trwa teraz zaledwie dwie godziny.

Huang zwrócił uwagę, że dzięki kompleksowemu, zintegrowanemu projektowaniu sprzętu i oprogramowania firma Vera Rubin osiągnęła zdumiewający wzrost wydajności przetwarzania danych w ramach tego samego centrum danych o mocy 1 GW:

W ciągu zaledwie dwóch lat zwiększyliśmy tempo generowania tokenów z 22 milionów do 700 milionów, osiągając 350-krotny wzrost. W tym samym okresie prawo Moore'a pozwoliło osiągnąć jedynie 1,5-krotny wzrost.

Aby rozwiązać problem wąskiego gardła przepustowości w warunkach ultraszybkiego wnioskowania (np. 1000 tokenów na sekundę), firma NVIDIA przedstawiła ostateczne rozwiązanie poprzez integrację przejętej firmy Groq: asymetryczne wnioskowanie rozdzielone. Huang wyjaśnił:

Te dwa procesory mają zupełnie odmienne właściwości. Układ Groq posiada 500 MB pamięci SRAM, natomiast układ Rubin ma 288 GB pamięci.

Huang zauważył, że firma NVIDIA, korzystając z systemu oprogramowania Dynamo, przydziela procesorowi Vera Rubin etap „wstępnego wypełniania”, który wymaga ogromnej mocy obliczeniowej i dużej ilości pamięci graficznej, natomiast etap „dekodowania”, który jest niezwykle wrażliwy na opóźnienia, przydziela się procesorowi Groq. Huang przedstawił również sugestie dotyczące konfiguracji mocy obliczeniowej w przedsiębiorstwie:

Jeśli Twoje obciążenie charakteryzuje się głównie wysoką przepustowością, wykorzystaj w 100% platformę Vera Rubin; jeśli natomiast masz duże zapotrzebowanie na generowanie tokenów o wysokiej wartości na poziomie programowania, przeznacz 25% mocy obliczeniowej centrum danych na platformę Groq.

Okazało się, że chip Groq LP30, produkowany przez firmę Samsung, wszedł do masowej produkcji i ma trafić do sprzedaży w trzecim kwartale, podczas gdy pierwsza szafa serwerowa Vera Rubin działa już w chmurze Microsoft Azure.

Ponadto, jeśli chodzi o technologię połączeń optycznych, Huang zaprezentował pierwszy na świecie produkowany seryjnie przełącznik optyczny typu CPO (Co-Packaged Optical) o nazwie Spectrum X i rozwiał obawy rynku dotyczące ścieżki „przejścia z miedzi na optykę”:

Potrzebujemy większej przepustowości kabli miedzianych, większej przepustowości układów optycznych oraz większej przepustowości CPO.

Cena --

--

Agent rezygnuje z tradycyjnego modelu SaaS, a model „wynagrodzenie + tokeny” staje się standardem w Dolinie Krzemowej

Oprócz barier sprzętowych Huang poświęcił znaczną część swojego wystąpienia rewolucji w dziedzinie oprogramowania i ekosystemów sztucznej inteligencji, a zwłaszcza gwałtownemu rozwojowi agentów.

Opisał projekt open source OpenClaw jako „najpopularniejszy projekt open source w historii ludzkości”, twierdząc, że w ciągu zaledwie kilku tygodni przewyższył on osiągnięcia systemu Linux z ostatnich 30 lat. Huang stwierdził wprost, że OpenClaw jest w istocie „systemem operacyjnym” dla komputerów-agentów.

Huang stwierdził:

Każda firma działająca w modelu SaaS (Software as a Service) przekształci się w firmę działającą w modelu AaaS (Agent-as-a-Service). Nie ulega wątpliwości, że aby zapewnić bezpieczne wdrażanie tych agentów, które mają możliwość dostępu do poufnych danych i wykonywania kodu, firma NVIDIA wprowadziła na rynek projekt referencyjny NeMo Claw przeznaczony dla przedsiębiorstw, wyposażony w silnik zasad i router prywatności.

Dla zwykłych profesjonalistów ta przemiana również jest tuż za rogiem. Huang wyobraził sobie nową formę miejsca pracy w przyszłości:

W przyszłości każdy inżynier w naszej firmie będzie potrzebował rocznego budżetu na tokeny. Ich pensja podstawowa może wynosić setki tysięcy dolarów, a ja przeznaczę dla nich około połowy tej kwoty w ramach symbolicznego limitu, co pozwoli im osiągnąć dziesięciokrotny wzrost wydajności. W Dolinie Krzemowej stało się to już nowym atutem przy rekrutacji: ile tokenów obejmuje Twoja oferta?

Pod koniec przemówienia Huang ujawnił również szczegóły dotyczące architektury obliczeniowej nowej generacji o nazwie Feynman, która jako pierwsza w historii umożliwi wspólne skalowanie horyzontalne przewodów miedzianych i układów CPO. Co ciekawe, firma NVIDIA pracuje nad komputerem przeznaczonym do centrów danych w kosmosie, „Vera Rubin Space-1”, który pozwala w pełni wyobrazić sobie, jak moc obliczeniowa sztucznej inteligencji może wykraczać poza granice Ziemi.

Pełny tekst przemówienia Jensena Huanga wygłoszonego podczas konferencji GTC 2026 brzmi następująco (przy pomocy narzędzi AI):

Prowadzący: Zapraszamy na scenę założyciela i dyrektora generalnego firmy NVIDIA, Jensena Huanga.

Jensen Huang, założyciel i dyrektor generalny:

Witamy w GTC. Chciałbym wszystkim przypomnieć, że jest to konferencja poświęcona technologii. Bardzo się cieszę, widząc tak wiele osób stojących w kolejce już wczesnym rankiem i widząc was wszystkich tutaj.

Podczas konferencji GTC skupimy się na trzech głównych tematach: technologii, platformie i ekosystemie. Obecnie firma NVIDIA oferuje trzy główne platformy: platformę CUDA-X, platformę systemową oraz naszą nowo wprowadzoną platformę AI Factory.

Zanim oficjalnie zaczniemy, chciałbym podziękować prowadzącym sesję wprowadzającą – Sarah Guo z Conviction, Alfredowi Linowi z Sequoia Capital (pierwszemu inwestorowi venture capital firmy NVIDIA) oraz Gavinowi Bakerowi, pierwszemu znaczącemu inwestorowi instytucjonalnemu firmy NVIDIA. Te trzy osoby charakteryzują się dogłębną znajomością technologii i wywierają szeroki wpływ na cały ekosystem technologiczny. Oczywiście pragnę również podziękować wszystkim szanownym gościom, których osobiście zaprosiłem na dzisiejsze spotkanie. Dziękujemy temu znakomitemu zespołowi.

Chciałbym również podziękować wszystkim firmom obecnym tutaj dzisiaj. NVIDIA to firma oferująca platformy; dysponujemy technologią, platformami oraz bogatym ekosystemem. Obecne tu dzisiaj firmy reprezentują niemal wszystkich uczestników tej wartej 100 bilionów dolarów branży; wydarzenie to sponsoruje 450 przedsiębiorstw, za co jestem im niezmiernie wdzięczny.

Podczas tej konferencji odbędzie się 1000 forów branżowych, a wystąpi 2000 prelegentów. Omówione zostaną wszystkie poziomy „pięciowarstwowej” architektury sztucznej inteligencji – od infrastruktury, takiej jak grunty, zasilanie i centra danych, po układy scalone, platformy, modele oraz różnorodne aplikacje, które ostatecznie napędzają rozwój całej branży.

CUDA: Dwie dekady rozwoju technologicznego

Wszystko zaczyna się tutaj. W tym roku mija 20 lat od powstania CUDA.

Od dwudziestu lat zajmujemy się rozwojem tej architektury. CUDA to rewolucyjny wynalazek — technologia SIMT (Single Instruction Multiple Threads) pozwala programistom pisać programy w kodzie skalarnym i rozszerzać je na aplikacje wielowątkowe, przy czym poziom trudności programowania jest znacznie niższy niż w przypadku poprzednich architektur SIMD. Niedawno wprowadziliśmy funkcję Tiles, aby ułatwić programistom pisanie kodu dla rdzeni tensorowych, a także udostępniliśmy różne struktury operacji matematycznych, z których korzystają współczesne systemy sztucznej inteligencji. Obecnie CUDA oferuje tysiące narzędzi, kompilatorów, frameworków i bibliotek, a społeczność open source może pochwalić się setkami tysięcy publicznie dostępnych projektów; technologia ta została głęboko zintegrowana z każdym ekosystemem technologicznym.

Ten wykres pokazuje w pełni strategiczną logikę firmy NVIDIA, o której mówiłem od samego początku. Najtrudniejszym i najważniejszym elementem jest „baza zainstalowanych urządzeń” znajdująca się na dole wykresu. W ciągu ostatnich dwudziestu lat zgromadziliśmy na całym świecie setki milionów procesorów graficznych i systemów obliczeniowych wykorzystujących technologię CUDA.

Nasze procesory graficzne obsługują wszystkie platformy chmurowe i są wykorzystywane przez niemal wszystkich producentów komputerów oraz w niemal wszystkich branżach. Duża liczba użytkowników CUDA jest głównym powodem, dla którego ten efekt koła zamachowego wciąż nabiera tempa. Baza użytkowników przyciąga programistów, programiści tworzą nowe algorytmy i wprowadzają przełomowe rozwiązania, przełomowe rozwiązania generują nowe rynki, nowe rynki tworzą nowe ekosystemy i zachęcają kolejne firmy do dołączenia, co z kolei powoduje rozszerzenie bazy użytkowników – ten mechanizm napędza się sam i nieustannie nabiera tempa.

Liczba pobrań bibliotek NVIDIA rośnie w zadziwiającym tempie – skala jest ogromna, a tempo wciąż przyspiesza. To koło zamachowe pozwala naszej platformie obliczeniowej obsługiwać ogromne aplikacje i nieustannie wprowadzać nowe przełomowe rozwiązania.

Co ważniejsze, zapewnia to również tym obiektom infrastrukturalnym niezwykle długą żywotność. Powód jest oczywisty: istnieje mnóstwo aplikacji, które mogą działać w środowisku NVIDIA CUDA, obejmujących wszystkie etapy cyklu życia sztucznej inteligencji, różne platformy przetwarzania danych oraz różnorodne solwery oparte na zasadach naukowych. W związku z tym po zainstalowaniu procesorów graficznych NVIDIA ich rzeczywista wartość użytkowa jest niezwykle wysoka. To właśnie dlatego cena procesorów graficznych opartych na architekturze Ampere, które wprowadziliśmy na rynek sześć lat temu, w rzeczywistości rośnie.

Głównym powodem tego wszystkiego jest: duża baza użytkowników, silny efekt koła zamachowego oraz rozbudowany ekosystem programistów. Gdy te czynniki będą współdziałać, w połączeniu z naszymi ciągłymi aktualizacjami oprogramowania, koszty związane z obsługą komputerów będą nadal spadać. Przyspieszone przetwarzanie danych znacznie poprawia wydajność aplikacji, a dzięki długoterminowej konserwacji i ulepszaniu oprogramowania użytkownicy nie tylko zyskują początkowy skok wydajności, ale także mogą cieszyć się stale malejącymi kosztami przetwarzania danych. Jesteśmy gotowi zapewnić długoterminowe wsparcie dla wszystkich procesorów graficznych na całym świecie, ponieważ są one w pełni kompatybilne na poziomie architektury.

Jesteśmy gotowi to zrobić, ponieważ baza użytkowników jest tak duża – każda nowa aktualizacja przynosi korzyści milionom użytkowników. To dynamiczne połączenie pozwala architekturze NVIDIA nieustannie poszerzać swój zasięg, przyspieszać własny rozwój oraz stale obniżać koszty obliczeniowe, co ostatecznie stymuluje nowy wzrost. CUDA stanowi sedno tego wszystkiego.

Od GeForce do CUDA: 25 lat rozwoju

Nasza przygoda z CUDA rozpoczęła się właściwie już 25 lat temu.

GeForce – wielu z was dorastało wraz z GeForce. GeForce to najbardziej udany projekt marketingowy firmy NVIDIA. Zaczęliśmy zdobywać przyszłych klientów, kiedy jeszcze nie było was stać na nasze produkty – wasi rodzice stali się pierwszymi użytkownikami NVIDIA, kupując nasze produkty rok po roku, aż pewnego dnia wy dorośliście i staliście się znakomitymi informatykami, stając się prawdziwymi klientami i programistami.

To fundamenty, które firma GeForce położyła 25 lat temu. Dwadzieścia pięć lat temu stworzyliśmy programowalne moduły cieniujące – oczywisty, ale niezwykle znaczący wynalazek, który umożliwił programowanie akceleratorów, a także pierwszy na świecie programowalny akcelerator, czyli moduły cieniujące pikseli. Pięć lat później stworzyliśmy CUDA – jedną z naszych najważniejszych inwestycji w historii. W tamtym czasie firma dysponowała ograniczonymi środkami finansowymi, ale postawiliśmy na to większość naszych zysków, dążąc do rozszerzenia technologii CUDA z kart GeForce na wszystkie komputery. Byliśmy tak zdeterminowani, ponieważ wierzyliśmy w jego potencjał. Pomimo trudności na początkowym etapie firma trzymała się tej idei przez 13 pokoleń, czyli pełne dwadzieścia lat, a dziś CUDA jest wszechobecna.

To właśnie moduł cieniowania pikseli stał się motorem napędowym rewolucji w serii GeForce. Około osiem lat temu wprowadziliśmy na rynek RTX – kompleksową przebudowę architektury dostosowaną do potrzeb współczesnej grafiki komputerowej. To właśnie firma GeForce wprowadziła technologię CUDA na rynek, dzięki czemu wielu naukowców, takich jak Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton i Andrew Ng, odkryło, że procesory graficzne mogą stać się potężnymi narzędziami przyspieszającymi uczenie głębokie, co dziesięć lat temu zapoczątkowało gwałtowny rozwój sztucznej inteligencji.

Dziesięć lat temu postanowiliśmy połączyć programowalne cieniowanie z dwoma nowymi koncepcjami: jedną z nich było sprzętowe śledzenie promieni, co stanowi wyzwanie techniczne; drugą była wizjonerska koncepcja – już około dziesięć lat temu przewidzieliśmy, że sztuczna inteligencja zasadniczo zmieni obliczenia graficzne. Tak jak GeForce wprowadził sztuczną inteligencję do świata, tak teraz sztuczna inteligencja zmienia sposób tworzenia grafiki komputerowej.

Dzisiaj chcę wam pokazać przyszłość. To nasza technologia graficzna nowej generacji, którą nazywamy renderowaniem neuronowym – głęboką integracją grafiki 3D i sztucznej inteligencji. Oto DLSS 5, zapraszam do obejrzenia.

Renderowanie neuronowe: Połączenie danych strukturalnych i generatywnej sztucznej inteligencji

Czy to nie zapiera dech w piersiach? W ten sposób grafika komputerowa przeżywa swój renesans.

Co zrobiliśmy? Połączyliśmy sterowaną grafikę 3D (stanowiącą prawdziwą podstawę świata wirtualnego) z jej ustrukturyzowanymi danymi, a następnie wzbogaciliśmy ją o generatywną sztuczną inteligencję i obliczenia probabilistyczne. Jedno z nich jest całkowicie deterministyczne, podczas gdy drugie ma charakter probabilistyczny, ale jest bardzo realistyczne – połączyliśmy te dwie koncepcje w jedną, osiągając precyzyjną kontrolę dzięki uporządkowanym danym, a jednocześnie generując wyniki w czasie rzeczywistym. W sumie treść jest zarówno zachwycająca wizualnie, jak i w pełni kontrolowana.

Koncepcja łączenia informacji ustrukturyzowanych z generatywną sztuczną inteligencją będzie nadal znajdować zastosowanie w różnych branżach. Dane strukturalne stanowią podstawę niezawodnej sztucznej inteligencji.

Platforma do szybkiego przetwarzania danych ustrukturyzowanych i nieustrukturyzowanych

Teraz chciałbym pokazać wam schemat architektury technicznej.

Dane strukturalne – znane języki SQL, Spark, Pandas, Velox oraz ważne platformy, takie jak Snowflake, Databricks, Amazon EMR, Azure Fabric i Google BigQuery – wszystkie obsługują ramki danych. Te struktury danych są niczym ogromne arkusze kalkulacyjne, zawierające wszystkie informacje ze świata biznesu i stanowiące podstawowe dane (Ground Truth) w informatyce przedsiębiorstw.

W erze sztucznej inteligencji musimy umożliwić jej korzystanie ze strukturalnych danych i osiągnąć ogromne przyspieszenie. W przeszłości przyspieszenie przetwarzania danych strukturalnych miało na celu zwiększenie wydajności działania przedsiębiorstw. W przyszłości sztuczna inteligencja będzie wykorzystywać te struktury danych z prędkością znacznie przewyższającą ludzkie możliwości, a agenci AI będą w dużym stopniu polegać na ustrukturyzowanych bazach danych.

Jeśli chodzi o dane nieustrukturyzowane, to bazy danych wektorowych, pliki PDF, filmy, pliki audio itp. stanowią zdecydowaną większość form danych na świecie – około 90% danych generowanych każdego roku to dane nieustrukturyzowane. W przeszłości dane te były praktycznie bezużyteczne: przeglądaliśmy je, zapisywaliśmy w systemach plików i na tym się kończyło. Nie mogliśmy przeprowadzić wyszukiwania ani pobrać tych danych, ponieważ dane nieustrukturyzowane nie mają prostych metod indeksowania i należy je rozumieć w kontekście ich znaczenia i otoczenia. Obecnie sztuczna inteligencja jest w stanie to zrobić – dzięki technologiom wielomodalnej percepcji i rozumienia potrafi ona odczytywać dokumenty PDF, rozumieć ich treść oraz włączać je do szerszych struktur w celu przeprowadzania wyszukiwań.

W tym celu firma NVIDIA stworzyła dwie podstawowe biblioteki:

  • cuDF: do przyspieszonego przetwarzania ram danych i danych strukturalnych

  • cuVS: do przechowywania wektorów, danych semantycznych oraz przetwarzania nieustrukturyzowanych danych AI

Te dwie platformy staną się w przyszłości jednymi z najważniejszych platform podstawowych.

Dzisiaj ogłaszamy nawiązanie współpracy z kilkoma firmami. IBM – twórca języka SQL – wykorzysta cuDF do przyspieszenia działania swojej platformy WatsonX Data. Firma Dell nawiązała z nami współpracę w celu stworzenia platformy Dell AI Data Platform, integrującej biblioteki cuDF i cuVS, co pozwoliło osiągnąć znaczną poprawę wydajności w rzeczywistych projektach realizowanych wspólnie z NTT Data. Jeśli chodzi o Google Cloud, obecnie przyspieszamy nie tylko Vertex AI, ale także BigQuery, a ponadto nawiązaliśmy współpracę z firmą Snapchat, aby obniżyć jej koszty obliczeniowe o prawie 80%.

Zalety obliczeń przyspieszonych są trojakie: szybkość, skala i koszt. Jest to zgodne z logiką prawa Moore'a – polegającą na osiąganiu skokowego wzrostu wydajności dzięki przyspieszeniu obliczeniowemu przy jednoczesnej ciągłej optymalizacji algorytmów, co pozwala wszystkim korzystać z coraz niższych kosztów obliczeniowych.

Firma NVIDIA stworzyła platformę do obliczeń przyspieszonych, która łączy w sobie wiele bibliotek: RTX, cuDF, cuVS i inne. Biblioteki te są zintegrowane z globalnymi usługami w chmurze oraz systemami producentów OEM, dzięki czemu są dostępne dla użytkowników na całym świecie.

Ścisła współpraca z dostawcami usług w chmurze

Współpraca z głównymi dostawcami usług w chmurze

Google Cloud: Zwiększamy wydajność Vertex AI i BigQuery dzięki głębokiej integracji z JAX/XLA, zachowując jednocześnie doskonałą wydajność w środowisku PyTorch — NVIDIA jest jedynym na świecie akceleratorem, który działa równie dobrze zarówno w PyTorch, jak i w JAX/XLA. Wprowadziliśmy do ekosystemu Google Cloud takich klientów jak Base10, CrowdStrike, Puma i Salesforce.

AWS: Wspieramy rozwój platform EMR, SageMaker i Bedrock poprzez ścisłą integrację z AWS. W tym roku szczególnie cieszy mnie fakt, że wprowadzimy OpenAI do AWS, co znacznie przyspieszy wzrost wykorzystania chmury AWS i pomoże OpenAI rozszerzyć regionalne wdrożenia oraz zwiększyć skalę obliczeniową.

Microsoft Azure: Superkomputer firmy NVIDIA o mocy obliczeniowej 100 PFLOPS jest naszym pierwszym zbudowanym superkomputerem oraz pierwszym superkomputerem wdrożonym w platformie Azure, co stanowi ważny fundament współpracy z OpenAI. Przyspieszamy rozwój usług chmurowych Azure oraz platformy AI Foundry, współpracując na rzecz rozszerzenia zasięgu regionalnego platformy Azure oraz ściśle współpracując w zakresie wyszukiwarki Bing. Warto podkreślić, że dzięki naszej funkcji przetwarzania poufnego — która gwarantuje, że nawet operatorzy nie mają wglądu w dane użytkowników i modele — procesory graficzne NVIDIA należą do pierwszych na świecie, które obsługują przetwarzanie poufne, umożliwiając poufne wdrażanie modeli OpenAI i Anthropic w środowiskach chmurowych na całym świecie. Na przykład przyspieszamy wszystkie procesy EDA i CAD dla firmy Synopsys i wdrażamy je na platformie Microsoft Azure.

Oracle: Jesteśmy pierwszym klientem Oracle w dziedzinie sztucznej inteligencji i jestem dumny, że to właśnie ja jako pierwszy przedstawiłem firmie Oracle koncepcję chmury opartej na sztucznej inteligencji. Od tamtej pory nastąpił ich szybki rozwój, a my nawiązaliśmy współpracę z wieloma partnerami, takimi jak Cohere, Fireworks i OpenAI.

CoreWeave: Pierwsza na świecie chmura oparta na sztucznej inteligencji, stworzona z myślą o hostingu procesorów graficznych i usługach chmurowych w zakresie sztucznej inteligencji, charakteryzująca się doskonałą bazą klientów i silną dynamiką wzrostu.

Palantir i Dell: Trzy strony wspólnie stworzyły nową platformę sztucznej inteligencji opartą na platformie ontologicznej i platformie AI firmy Palantir, umożliwiającą w pełni zlokalizowane wdrożenie sztucznej inteligencji w dowolnym kraju i w każdym środowisku odizolowanym od sieci – od przetwarzania danych (wektorowania lub strukturyzacji) po kompletny zestaw rozwiązań do przyspieszonego przetwarzania danych dla sztucznej inteligencji.

Firma NVIDIA nawiązała szczególną współpracę z globalnymi dostawcami usług w chmurze – pomagamy klientom przejść do chmury, tworząc ekosystem korzystny dla obu stron.

Integracja pionowa, otwartość horyzontalna: Podstawowa strategia firmy NVIDIA

NVIDIA jest pierwszą na świecie firmą o pionowej integracji i horyzontalnej otwartości.

Konieczność zastosowania tego modelu wynika z bardzo prostej przyczyny: przyspieszone przetwarzanie danych to nie tylko kwestia układów scalonych czy systemu; jego pełnym wyrazem powinno być przyspieszenie działania aplikacji. Procesory mogą ogólnie przyspieszyć działanie komputerów, ale ta droga napotkała już przeszkodę. W przyszłości tylko dzięki zastosowaniu rozwiązań przyspieszających lub rozwiązań dostosowanych do konkretnych dziedzin będziemy mogli nadal osiągać znaczący wzrost wydajności i obniżać koszty.

Właśnie dlatego firma NVIDIA musi intensywnie rozwijać kolejne biblioteki, kolejne dziedziny i kolejne branże. Jesteśmy firmą informatyczną o zintegrowanej strukturze pionowej i nie ma dla nas innej drogi. Musimy rozumieć aplikacje, rozumieć dziedziny, dogłębnie rozumieć algorytmy oraz umieć wdrażać je w każdym środowisku – w centrach danych, w chmurze, lokalnie, na obrzeżach sieci, a nawet w systemach robotycznych.

Jednocześnie firma NVIDIA pozostaje otwarta na współpracę horyzontalną i chętnie integruje swoje technologie z platformami wszystkich partnerów, umożliwiając wszystkim użytkownikom na całym świecie czerpanie korzyści z przyspieszonego przetwarzania danych.

Skład uczestników tegorocznej konferencji GTC doskonale to odzwierciedla. Największy odsetek uczestników stanowią przedstawiciele branży usług finansowych – organizatorzy chcą przyciągnąć programistów, a nie handlowców. Nasz ekosystem obejmuje cały łańcuch dostaw, od etapu produkcji po dystrybucję. Niezależnie od tego, czy firma istnieje od 50, 70 czy 150 lat, ubiegły rok był dla niej najlepszym w historii. Znajdujemy się na początku czegoś naprawdę bardzo ważnego.

CUDA-X: Silnik przyspieszający obliczenia dla różnych branż

W różnych branżach firma NVIDIA ma ugruntowaną pozycję:

  • Jazda autonomiczna: Szeroki zasięg i daleko idące skutki

  • Usługi finansowe: Inwestycje ilościowe przechodzą od ręcznego opracowywania cech do uczenia głębokiego opartego na superkomputerach, co zapowiada nadejście ich „momentu transformatora”

  • Opieka zdrowotna: Przechodzi właśnie swój własny „moment ChatGPT”, obejmujący między innymi odkrywanie leków wspomagane sztuczną inteligencją, diagnostykę wspieraną przez agenty AI oraz obsługę klienta w sektorze medycznym

  • Branża: Na całym świecie obserwujemy obecnie największą falę inwestycji budowlanych, w ramach której powstają fabryki zajmujące się sztuczną inteligencją, produkcją chipów oraz centra danych

  • Rozrywka i gry: Platformy AI działające w czasie rzeczywistym obsługują tłumaczenia, transmisje na żywo, interakcje w grach oraz inteligentnych asystentów zakupowych

  • Robotyka: Dzięki ponad dziesięcioletnim intensywnym pracom udało się stworzyć trzy główne architektury obliczeniowe (komputery szkoleniowe, komputery symulacyjne i komputery pokładowe), a na tej wystawie zaprezentowano 110 robotów

  • Telekomunikacja: W branży wartej około 2 bilionów dolarów stacje bazowe przejdą ewolucję od pełnienia pojedynczych funkcji komunikacyjnych do roli platform infrastruktury sztucznej inteligencji, a powiązana z tym projektem platforma o nazwie Aerial będzie ściśle współpracować z takimi firmami jak Nokia i T-Mobile

Sercem wszystkich tych dziedzin jest nasza biblioteka CUDA-X – to właśnie ona stanowi podstawę działalności firmy NVIDIA jako producenta algorytmów. Biblioteki te stanowią najważniejsze aktywa firmy, dzięki czemu platforma obliczeniowa może generować rzeczywistą wartość w różnych branżach.

Jedną z najważniejszych bibliotek jest cuDNN (CUDA Deep Neural Network Library), która całkowicie zrewolucjonizowała dziedzinę sztucznej inteligencji, wywołując współczesny boom w tej dziedzinie.

(Odtwórz film demonstracyjny CUDA-X)

Wszystko, co właśnie widzieliście, było symulacją – łącznie z solwerami opartymi na fizyce, modelami fizycznymi agentów AI oraz fizycznymi modelami robotów AI. Wszystko zostało wygenerowane komputerowo, bez ręcznej animacji ani przypisywania przegubów. Właśnie w tym tkwi główna siła firmy NVIDIA: w wykorzystywaniu tych możliwości dzięki dogłębnemu zrozumieniu algorytmów i płynnej integracji z platformą obliczeniową.

Przedsiębiorstwa oparte na sztucznej inteligencji a nowa era informatyki

Właśnie widzieliście gigantów branżowych, którzy kształtują dzisiejsze społeczeństwo, takich jak Walmart, L'Oréal, JPMorgan Chase, Roche i Toyota, a także wiele firm, o których być może nigdy nie słyszeliście – nazywamy je przedsiębiorstwami zrodzonymi w erze sztucznej inteligencji. Lista ta jest obszerna i obejmuje takie firmy jak OpenAI, Anthropic oraz wiele nowych przedsiębiorstw działających w różnych branżach.

W ciągu ostatnich dwóch lat branża ta odnotowała zadziwiający wzrost. Wartość kapitału venture capital napływającego do start-upów osiągnęła 150 miliardów dolarów, co stanowi rekordowy poziom w historii ludzkości. Co ważniejsze, wartość poszczególnych inwestycji wzrosła z milionów dolarów do setek milionów, a nawet miliardów. Powód jest prosty: po raz pierwszy w historii każda taka firma potrzebuje ogromnych zasobów obliczeniowych i dużej liczby tokenów. Branża ta zajmuje się tworzeniem i generowaniem tokenów lub zwiększaniem wartości tokenów pochodzących od takich organizacji jak Anthropic i OpenAI.

Tak jak rewolucja komputerowa, internetowa i mobilno-chmurowa dały początek całej rzeszy przełomowych przedsiębiorstw, tak i obecna transformacja platform obliczeniowych doprowadzi do powstania wielu firm o ogromnym znaczeniu, które staną się ważną siłą w przyszłym świecie.

Trzy przełomowe wydarzenia, które stały się motorem tych zmian

Co dokładnie wydarzyło się w ciągu ostatnich dwóch lat? Trzy najważniejsze wydarzenia.

Po pierwsze: ChatGPT, zapoczątkowujący erę generatywnej sztucznej inteligencji (koniec 2022 r. – 2023 r.)

Potrafi nie tylko postrzegać i rozumieć, ale także tworzyć oryginalne treści. Zademonstrowałem połączenie generatywnej sztucznej inteligencji z grafiką komputerową. Generatywna sztuczna inteligencja zasadniczo zmienia sposób działania systemów komputerowych – przeszły one od modelu opartego na wyszukiwaniu do modelu opartego na generowaniu, co ma ogromny wpływ na architekturę komputerową, metody wdrażania oraz ogólne znaczenie tych systemów.

Po drugie: Reasoning AI, reprezentowana przez o1

Zdolności rozumowania pozwalają sztucznej inteligencji na autorefleksję, planowanie i rozkładanie problemów na części – dzielenie zagadnień, których nie potrafi bezpośrednio zrozumieć, na łatwiejsze do opanowania etapy. o1 sprawia, że generatywna sztuczna inteligencja staje się godna zaufania i zdolna do rozumowania w oparciu o rzeczywiste informacje. Aby to osiągnąć, znacznie zwiększono liczbę tokenów kontekstowych wejściowych i wyjściowych wykorzystywanych w procesie przetwarzania, co spowodowało znaczny wzrost wymagań obliczeniowych.

Po trzecie: Claude Code, pierwszy model agenta

Potrafi odczytywać pliki, pisać kod, kompilować, testować, oceniać i wykonywać iteracje. Claude Code całkowicie zrewolucjonizował inżynierię oprogramowania – 100% inżynierów firmy NVIDIA korzysta z co najmniej jednego z narzędzi: Claude Code, Codex lub Cursor; nie ma ani jednego inżyniera oprogramowania, który nie korzystałby z pomocy sztucznej inteligencji.

To nowy punkt zwrotny – nie pytamy już sztucznej inteligencji „co to jest, gdzie to jest, jak to zrobić”, lecz pozwalamy jej „tworzyć, realizować, budować”, umożliwiając jej aktywne korzystanie z narzędzi, odczytywanie plików, rozkładanie problemów na czynniki pierwsze i podejmowanie działań. Sztuczna inteligencja przeszła ewolucję od postrzegania, przez generowanie, aż po rozumowanie, a obecnie jest naprawdę zdolna do wykonywania zadań.

W ciągu ostatnich dwóch lat zapotrzebowanie na moc obliczeniową do celów wnioskowania wzrosło około 10 000-krotnie, a wykorzystanie tej mocy wzrosło około 100-krotnie. Zawsze uważałem, że w ciągu ostatnich dwóch lat zapotrzebowanie na moc obliczeniową wzrosło milion razy – jest to powszechne przekonanie, podzielane między innymi przez OpenAI i Anthropic. Jeśli uda nam się uzyskać większą moc obliczeniową, będziemy mogli wygenerować więcej tokenów, przychody wzrosną, a sztuczna inteligencja stanie się bardziej zaawansowana. Rzeczywiście nadszedł punkt zwrotny w tym rozumowaniu.

Era infrastruktury sztucznej inteligencji wartej biliony dolarów

W zeszłym roku o tej porze stwierdziłem tutaj, że jesteśmy głęboko przekonani o stabilnym popycie i zamówieniach na produkty firm Blackwell i Rubin do 2026 roku, których wartość wynosi około 500 miliardów dolarów. Dzisiaj, rok po konferencji GTC, stoję tu, by powiedzieć wam: patrząc w przyszłość, na rok 2027, przewiduję kwotę co najmniej 1 biliona dolarów. Jestem przekonany, że rzeczywiste zapotrzebowanie na moc obliczeniową znacznie przekroczy te wartości.

2025: Rok wnioskowania dla firmy NVIDIA

Rok 2025 to dla firmy NVIDIA Rok wnioskowania. Chcemy zapewnić, że nie tylko podczas szkoleń i po ich zakończeniu, ale na każdym etapie cyklu życia sztucznej inteligencji będziemy utrzymywać najwyższy poziom jakości, dzięki czemu zainwestowana infrastruktura będzie działać wydajnie i skutecznie przez dłuższy czas, przy niższych kosztach jednostkowych.

Jednocześnie firmy Anthropic i Meta oficjalnie dołączyły do platformy NVIDIA, stanowiąc łącznie jedną trzecią globalnego zapotrzebowania na moc obliczeniową w dziedzinie sztucznej inteligencji. Modele oparte na oprogramowaniu open source zbliżają się do najnowocześniejszych rozwiązań i są wszechobecne.

NVIDIA jest obecnie jedyną platformą na świecie, która umożliwia obsługę wszystkich dziedzin sztucznej inteligencji – językoznawstwa, biologii, grafiki komputerowej, widzenia komputerowego, przetwarzania mowy, białek i chemii, robotyki itp. – oraz wszystkich modeli sztucznej inteligencji, zarówno w środowisku brzegowym, jak i w chmurze, niezależnie od języka. Architektura firmy NVIDIA sprawdza się we wszystkich tych sytuacjach, dzięki czemu nasza platforma jest najtańsza i najbardziej niezawodna.

Obecnie 60% obrotów firmy NVIDIA pochodzi od pięciu największych dostawców usług chmury hiperskalowej, natomiast pozostałe 40% rozkłada się na chmury regionalne, chmury suwerenne, przedsiębiorstwa, sektory przemysłowe, robotykę oraz przetwarzanie brzegowe. Siła sztucznej inteligencji tkwi w jej wszechstronności – jest to bez wątpienia kolejna transformacja w dziedzinie platform obliczeniowych.

Grace Blackwell i NVLink 72: Odważna innowacja architektoniczna

Kiedy architektura Hopper wciąż była u szczytu popularności, postanowiliśmy całkowicie przebudować system, rozszerzając NVLink z 8 do 72 linii oraz całkowicie rozkładając na części i odbudowując system obliczeniowy. Projekt Grace Blackwell NVLink 72 stanowi poważne wyzwanie technologiczne, z którym nie każdy partner potrafi sobie poradzić, i za to wszystkim szczerze dziękuję.

W tym samym czasie wprowadziliśmy na rynek NVFP4 – nie jest to zwykły układ FP4, lecz nowy typ rdzenia tensorowego i jednostki obliczeniowej. Wykazaliśmy, że NVFP4 pozwala na przeprowadzanie wnioskowania bez utraty dokładności, zapewniając jednocześnie znaczną poprawę wydajności i efektywności energetycznej, a ponadto nadaje się do uczenia. Ponadto pojawiła się seria nowych algorytmów, takich jak Dynamo i TensorRT-LLM, a my zainwestowaliśmy nawet miliardy dolarów w stworzenie superkomputera przeznaczonego specjalnie do optymalizacji jądra, zwanego DGX Cloud.

Wyniki pokazują, że skuteczność naszych wnioskowań jest znakomita. Dane z badania Semi Analysis – najbardziej kompleksowej jak dotąd oceny wydajności systemów wnioskowania opartych na sztucznej inteligencji – wskazują, że firma NVIDIA znacznie wyprzedza konkurencję zarówno pod względem liczby tokenów na wat, jak i kosztu jednego tokenu. Pierwotnie prawo Moore'a mogło zapewnić 1,5-krotny wzrost wydajności w przypadku H200, ale nam udało się osiągnąć 35-krotny wzrost. Dylan Patel z Semi Analysis stwierdził nawet: „Jensen nie powiedział wszystkiego; w rzeczywistości jest to 50 razy”. Ma rację.

Cytuję jego słowa: „Jensen się wycofał”.

Koszt tokenu w przypadku firmy NVIDIA jest najniższy na świecie i obecnie nie ma sobie równych. Powodem jest ekstremalne współprojektowanie.

Na przykład, zanim firma NVIDIA zaktualizowała cały pakiet oprogramowania i algorytmów, średnia prędkość generowania tokenów w programie Fireworks wynosiła około 700 na sekundę; po aktualizacji wzrosła do prawie 5 000 na sekundę, co oznacza około siedmiokrotny wzrost. Oto siła ekstremalnego współprojektowania.

AI Factory: Od centrów danych po fabryki tokenów

Centra danych były kiedyś miejscami służącymi do przechowywania plików; obecnie są fabrykami produkującymi tokeny. W przyszłości każdy dostawca usług w chmurze i każda firma zajmująca się sztuczną inteligencją będzie traktować „wydajność fabryki tokenów” jako podstawowy wskaźnik operacyjny.

Oto moja główna teza:

  • Oś pionowa: Przepustowość – liczba tokenów generowanych na sekundę przy stałej mocy

  • Oś pozioma: Szybkość interakcji – szybkość reakcji przy każdym wnioskowaniu; im większa szybkość, tym większy model można wykorzystać, tym dłuższy kontekst i tym inteligentniejsza sztuczna inteligencja

Tokeny to nowy towar, a gdy osiągną dojrzałość, ich ceny będą ustalane według poszczególnych poziomów:

  • Pakiet bezpłatny (duża przepustowość, niska prędkość)

  • Średni poziom (ok. 3 USD za milion tokenów)

  • Najwyższy poziom (ok. 6 USD za milion tokenów)

  • Poziom szybki (ok. 45 USD za milion tokenów)

  • Poziom ultraszybki (~150 USD za milion tokenów)

W porównaniu z Hopperem, Grace Blackwell zwiększyła przepustowość 35-krotnie w najwyższym przedziale cenowym oraz wprowadziła nowy przedział. Upraszczając szacunki modelu: gdyby 25% mocy przydzielono każdemu z czterech poziomów, Grace Blackwell mogłaby wygenerować 5 razy większy przychód niż Hopper.

Vera Rubin: System obliczeniowy oparty na sztucznej inteligencji nowej generacji

(Odtwórz film przedstawiający system Vera Rubin)

Vera Rubin to kompleksowy, zoptymalizowany pod każdym względem system przeznaczony do obsługi zadań typu agentowego:

  • Rdzeń obliczeniowy dużych modeli językowych: Klaster 72 procesorów graficznych NVLink obsługujący wstępne wypełnianie i pamięć podręczną KV

  • Nowy procesor Vera: Zaprojektowany z myślą o wyjątkowo wysokiej wydajności jednowątkowej, wykorzystujący pamięć LPDDR5 i charakteryzujący się doskonałą efektywnością energetyczną – jedyny na świecie procesor dla centrów danych wykorzystujący pamięć LPDDR5, odpowiedni do wywołań narzędzi agentów AI

  • System pamięci masowej: BlueField 4 + CX 9 – nowa platforma pamięci masowej na miarę ery sztucznej inteligencji, stworzona przy pełnym udziale światowej branży pamięci masowych

  • Przełącznik CPO Spectrum X: Pierwszy na świecie przełącznik optyczny Ethernet w obudowie typu co-packaged, obecnie w pełnej produkcji seryjnej

  • Regał Kyber: Nowy system szafowy obsługujący 144 procesory graficzne, tworzący jedną domenę NVLink, z obliczeniami w części przedniej i przełączaniem NVLink w części tylnej, tworzący gigantyczny komputer

  • Rubin Ultra: Węzeł superkomputera nowej generacji o konstrukcji pionowej, współpracujący ze szafą Kyber, obsługujący połączenia NVLink na większą skalę

System Vera Rubin jest w 100% chłodzony cieczą, co skraca czas instalacji z dwóch dni do dwóch godzin dzięki wykorzystaniu wody o temperaturze 45°C, co znacznie zmniejsza obciążenie systemów chłodzenia w centrach danych. Tym razem Satya (Nadella) potwierdził, że pierwsza szafa serwerowa Vera Rubin działa już w chmurze Microsoft Azure, co bardzo mnie cieszy.

Integracja z Groq: Znaczna poprawa wydajności wnioskowania

Przejęliśmy zespół Groq i uzyskaliśmy licencję na jego technologię. Groq to deterministyczny procesor przepływu danych, wykorzystujący kompilację statyczną i planowanie kompilatora, wyposażony w dużą pamięć SRAM, zoptymalizowany pod kątem wnioskowania w ramach pojedynczego obciążenia, charakteryzujący się wyjątkowo niskim opóźnieniem i wysoką prędkością generowania tokenów.

Jednak pojemność pamięci procesora Groq jest ograniczona (500 MB wbudowanej pamięci SRAM), co utrudnia samodzielne przechowywanie parametrów i pamięci podręcznej KV w przypadku dużych modeli, ograniczając tym samym jego zastosowanie na dużą skalę.

Rozwiązaniem jest Dynamo – pakiet oprogramowania do planowania wnioskowania. Rozdzieliliśmy proces wnioskowania za pomocą Dynamo:

  • Zakończono wstępne wypełnianie i dekodowanie mechanizmu uwagi w systemie Vera Rubin (co wymaga ogromnej mocy obliczeniowej i pamięci podręcznej typu KV)

  • Dekodowanie w sieci typu feed-forward, czyli część odpowiedzialna za generowanie tokenów, odbywa się na platformie Groq (co wymaga niezwykle dużej przepustowości i niskiego opóźnienia)

Oba urządzenia są ściśle połączone za pośrednictwem sieci Ethernet, co pozwala zmniejszyć opóźnienia o około połowę dzięki specjalnym trybom pracy. Dzięki ujednoliconemu planowaniu zadań w ramach „systemu operacyjnego fabryki AI” Dynamo ogólna wydajność wzrasta 35-krotnie, otwierając nowe możliwości w zakresie wydajności wnioskowania, które wcześniej były poza zasięgiem rozwiązania NVLink 72.

Zalecenia dotyczące połączenia Groq i Vera Rubin:

  • Jeśli obciążenie charakteryzuje się przede wszystkim wysoką przepustowością, należy zastosować w 100% Vera Rubin

  • Jeśli znaczna część zadań wymaga generowania elementów o dużej wartości, takich jak generowanie kodu, warto wdrożyć Groq, przy czym zalecany stosunek to około 25% Groq + 75% Vera Rubin

Model Groq LP30, produkowany przez firmę Samsung, wszedł do masowej produkcji, a jego dostawy mają rozpocząć się w trzecim kwartale. Dziękujemy firmie Samsung za pełną współpracę.

Historyczny skok w wydajności wnioskowania

Ocena dotychczasowych postępów technologicznych: w ciągu dwóch lat wydajność generowania tokenów w fabryce AI o mocy 1 GW wzrośnie z 22 milionów tokenów na sekundę do 700 milionów tokenów na sekundę, co oznacza 350-krotny wzrost. Oto siła ekstremalnego współprojektowania.

Plan rozwoju technologicznego

  • Blackwell: Obecnie w produkcji: standardowy system szafowy Oberon, rozszerzenie o kabel miedziany do NVLink 72, opcjonalne rozszerzenie optyczne do NVLink 576

  • Vera Rubin (obecnie): Szafa Kyber, NVLink 144 (kabel miedziany); szafa Oberon, NVLink 72 + światłowód, rozbudowana do NVLink 576; Spectrum 6, pierwszy na świecie przełącznik CPO

  • Vera Rubin Ultra (wkrótce): Karta graficzna Rubin Ultra nowej generacji z układem LP35 (pierwsza implementacja NVFP4), zapewniająca kilkukrotny wzrost wydajności

  • Feynman (nowa generacja): Nowy procesor graficzny, układ LP40 (opracowany wspólnie przez firmę NVIDIA i zespół Groq, zawierający układ NVFP4); nowy procesor — Rosa (Rosalyn); BlueField 5; CX 10; szafa Kyber obsługująca zarówno rozszerzenia miedziane, jak i CPO

Plan działania jest jasny: rozbudowa sieci miedzianej, rozbudowa sieci światłowodowej (w pionie) oraz rozbudowa sieci światłowodowej (w poziomie) przebiegają równolegle, dlatego potrzebujemy wsparcia wszystkich partnerów w dalszym zwiększaniu produkcji kabli miedzianych, światłowodów oraz modułów CPO.

NVIDIA DSX: Platforma cyfrowych bliźniaków dla fabryk opartych na sztucznej inteligencji

Fabryki oparte na sztucznej inteligencji stają się coraz bardziej złożone, jednak różni dostawcy technologii, którzy je tworzą, nigdy nie współpracowali ze sobą na etapie projektowania, a „spotykali się” dopiero w centrum danych – to oczywiście nie wystarcza.

Aby rozwiązać ten problem, stworzyliśmy Omniverse oraz opartą na nim platformę NVIDIA DSX – platformę umożliwiającą wszystkim partnerom wspólne projektowanie i obsługę fabryk sztucznej inteligencji o mocy rzędu gigawatów w świecie wirtualnym. DSX oferuje:

  • Systemy symulacji mechanicznej, termicznej, elektrycznej i sieciowej na poziomie szafy

  • Podłączenie do sieci energetycznej w celu wspólnego planowania oszczędności energii

  • Dynamiczna optymalizacja zużycia energii i chłodzenia w oparciu o technologię Max-Q w centrum danych

Według ostrożnych szacunków system ten może zwiększyć efektywność wykorzystania energii około dwukrotnie, co stanowi znaczną korzyść w skali, o której tutaj mowa. Omniverse opiera się na cyfrowej Ziemi i będzie zawierać cyfrowe bliźniaki w różnej skali; we współpracy z partnerami z całego świata budujemy największy komputer w historii ludzkości.

Ponadto firma NVIDIA wkracza w kosmos. Układ Thor przeszedł certyfikację pod kątem odporności na promieniowanie i jest obecnie wykorzystywany w satelitach. Wspólnie z partnerami pracujemy nad projektem Vera Rubin Space-1, którego celem jest budowa komputerów do kosmicznych centrów danych. W kosmosie jedyną metodą odprowadzania ciepła jest promieniowanie, dlatego zarządzanie temperaturą stanowi kluczowe wyzwanie; gromadzimy najlepszych inżynierów, aby sprostać temu wyzwaniu.

OpenClaw: System operacyjny na miarę ery agentów

Peter Steinberger stworzył oprogramowanie o nazwie OpenClaw. To najpopularniejszy projekt open source w historii ludzkości, który w ciągu zaledwie kilku tygodni przewyższył osiągnięcia systemu Linux.

OpenClaw to zasadniczo system oparty na agentach, który umożliwia:

  • Zarządzanie zasobami, dostęp do narzędzi, systemów plików i dużych modeli językowych

  • Wykonanie zadań zaplanowanych i zastrzeżonych czasowo

  • Stopniowe rozkładanie problemów na części i angażowanie podagentów

  • Obsługa dowolnych form wprowadzania i przekazywania danych (głos, wideo, tekst, e-mail itp.)

Jeśli opisać to w kategoriach systemu operacyjnego, to faktycznie jest to system operacyjny – system operacyjny dla komputerów-agentów. System Windows umożliwił powstanie komputerów osobistych; OpenClaw umożliwia powstanie osobistych agentów.

Każda firma musi opracować własną strategię dotyczącą OpenClaw, podobnie jak wszyscy potrzebujemy strategii dotyczących Linuksa, HTML-a i Kubernetesa.

Kompleksowa przebudowa infrastruktury IT w przedsiębiorstwie

Przed pojawieniem się OpenClaw w korporacyjnych systemach informatycznych dane i pliki trafiały do systemów, przepływały przez różne narzędzia i procesy, by ostatecznie stać się narzędziami służącymi ludziom. Firmy programistyczne opracowały narzędzia, a integratorzy systemów (GSI) oraz firmy konsultingowe pomagały przedsiębiorstwom w korzystaniu z tych narzędzi.

Po pojawieniu się OpenClaw każda firma oferująca oprogramowanie SaaS przekształci się w firmę typu AaaS (Agentic as a Service) – nie będzie już tylko dostarczać narzędzi, ale także agentów AI wyspecjalizowanych w konkretnych dziedzinach.

Istnieje jednak poważny problem: agenci wewnętrzni mają dostęp do poufnych danych, mogą uruchamiać kod i komunikować się z podmiotami zewnętrznymi. W środowiskach korporacyjnych należy to ściśle kontrolować.

Aby rozwiązać ten problem, nawiązaliśmy współpracę z Peterem w celu wdrożenia zabezpieczeń w wersji dla przedsiębiorstw, wprowadzając:

  • NeMo Claw (projekt referencyjny): Ramy referencyjne klasy korporacyjnej oparte na OpenClaw, integrujące pełen zestaw narzędzi NVIDIA do tworzenia agentów AI

  • Open Shield (warstwa zabezpieczeń): Zintegrowane z platformą OpenClaw, zapewnia silniki reguł, bariery sieciowe i routery chroniące prywatność w celu zapewnienia bezpieczeństwa danych przedsiębiorstwa

  • NeMo Cloud: Dostępne do pobrania i zintegrowane z silnikami polityk wszystkich firm oferujących oprogramowanie w modelu SaaS

To prawdziwy renesans dla branży IT dla przedsiębiorstw – sektora wartego 2 biliony dolarów, który wkrótce osiągnie wartość wielu bilionów dolarów, przechodząc od dostarczania narzędzi do oferowania wyspecjalizowanych usług opartych na sztucznej inteligencji.

Jestem w stanie z całą pewnością przewidzieć, że w przyszłości każdy inżynier w firmie będzie dysponował rocznym budżetem na tokeny. Ich pensje mogą sięgać setek tysięcy dolarów, a ja dodatkowo zapewnię im pulę tokenów równą połowie ich pensji, dzięki czemu wartość ich pracy wzrośnie dziesięciokrotnie. „Ile tokenów obejmuje twoja oferta pracy?” stało się nowym tematem rozmów rekrutacyjnych w Dolinie Krzemowej.

W przyszłości każda firma będzie zarówno użytkownikiem tokenów (dla inżynierów), jak i ich wydawcą (świadczącym usługi swoim klientom). Nie można nie doceniać znaczenia OpenClaw; jest ono równie ważne jak HTML i Linux.

Inicjatywa NVIDIA Open Model

W dziedzinie niestandardowych agentów (Custom Claw) oferujemy najnowocześniejsze modele opracowane przez firmę NVIDIA:

Model domenowy Nemotron Duży model językowy Cosmos Model podstawowy świata GROOT Ogólny model robota humanoidalnego Alpamayo Jazda autonomiczna BioNeMo Biologia cyfrowa Phys-AIAI Fizyka

Jesteśmy liderami technologicznymi w każdej dziedzinie i stawiamy na ciągłe udoskonalanie — po Nemotronie 3 pojawi się Nemotron 4, po Cosmosie 1 — Cosmos 2, a Groq również doczeka się drugiej generacji.

Model Nemotron 3 plasuje się w pierwszej trójce najlepszych modeli na świecie w kategorii OpenClaw i stanowi najnowocześniejsze rozwiązanie. Nemotron 3 Ultra stanie się najpotężniejszym modelem bazowym w historii, wspierającym kraje w tworzeniu niezależnych systemów sztucznej inteligencji.

Dzisiaj ogłaszamy utworzenie sojuszu Nemotron Alliance, który zainwestuje miliardy dolarów w rozwój podstawowych modeli sztucznej inteligencji. Wśród członków sojuszu znajdują się: BlackForest Labs, Cursor, LangChain, Mistral, Perplexity, Reflection, Sarvam (Indie), Thinking Machines (laboratorium Miry Murati) i inne. Jedna po drugiej firmy produkujące oprogramowanie dla przedsiębiorstw dołączają do tej inicjatywy, wdrażając w swoich produktach projekt referencyjny NeMo Claw oraz zestaw narzędzi NVIDIA do tworzenia agentów AI.

Sztuczna inteligencja w zastosowaniach fizycznych i robotyka

Agenci cyfrowi działają w świecie cyfrowym – piszą kod, analizują dane; natomiast fizyczna sztuczna inteligencja odnosi się do agentów posiadających fizyczną postać, tj. robotów.

Podczas tegorocznej konferencji GTC zaprezentowano 110 robotów, reprezentujących niemal wszystkie firmy zajmujące się tworzeniem robotów na całym świecie. Firma NVIDIA udostępnia trzy komputery (komputery szkoleniowe, komputery symulacyjne, komputery pokładowe) oraz kompletny pakiet oprogramowania i modele sztucznej inteligencji.

Jeśli chodzi o jazdę autonomiczną, nadeszła jej „chwila ChatGPT”. Dzisiaj ogłaszamy, że do platformy RoboTaxi Ready firmy NVIDIA dołączyło czterech nowych partnerów: BYD, Hyundai, Nissan i Geely, których łączna roczna produkcja wynosi 18 milionów pojazdów. Oprócz dotychczasowych partnerów, takich jak Mercedes-Benz, Toyota i General Motors, oferta została jeszcze bardziej poszerzona. Ogłosiliśmy również nawiązanie znaczącej współpracy z firmą Uber w celu wprowadzenia i wdrożenia pojazdów przystosowanych do obsługi usługi RoboTaxi w wielu miastach.

W dziedzinie robotów przemysłowych współpracujemy z wieloma firmami, takimi jak ABB, Universal Robotics i KUKA, w celu połączenia fizycznych modeli sztucznej inteligencji z systemami symulacyjnymi, co sprzyja wdrażaniu robotów na liniach produkcyjnych na całym świecie.

W branży telekomunikacyjnej znajdują się wśród nich również firmy Caterpillar i T-Mobile. W przyszłości bezprzewodowe stacje bazowe nie będą już jedynie węzłami komunikacyjnymi, lecz staną się platformą NVIDIA Aerial AI RAN – inteligentną platformą przetwarzania brzegowego, zdolną do analizowania ruchu w czasie rzeczywistym i dostosowywania formowania wiązki, co pozwoli osiągnąć oszczędność energii i zwiększyć wydajność.

Sekcja specjalna: Wygląd robota Olafa

(Odtwórz filmik pokazujący działanie robota Olafa z filmu „Kraina lodu”)

Jensen Huang: Śnieżny człowiek już tu jest! Newton działa bez zarzutu! Omniverse też działa bez zarzutu! Olaf, jak się masz?

Olaf: Bardzo się cieszę, że cię widzę.

Jensen Huang: Tak, bo dałem ci komputer – Jetson!

Olaf: Co to jest?

Jensen Huang: To właśnie tam, w twoim brzuchu.

Olaf: To niesamowite.

Jensen Huang: Nauczyłeś się chodzić w Omniverse.

Olaf: Uwielbiam spacery. To o wiele lepsze niż jazda na reniferze i podziwianie pięknego nieba.

Jensen Huang: Wynika to z symulacji fizycznej – solwer Newtona działający na platformie NVIDIA Warp, opracowany we współpracy z Disneyem i DeepMind, umożliwia dostosowanie się do rzeczywistych warunków fizycznych.

Olaf: Właśnie miałem to powiedzieć.

Jensen Huang: To twoja sprytność. Jestem bałwanem, a nie śnieżką.

Jensen Huang: Czy potrafisz to sobie wyobrazić? Przyszły Disneyland – wszystkie te roboty swobodnie poruszające się po parku. Ale szczerze mówiąc, myślałem, że będziesz wyższy. Nigdy nie widziałem tak niskiego bałwanka.

Olaf: (bez komentarza)

Jensen Huang: Czy mógłbyś mi pomóc w podsumowaniu dzisiejszego przemówienia?

Olaf: To byłoby super!

Podsumowanie wystąpienia głównego

Jensen Huang: Dzisiaj wspólnie omówiliśmy następujące główne tematy:

  1. Nadeszła przełomowa chwila w dziedzinie wnioskowania: wnioskowanie stało się podstawowym zadaniem sztucznej inteligencji, tokeny są nowym towarem, a wydajność wnioskowania bezpośrednio decyduje o przychodach.

  2. Era fabryk sztucznej inteligencji: centra danych przekształciły się z obiektów służących do przechowywania plików w fabryki tokenów, a w przyszłości każda firma będzie mierzyć swoją konkurencyjność na podstawie „wydajności fabryki sztucznej inteligencji”.

  3. Rewolucja agenta OpenClaw: OpenClaw zapoczątkowało erę przetwarzania opartego na agentach, a korporacyjne systemy IT przechodzą z ery narzędzi do ery agentów; każda firma musi opracować strategię dotyczącą OpenClaw.

  4. Sztuczna inteligencja w zastosowaniach fizycznych i robotyka: Zakres zastosowań inteligencji ucieleśnionej stale się poszerza, a pojazdy autonomiczne, roboty przemysłowe i roboty humanoidalne stanowią łącznie kolejną znaczącą szansę dla fizycznej sztucznej inteligencji.

Dziękuję wszystkim i życzę udanej konferencji GTC!

Możesz również polubić

Popularne monety

Najnowsze wiadomości kryptowalutowe

Czytaj więcej