Toàn văn bài phát biểu của Huang Renxun tại GTC: Kỷ nguyên suy luận đã đến, với doanh thu dự kiến ​​đạt ít nhất một nghìn tỷ đô la vào năm 2027, và tôm hùm chính là hệ điều hành mới.

By: dữ liệu gốc|2026/03/17 12:47:35
0
Chia sẻ
copy

Vào ngày 16 tháng 3 năm 2026, hội nghị NVIDIA GTC 2026 chính thức khai mạc, với bài phát biểu khai mạc của người sáng lập kiêm CEO của NVIDIA, Jensen Huang.

Tại hội nghị này, được coi là "cuộc hành hương thường niên của ngành công nghiệp AI", Huang đã trình bày chi tiết về sự chuyển đổi của NVIDIA từ một "công ty sản xuất chip" thành một "công ty cung cấp cơ sở hạ tầng và nhà máy AI". Để giải đáp những lo ngại của thị trường về tính bền vững của hiệu suất và tiềm năng tăng trưởng, Huang đã trình bày chi tiết logic kinh doanh cơ bản thúc đẩy tăng trưởng trong tương lai - "Kinh tế nhà máy token".

Dự báo hiệu suất cực kỳ lạc quan, "Nhu cầu ít nhất đạt 1 nghìn tỷ đô la vào năm 2027".

Trong hai năm qua, nhu cầu điện toán AI toàn cầu đã bùng nổ theo cấp số nhân. Khi các mô hình lớn phát triển từ giai đoạn "nhận thức" và "tạo ra" sang giai đoạn "suy luận" và "hành động (thực thi nhiệm vụ)", mức tiêu thụ sức mạnh tính toán đã tăng lên đáng kể. Trước những lo ngại của thị trường về mức trần đơn đặt hàng và doanh thu, Huang đã đưa ra những kỳ vọng rất lạc quan.

Ông Huang phát biểu trong bài diễn văn của mình:

Vào thời điểm này năm ngoái, tôi đã đề cập rằng chúng tôi nhận thấy nhu cầu rất cao lên tới 500 tỷ đô la, đủ để trang trải chi phí cho Blackwell và Rubin đến năm 2026. Ngay lúc này, tôi thấy nhu cầu ít nhất sẽ đạt 1 nghìn tỷ đô la vào năm 2027.

Kỳ vọng về doanh thu nghìn tỷ đô la của Huang từng đẩy giá cổ phiếu của NVIDIA tăng hơn 4,3%.

Hơn nữa, ông ấy còn bổ sung thêm con số này:

Điều này có hợp lý không? Đó là điều tôi sẽ nói tiếp theo. Trên thực tế, chúng ta thậm chí có thể phải đối mặt với tình trạng thiếu hụt nguồn cung. Tôi chắc chắn rằng nhu cầu tính toán thực tế sẽ cao hơn nhiều.

Huang chỉ ra rằng các hệ thống NVIDIA hiện nay đã chứng minh được mình là "cơ sở hạ tầng có chi phí thấp nhất" trên thế giới. Nhờ khả năng vận hành các mô hình AI trên hầu hết mọi lĩnh vực, NVIDIA đảm bảo khoản đầu tư 1 nghìn tỷ đô la của khách hàng được sử dụng tối đa và duy trì hiệu quả trong suốt vòng đời dài hạn.

Hiện tại, 60% doanh thu của NVIDIA đến từ năm nhà cung cấp dịch vụ điện toán đám mây quy mô lớn hàng đầu, trong khi 40% còn lại được phân bổ rộng rãi trên các dịch vụ điện toán đám mây quốc gia, doanh nghiệp, ngành công nghiệp, robot và điện toán biên.

Kinh tế của Token Factory, nơi hiệu suất trên mỗi watt quyết định sự sống còn của doanh nghiệp.

Để giải thích tính hợp lý của yêu cầu 1 nghìn tỷ đô la này, Huang đã trình bày một tư duy kinh doanh mới cho các CEO của các công ty toàn cầu. Ông chỉ ra rằng các trung tâm dữ liệu trong tương lai sẽ không còn là kho chứa hồ sơ nữa, mà là "nhà máy" sản xuất Token (đơn vị cơ bản được tạo ra bởi trí tuệ nhân tạo).

Hoàng nhấn mạnh:

Mọi trung tâm dữ liệu, mọi nhà máy đều bị giới hạn bởi nguồn điện. Một nhà máy có công suất 1GW (gigawatt) sẽ không bao giờ trở thành nhà máy có công suất 2GW; đây là một định luật vật lý và nguyên tử. Với công suất cố định, ai có thông lượng token cao nhất trên mỗi watt sẽ có chi phí sản xuất thấp nhất.

Huang đã phân loại các dịch vụ AI trong tương lai thành bốn cấp độ kinh doanh:

  • Gói miễn phí (lưu lượng cao, tốc độ thấp)
  • Phân khúc tầm trung (~3 đô la Mỹ cho mỗi triệu token)
  • Cao cấp (~6 đô la Mỹ cho mỗi triệu token)
  • Gói tốc độ cao (~45 đô la Mỹ cho mỗi triệu token)
  • Gói tốc độ cực cao (~150 đô la Mỹ cho mỗi triệu token)

Ông lưu ý rằng khi các mô hình trở nên lớn hơn và bối cảnh trở nên dài hơn, trí tuệ nhân tạo sẽ trở nên thông minh hơn, nhưng tốc độ tạo token sẽ giảm đi. Ông Huang tuyên bố:

Tại Token Factory này, thông lượng và tốc độ tạo token sẽ trực tiếp phản ánh chính xác doanh thu của bạn trong năm tới.

Huang nhấn mạnh rằng kiến ​​trúc của NVIDIA cho phép khách hàng đạt được thông lượng cực cao ở tầng miễn phí, đồng thời đạt được hiệu suất cải thiện đáng kinh ngạc gấp 35 lần ở tầng suy luận có giá trị cao nhất.

Vera Rubin đạt được khả năng tăng tốc gấp 350 lần trong hai năm, Groq lấp đầy khoảng trống cho suy luận siêu nhanh.

Trong điều kiện bị hạn chế bởi các giới hạn vật lý, NVIDIA đã giới thiệu hệ thống điện toán trí tuệ nhân tạo phức tạp nhất từ ​​trước đến nay của mình, Vera Rubin. Ông Huang tuyên bố:

Trước đây, mỗi khi nhắc đến Hopper, tôi thường giơ một miếng khoai tây chiên lên, điều đó khá hay. Nhưng khi nhắc đến Vera Rubin, mọi người đều nghĩ đến toàn bộ hệ thống. Trong hệ thống làm mát hoàn toàn bằng chất lỏng này, loại bỏ hoàn toàn hệ thống dây cáp truyền thống, việc lắp đặt các giá đỡ trước đây mất hai ngày nay chỉ mất hai giờ.

Huang chỉ ra rằng, thông qua việc đồng thiết kế phần cứng-phần mềm từ đầu đến cuối một cách triệt để, Vera Rubin đã tạo ra một bước nhảy vọt đáng kinh ngạc về dữ liệu trong cùng một trung tâm dữ liệu 1GW:

Chỉ trong hai năm, chúng tôi đã tăng tỷ lệ tạo token từ 22 triệu lên 700 triệu, đạt mức tăng trưởng gấp 350 lần. Trong cùng thời kỳ đó, định luật Moore chỉ có thể mang lại mức tăng trưởng gấp 1,5 lần.

Để giải quyết vấn đề tắc nghẽn băng thông trong điều kiện suy luận cực nhanh (chẳng hạn như 1000 token/giây), NVIDIA đã cung cấp giải pháp cuối cùng bằng cách tích hợp công ty Groq mà họ đã mua lại: suy luận tách biệt bất đối xứng. Hoàng giải thích:

Hai bộ xử lý này có đặc điểm hoàn toàn khác nhau. Chip Groq có 500MB SRAM, trong khi chip Rubin có 288GB bộ nhớ.

Huang lưu ý rằng NVIDIA, thông qua hệ thống phần mềm Dynamo, giao giai đoạn "chuẩn bị dữ liệu" (pre-fill), vốn đòi hỏi khả năng tính toán và bộ nhớ video khổng lồ, cho Vera Rubin, trong khi giai đoạn "giải mã" (decoding), vốn cực kỳ nhạy cảm với độ trễ, được giao cho Groq. Ông Huang cũng đưa ra những gợi ý về cấu hình sức mạnh tính toán cho doanh nghiệp:

Nếu khối lượng công việc của bạn chủ yếu là xử lý dữ liệu tốc độ cao, hãy sử dụng 100% Vera Rubin; nếu bạn có nhiều nhu cầu tạo mã thông báo cấp lập trình có giá trị cao, hãy phân bổ 25% dung lượng trung tâm dữ liệu của bạn cho Groq.

Đã có thông tin tiết lộ rằng chip Groq LP30, do Samsung sản xuất, đã bắt đầu sản xuất hàng loạt và dự kiến ​​sẽ được xuất xưởng vào quý 3, trong khi hệ thống rack Vera Rubin đầu tiên đã đi vào hoạt động trên Microsoft Azure.

Ngoài ra, liên quan đến công nghệ kết nối quang học, Huang đã giới thiệu bộ chuyển mạch quang học đóng gói đồng thời (CPO) sản xuất hàng loạt đầu tiên trên thế giới, Spectrum X, và xua tan những lo ngại của thị trường về lộ trình "chuyển đổi từ đồng sang quang học":

Chúng ta cần thêm dung lượng cáp đồng, thêm dung lượng chip quang và thêm dung lượng CPO.

Giá --

--

Mô hình đại lý chấm dứt sự phát triển của SaaS truyền thống, "lương + token" trở thành tiêu chuẩn ở Thung lũng Silicon.

Bên cạnh những rào cản về phần cứng, Huang đã dành một phần đáng kể bài phát biểu của mình cho cuộc cách mạng trong phần mềm và hệ sinh thái trí tuệ nhân tạo, đặc biệt là sự bùng nổ của các Agent.

Ông mô tả dự án mã nguồn mở OpenClaw là "dự án mã nguồn mở phổ biến nhất trong lịch sử loài người", khẳng định nó đã vượt qua những thành tựu của Linux trong 30 năm qua chỉ trong vài tuần. Huang thẳng thắn tuyên bố rằng OpenClaw về cơ bản là "hệ điều hành" dành cho máy tính của các đặc vụ.

Hoàng khẳng định:

Mọi công ty SaaS (Phần mềm dưới dạng dịch vụ) sẽ chuyển đổi thành công ty AaaS (Đại lý dưới dạng dịch vụ). Không còn nghi ngờ gì nữa, để triển khai an toàn các tác nhân này, vốn có khả năng truy cập dữ liệu nhạy cảm và thực thi mã, NVIDIA đã cho ra mắt thiết kế tham chiếu NeMo Claw cấp doanh nghiệp, bổ sung thêm công cụ quản lý chính sách và bộ định tuyến bảo mật.

Đối với những người làm nghề chuyên nghiệp bình thường, sự chuyển đổi này cũng sắp diễn ra. Huang đã hình dung ra một hình thức nơi làm việc mới trong tương lai:

Trong tương lai, mỗi kỹ sư trong công ty chúng tôi sẽ cần một ngân sách token hàng năm. Mức lương cơ bản của họ có thể lên tới hàng trăm nghìn đô la, và tôi sẽ phân bổ khoảng một nửa số tiền đó cho họ như một khoản thưởng tượng trưng, ​​cho phép họ đạt được hiệu quả làm việc tăng gấp 10 lần. Điều này đã trở thành một "lá bài" mới trong quá trình tuyển dụng ở Thung lũng Silicon: bạn nhận được bao nhiêu token kèm theo lời mời làm việc?

Cuối bài phát biểu, Huang cũng "tiết lộ" kiến ​​trúc điện toán thế hệ tiếp theo, Feynman, sẽ đạt được khả năng mở rộng theo chiều ngang đồng thời đầu tiên của dây dẫn đồng và CPO. Điều thú vị hơn nữa là NVIDIA đang phát triển một máy tính trung tâm dữ liệu dành cho không gian, "Vera Rubin Space-1", mở ra hoàn toàn trí tưởng tượng về sức mạnh tính toán AI vượt ra ngoài Trái đất.

Toàn văn bài phát biểu của Jensen Huang tại GTC 2026 như sau (với sự hỗ trợ của công cụ AI):

Chủ nhà: Chào mừng nhà sáng lập kiêm CEO của NVIDIA, Jensen Huang, lên sân khấu.

Jensen Huang, Người sáng lập kiêm Giám đốc điều hành:

Chào mừng đến với GTC. Tôi muốn nhắc nhở mọi người rằng đây là một hội nghị công nghệ. Tôi rất vui mừng khi thấy rất nhiều người xếp hàng từ sáng sớm để vào và được gặp tất cả các bạn ở đây.

Tại GTC, chúng tôi sẽ tập trung vào ba chủ đề chính: công nghệ, nền tảng và hệ sinh thái. Hiện tại, NVIDIA có ba nền tảng chính: nền tảng CUDA-X, nền tảng hệ thống và nền tảng nhà máy AI mới ra mắt của chúng tôi.

Trước khi chính thức bắt đầu, tôi muốn gửi lời cảm ơn đến những người dẫn chương trình phần khởi động – Sarah Guo đến từ Conviction, Alfred Lin đến từ Sequoia Capital (nhà đầu tư mạo hiểm đầu tiên của NVIDIA) và Gavin Baker, nhà đầu tư tổ chức lớn đầu tiên của NVIDIA. Ba cá nhân này có hiểu biết sâu sắc về công nghệ và tầm ảnh hưởng rộng lớn trong toàn bộ hệ sinh thái công nghệ. Tất nhiên, tôi cũng muốn gửi lời cảm ơn đến tất cả các vị khách quý mà tôi đã đích thân mời đến tham dự ngày hôm nay. Cảm ơn đội ngũ toàn sao này.

Tôi cũng muốn gửi lời cảm ơn đến tất cả các công ty có mặt ngày hôm nay. NVIDIA là một công ty nền tảng, và chúng tôi sở hữu công nghệ, nền tảng và một hệ sinh thái phong phú. Các công ty có mặt ngày hôm nay đại diện cho hầu hết các bên tham gia trong ngành công nghiệp trị giá 100 nghìn tỷ đô la, với 450 công ty tài trợ cho sự kiện này, điều mà tôi vô cùng biết ơn.

Hội nghị này có 1.000 diễn đàn kỹ thuật và 2.000 diễn giả, bao quát mọi cấp độ của kiến ​​trúc "năm lớp" AI — từ cơ sở hạ tầng như đất đai, điện năng và trung tâm dữ liệu, đến chip, nền tảng, mô hình và các ứng dụng khác nhau, tất cả đều thúc đẩy toàn bộ ngành công nghiệp tiến lên.

CUDA: Hai thập kỷ tích lũy công nghệ

Mọi thứ bắt đầu từ đây. Năm nay đánh dấu kỷ niệm 20 năm thành lập CUDA.

Trong suốt hai mươi năm qua, chúng tôi đã tận tâm cống hiến cho việc phát triển kiến ​​trúc này. CUDA là một phát minh mang tính cách mạng—công nghệ SIMT (Single Instruction Multiple Threads) cho phép các nhà phát triển viết chương trình bằng mã vô hướng và mở rộng chúng thành các ứng dụng đa luồng, với độ khó lập trình thấp hơn nhiều so với các kiến ​​trúc SIMD trước đây. Gần đây chúng tôi đã bổ sung tính năng Tiles để giúp các nhà phát triển lập trình lõi tensor thuận tiện hơn, cũng như các cấu trúc phép toán khác nhau mà trí tuệ nhân tạo hiện nay đang sử dụng. Hiện nay, CUDA có hàng ngàn công cụ, trình biên dịch, khung phần mềm và thư viện, với hàng trăm ngàn dự án công khai trong cộng đồng mã nguồn mở, và nó đã được tích hợp sâu rộng vào mọi hệ sinh thái công nghệ.

Biểu đồ này cho thấy logic chiến lược 100% của NVIDIA, điều mà tôi đã thảo luận từ đầu. Yếu tố khó khăn và cốt lõi nhất chính là "cơ sở khách hàng hiện có" ở cuối biểu đồ. Trong hai mươi năm qua, chúng tôi đã tích lũy được hàng trăm triệu GPU và hệ thống máy tính chạy CUDA trên toàn thế giới.

GPU của chúng tôi tương thích với tất cả các nền tảng điện toán đám mây và phục vụ hầu hết các nhà sản xuất máy tính và các ngành công nghiệp. Số lượng lớn người dùng CUDA đã sử dụng là lý do cơ bản khiến guồng máy này tiếp tục tăng tốc. Nền tảng người dùng hiện có thu hút các nhà phát triển, các nhà phát triển tạo ra các thuật toán và đột phá mới, các đột phá tạo ra các thị trường mới, các thị trường mới hình thành các hệ sinh thái mới và thu hút thêm nhiều công ty tham gia, từ đó mở rộng nền tảng người dùng hiện có - vòng xoáy này liên tục tăng tốc.

Lượng tải xuống các thư viện của NVIDIA đang tăng lên với tốc độ đáng kinh ngạc, cả về quy mô lẫn tốc độ. Cơ chế này cho phép nền tảng điện toán của chúng tôi hỗ trợ các ứng dụng quy mô lớn và những đột phá mới liên tục.

Quan trọng hơn, điều này cũng giúp các cơ sở hạ tầng này có tuổi thọ cực kỳ dài. Lý do rất rõ ràng: có vô số ứng dụng có thể chạy trên NVIDIA CUDA, bao trùm mọi giai đoạn của vòng đời AI, nhiều nền tảng xử lý dữ liệu và nhiều công cụ giải quyết các nguyên lý khoa học khác nhau. Do đó, một khi GPU NVIDIA được cài đặt, giá trị sử dụng thực tế của chúng là cực kỳ cao. Đây cũng là lý do tại sao giá thành điện toán đám mây của GPU kiến ​​trúc Ampere mà chúng tôi ra mắt sáu năm trước thực tế lại đang tăng lên.

Lý do cơ bản cho tất cả điều này là: số lượng người dùng hiện có lớn, động lực tăng trưởng mạnh mẽ và hệ sinh thái nhà phát triển rộng lớn. Khi các yếu tố này kết hợp với nhau, cùng với việc liên tục cập nhật phần mềm, chi phí điện toán sẽ tiếp tục giảm. Điện toán tăng tốc giúp cải thiện đáng kể hiệu năng ứng dụng, và khi chúng ta duy trì và nâng cấp phần mềm trong thời gian dài, người dùng không chỉ đạt được những bước tiến vượt bậc về hiệu năng ngay lập tức mà còn tiếp tục được hưởng lợi từ chi phí điện toán ngày càng giảm. Chúng tôi sẵn sàng cung cấp hỗ trợ lâu dài cho mọi GPU trên toàn cầu vì chúng hoàn toàn tương thích ở cấp độ kiến ​​trúc.

Chúng tôi sẵn sàng làm điều này vì số lượng người dùng hiện tại rất lớn — mỗi khi một bản tối ưu hóa mới được phát hành, nó đều mang lại lợi ích cho hàng triệu người dùng. Sự kết hợp năng động này cho phép kiến ​​trúc của NVIDIA liên tục mở rộng phạm vi phủ sóng, đẩy nhanh tốc độ tăng trưởng của chính mình và liên tục giảm chi phí tính toán, cuối cùng kích thích sự tăng trưởng mới. CUDA là cốt lõi của tất cả điều này.

Từ GeForce đến CUDA: Một quá trình tiến hóa 25 năm

Hành trình của chúng tôi với CUDA thực sự bắt đầu từ 25 năm trước.

GeForce — nhiều người trong số các bạn đã lớn lên cùng với GeForce. GeForce là dự án tiếp thị thành công nhất của NVIDIA. Chúng tôi bắt đầu bồi dưỡng khách hàng tương lai từ khi các bạn chưa đủ khả năng mua sản phẩm của chúng tôi—cha mẹ các bạn chính là những người dùng đầu tiên của NVIDIA, mua sản phẩm của chúng tôi năm này qua năm khác, cho đến một ngày các bạn lớn lên trở thành những nhà khoa học máy tính xuất sắc, trở thành những khách hàng và nhà phát triển thực thụ.

Đây là nền tảng mà GeForce đã đặt ra cách đây 25 năm. Hai mươi lăm năm trước, chúng tôi đã phát minh ra bộ đổ bóng lập trình được — một phát minh hiển nhiên nhưng vô cùng quan trọng, giúp cho các bộ tăng tốc có thể lập trình được, và bộ tăng tốc lập trình được đầu tiên trên thế giới, cụ thể là bộ đổ bóng pixel. Năm năm sau, chúng tôi đã tạo ra CUDA — một trong những khoản đầu tư quan trọng nhất của chúng tôi từ trước đến nay. Thời điểm đó, công ty có nguồn lực tài chính hạn chế, nhưng chúng tôi đã đặt cược phần lớn lợi nhuận vào dự án này, cam kết mở rộng CUDA từ GeForce sang mọi máy tính. Chúng tôi quyết tâm như vậy vì tin tưởng vào tiềm năng của nó. Mặc dù phải đối mặt với nhiều khó khăn trong giai đoạn đầu, công ty vẫn giữ vững niềm tin này trong suốt 13 thế hệ, tức là tròn 20 năm, và ngày nay CUDA có mặt ở khắp mọi nơi.

Chính bộ xử lý đồ họa pixel (pixel shader) đã thúc đẩy cuộc cách mạng của GeForce. Khoảng tám năm trước, chúng tôi đã cho ra mắt RTX — một cuộc đại tu toàn diện kiến ​​trúc cho kỷ nguyên đồ họa máy tính hiện đại. GeForce đã mang CUDA đến với thế giới, và nhờ đó, nhiều học giả như Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton và Andrew Ng đã phát hiện ra rằng GPU có thể trở thành công cụ mạnh mẽ để tăng tốc học sâu, khơi mào cho sự bùng nổ trí tuệ nhân tạo cách đây một thập kỷ.

Mười năm trước, chúng tôi đã quyết định kết hợp đổ bóng lập trình được với hai khái niệm mới: một là dò tia phần cứng, một kỹ thuật đầy thách thức; khái niệm còn lại là một ý tưởng hướng tới tương lai—khoảng mười năm trước, chúng tôi đã dự đoán rằng trí tuệ nhân tạo (AI) sẽ làm thay đổi căn bản đồ họa máy tính. Giống như cách GeForce đã đưa trí tuệ nhân tạo (AI) đến với thế giới, giờ đây AI đang định hình lại cách thức ứng dụng đồ họa máy tính.

Hôm nay, tôi muốn cho các bạn thấy tương lai. Đây là công nghệ đồ họa thế hệ tiếp theo của chúng tôi, được gọi là kết xuất thần kinh — sự tích hợp sâu sắc giữa đồ họa 3D và trí tuệ nhân tạo. Đây là DLSS 5, mời bạn xem qua.

Kết xuất thần kinh: Sự kết hợp giữa dữ liệu có cấu trúc và trí tuệ nhân tạo tạo sinh

Thật ngoạn mục phải không? Như vậy, đồ họa máy tính được hồi sinh.

Chúng ta đã làm gì? Chúng tôi kết hợp đồ họa 3D có thể điều khiển (nền tảng thực sự của thế giới ảo) với dữ liệu có cấu trúc của nó, sau đó tích hợp thêm trí tuệ nhân tạo tạo sinh và tính toán xác suất. Một phương pháp hoàn toàn mang tính xác định, trong khi phương pháp kia mang tính xác suất nhưng lại rất thực tế — chúng tôi đã kết hợp hai khái niệm này thành một, đạt được khả năng kiểm soát chính xác thông qua dữ liệu có cấu trúc trong khi tạo ra dữ liệu theo thời gian thực. Tóm lại, nội dung này vừa đẹp mắt về mặt hình ảnh, vừa hoàn toàn dễ điều khiển.

Ý tưởng kết hợp thông tin có cấu trúc với trí tuệ nhân tạo tạo sinh sẽ tiếp tục được ứng dụng rộng rãi trong nhiều ngành công nghiệp khác nhau. Dữ liệu có cấu trúc là nền tảng của trí tuệ nhân tạo đáng tin cậy.

Nền tảng tăng tốc cho dữ liệu có cấu trúc và không có cấu trúc

Bây giờ tôi muốn cho các bạn xem sơ đồ kiến ​​trúc kỹ thuật.

Dữ liệu có cấu trúc—các công cụ quen thuộc như SQL, Spark, Pandas, Velox, và các nền tảng quan trọng như Snowflake, Databricks, Amazon EMR, Azure Fabric, Google BigQuery, đều xử lý các khung dữ liệu. Các khung dữ liệu này giống như những bảng tính khổng lồ, chứa đựng tất cả thông tin của thế giới kinh doanh, đóng vai trò là những dữ kiện cơ bản (Ground Truth) của điện toán doanh nghiệp.

Trong kỷ nguyên AI, chúng ta cần cho phép AI sử dụng dữ liệu có cấu trúc và đạt được khả năng tăng tốc vượt bậc. Trước đây, việc đẩy nhanh quá trình xử lý dữ liệu có cấu trúc nhằm mục đích giúp các doanh nghiệp hoạt động hiệu quả hơn. Trong tương lai, trí tuệ nhân tạo (AI) sẽ sử dụng các cấu trúc dữ liệu này với tốc độ vượt xa khả năng của con người, và các tác nhân AI sẽ phụ thuộc rất nhiều vào các cơ sở dữ liệu có cấu trúc.

Đối với dữ liệu phi cấu trúc, cơ sở dữ liệu vector, PDF, video, âm thanh, v.v., chiếm phần lớn các dạng dữ liệu trên thế giới — khoảng 90% dữ liệu được tạo ra mỗi năm là dữ liệu phi cấu trúc. Trước đây, dữ liệu này hầu như không thể sử dụng được: chúng ta chỉ đọc nó, lưu trữ nó trong hệ thống tập tin, và thế là xong. Chúng tôi không thể truy vấn hay truy xuất dữ liệu đó, bởi vì dữ liệu phi cấu trúc thiếu các phương pháp lập chỉ mục đơn giản và phải được hiểu theo nghĩa và ngữ cảnh. Giờ đây, trí tuệ nhân tạo (AI) có thể làm được điều này - nhờ các công nghệ nhận thức và hiểu biết đa phương thức, AI có thể đọc tài liệu PDF, hiểu ý nghĩa của chúng và nhúng chúng vào các cấu trúc lớn hơn để truy vấn.

NVIDIA đã tạo ra hai thư viện nền tảng cho mục đích này:

  • cuDF: để tăng tốc quá trình xử lý khung dữ liệu và dữ liệu có cấu trúc.

  • cuVS: dành cho lưu trữ vector, dữ liệu ngữ nghĩa và xử lý dữ liệu AI phi cấu trúc.

Hai nền tảng này sẽ trở thành một trong những nền tảng quan trọng nhất trong tương lai.

Hôm nay, chúng tôi công bố hợp tác với một số công ty. IBM - nhà phát minh ra SQL - sẽ sử dụng cuDF để tăng tốc nền tảng dữ liệu WatsonX của mình. Dell đã hợp tác với chúng tôi để tạo ra Nền tảng Dữ liệu AI của Dell, tích hợp cuDF và cuVS, đạt được những cải tiến hiệu suất đáng kể trong các dự án thực tế với NTT Data. Trên nền tảng Google Cloud, hiện tại chúng tôi không chỉ tăng tốc Vertex AI mà còn cả BigQuery, và chúng tôi đã hợp tác với Snapchat để giảm chi phí điện toán của họ gần 80%.

Lợi ích của điện toán tăng tốc có ba khía cạnh: tốc độ, quy mô và chi phí. Điều này phù hợp với logic của Định luật Moore — đạt được những bước nhảy vọt về hiệu năng thông qua việc tăng tốc điện toán đồng thời liên tục tối ưu hóa thuật toán, cho phép mọi người được hưởng lợi từ chi phí điện toán ngày càng giảm.

NVIDIA đã xây dựng một nền tảng điện toán tăng tốc, kết hợp nhiều thư viện khác nhau: RTX, cuDF, cuVS và nhiều hơn nữa. Các thư viện này được tích hợp vào các dịch vụ đám mây toàn cầu và hệ thống OEM, tiếp cận người dùng trên toàn thế giới.

Hợp tác chặt chẽ với các nhà cung cấp dịch vụ đám mây

Hợp tác với các nhà cung cấp dịch vụ đám mây lớn

Google Cloud: Chúng tôi tăng tốc Vertex AI và BigQuery, tích hợp sâu với JAX/XLA, đồng thời hoạt động xuất sắc trên PyTorch — NVIDIA là bộ tăng tốc duy nhất trên thế giới hoạt động tốt trên cả PyTorch và JAX/XLA. Chúng tôi đã đưa các khách hàng như Base10, CrowdStrike, Puma và Salesforce vào hệ sinh thái Google Cloud.

AWS: Chúng tôi tăng tốc EMR, SageMaker và Bedrock, với sự tích hợp sâu rộng với AWS. Năm nay, tôi đặc biệt hào hứng khi chúng ta sẽ đưa OpenAI lên AWS, điều này sẽ thúc đẩy đáng kể sự tăng trưởng tiêu thụ điện toán đám mây AWS và giúp OpenAI mở rộng phạm vi triển khai khu vực cũng như quy mô điện toán.

Microsoft Azure: Siêu máy tính 100 PFLOPS của NVIDIA là siêu máy tính đầu tiên chúng tôi chế tạo và cũng là siêu máy tính đầu tiên được triển khai trên Azure, đặt nền tảng quan trọng cho sự hợp tác với OpenAI. Chúng tôi đẩy nhanh các dịch vụ đám mây Azure và AI Foundry, hợp tác để thúc đẩy mở rộng khu vực của Azure và hợp tác sâu rộng về tìm kiếm Bing. Đặc biệt, khả năng điện toán bảo mật của chúng tôi—đảm bảo ngay cả người vận hành cũng không thể xem dữ liệu và mô hình người dùng—giúp GPU của NVIDIA trở thành một trong những thiết bị đầu tiên trên thế giới hỗ trợ điện toán bảo mật, cho phép triển khai bảo mật các mô hình OpenAI và Anthropic trong môi trường đám mây trên toàn cầu. Ví dụ, chúng tôi tăng tốc tất cả các quy trình EDA và CAD cho Synopsys và triển khai chúng trên Microsoft Azure.

Oracle: Chúng tôi là khách hàng AI đầu tiên của Oracle, và tôi tự hào là người đầu tiên giải thích khái niệm điện toán đám mây AI cho Oracle. Kể từ đó, chúng đã phát triển nhanh chóng và chúng tôi đã hợp tác với nhiều đối tác như Cohere, Fireworks và OpenAI.

CoreWeave: Nền tảng điện toán đám mây chuyên dụng cho trí tuệ nhân tạo (AI) đầu tiên trên thế giới, được thiết kế để lưu trữ GPU và cung cấp các dịch vụ đám mây AI, với lượng khách hàng ổn định và đà tăng trưởng mạnh mẽ.

Palantir + Dell: Ba bên đã cùng nhau tạo ra một nền tảng AI mới dựa trên nền tảng ngữ nghĩa và nền tảng AI của Palantir, có khả năng triển khai AI hoàn toàn cục bộ ở bất kỳ quốc gia nào và bất kỳ môi trường không kết nối mạng nào — từ xử lý dữ liệu (vector hóa hoặc cấu trúc hóa) đến một hệ thống điện toán tăng tốc hoàn chỉnh dành cho AI.

NVIDIA đã thiết lập mối quan hệ hợp tác đặc biệt này với các nhà cung cấp dịch vụ đám mây toàn cầu — chúng tôi đưa khách hàng lên đám mây, tạo ra một hệ sinh thái cùng có lợi.

Tích hợp theo chiều dọc, mở cửa theo chiều ngang: Chiến lược cốt lõi của NVIDIA

NVIDIA là công ty đầu tiên trên thế giới tích hợp theo chiều dọc và mở theo chiều ngang.

Sự cần thiết của mô hình này rất đơn giản: điện toán tăng tốc không chỉ là vấn đề của chip hay hệ thống; sự thể hiện đầy đủ của nó phải là tăng tốc ứng dụng. CPU có thể giúp máy tính chạy nhanh hơn nói chung, nhưng con đường này đã đạt đến điểm nghẽn. Trong tương lai, chỉ thông qua việc tăng tốc ứng dụng hoặc lĩnh vực cụ thể, chúng ta mới có thể tiếp tục đạt được những bước tiến vượt bậc về hiệu năng và giảm chi phí.

Đây chính là lý do tại sao NVIDIA phải đào sâu nghiên cứu từng thư viện một, từng lĩnh vực một, từng ngành công nghiệp một. Chúng tôi là một công ty điện toán tích hợp theo chiều dọc, và không có con đường nào khác để đi. Chúng ta phải hiểu các ứng dụng, hiểu các lĩnh vực, hiểu sâu sắc các thuật toán và có khả năng triển khai chúng trong mọi tình huống — trung tâm dữ liệu, đám mây, tại chỗ, biên và thậm chí cả hệ thống robot.

Đồng thời, NVIDIA vẫn duy trì chính sách mở rộng theo chiều ngang, sẵn sàng tích hợp công nghệ vào nền tảng của bất kỳ đối tác nào, cho phép toàn thế giới hưởng lợi từ khả năng tính toán được tăng tốc.

Cơ cấu người tham dự hội nghị GTC này phản ánh đầy đủ điều đó. Tỷ lệ người tham dự đến từ ngành dịch vụ tài chính là cao nhất—với hy vọng thu hút các nhà phát triển phần mềm, chứ không phải các nhà giao dịch. Hệ sinh thái của chúng tôi bao trùm toàn bộ chuỗi cung ứng, từ khâu đầu vào đến khâu cuối cùng. Dù công ty đó được thành lập 50, 70 hay 150 năm, năm ngoái vẫn là năm tốt nhất trong lịch sử của công ty. Chúng ta đang ở điểm khởi đầu của một điều gì đó vô cùng, vô cùng quan trọng.

CUDA-X: Công cụ tính toán tăng tốc cho nhiều ngành công nghiệp khác nhau

NVIDIA đã đầu tư mạnh vào nhiều lĩnh vực khác nhau:

  • Lái xe tự động: Phạm vi phủ sóng rộng và tác động sâu rộng

  • Dịch vụ tài chính: Đầu tư định lượng đang chuyển từ việc xử lý đặc trưng thủ công sang học sâu dựa trên siêu máy tính, mở ra "thời khắc chuyển đổi" của nó.

  • Chăm sóc sức khỏe: Nền tảng này đang trải qua "thời điểm ChatGPT" của riêng mình, bao gồm việc khám phá thuốc với sự hỗ trợ của AI, chẩn đoán được hỗ trợ bởi tác nhân AI, dịch vụ khách hàng y tế, và nhiều hơn nữa.

  • Ngành công nghiệp: Làn sóng xây dựng lớn nhất toàn cầu đang diễn ra, với sự ra đời của các nhà máy sản xuất trí tuệ nhân tạo, nhà máy sản xuất chip và nhà máy trung tâm dữ liệu.

  • Giải trí và trò chơi: Các nền tảng AI thời gian thực hỗ trợ dịch thuật, phát trực tiếp, tương tác trò chơi và các trợ lý mua sắm thông minh.

  • Người máy: Sau hơn một thập kỷ nghiên cứu và phát triển chuyên sâu, ba kiến ​​trúc điện toán chính (máy tính huấn luyện, máy tính mô phỏng, máy tính tích hợp) đã được thiết lập, với 110 robot được trưng bày tại triển lãm này.

  • Viễn thông: Với giá trị ngành công nghiệp khoảng 2 nghìn tỷ đô la, các trạm gốc sẽ phát triển từ các chức năng liên lạc đơn lẻ thành các nền tảng cơ sở hạ tầng trí tuệ nhân tạo (AI), với một nền tảng liên quan có tên Aerial, hợp tác chặt chẽ với các công ty như Nokia và T-Mobile.

Cốt lõi của tất cả các lĩnh vực này là thư viện CUDA-X của chúng tôi — đây là bản chất cơ bản của NVIDIA với tư cách là một công ty thuật toán. Các thư viện này là tài sản cốt lõi nhất của công ty, cho phép nền tảng điện toán mang lại giá trị thực sự cho nhiều ngành công nghiệp khác nhau.

Một trong những thư viện quan trọng nhất là cuDNN (CUDA Deep Neural Network Library), đã hoàn toàn cách mạng hóa trí tuệ nhân tạo, tạo nên sự bùng nổ của AI hiện đại.

(Xem video minh họa CUDA-X)

Tất cả những gì bạn vừa thấy đều là mô phỏng — bao gồm các bộ giải dựa trên vật lý, mô hình vật lý của tác nhân AI và mô hình vật lý của robot AI. Mọi thứ đều được mô phỏng, không có hoạt ảnh thủ công hay liên kết khớp nối nào. Đây chính xác là năng lực cốt lõi của NVIDIA: khai phá những cơ hội này thông qua sự hiểu biết sâu sắc về thuật toán và sự tích hợp tự nhiên với nền tảng điện toán.

Các doanh nghiệp ứng dụng trí tuệ nhân tạo và kỷ nguyên điện toán mới

Bạn vừa chứng kiến ​​những gã khổng lồ trong ngành định hình xã hội ngày nay, chẳng hạn như Walmart, L'Oréal, JPMorgan Chase, Roche và Toyota, cũng như rất nhiều công ty mà bạn có thể chưa từng nghe đến—chúng tôi gọi đây là các doanh nghiệp ứng dụng trí tuệ nhân tạo (AI). Danh sách này rất dài, bao gồm OpenAI, Anthropic và nhiều công ty mới nổi khác đang hoạt động trong các lĩnh vực khác nhau.

Trong hai năm qua, ngành công nghiệp này đã trải qua sự tăng trưởng đáng kinh ngạc. Lượng vốn đầu tư mạo hiểm đổ vào các công ty khởi nghiệp đã đạt mức 150 tỷ đô la, một kỷ lục cao nhất trong lịch sử nhân loại. Quan trọng hơn, quy mô các khoản đầu tư cá nhân đã tăng vọt từ hàng triệu đô la lên hàng trăm triệu, thậm chí hàng tỷ đô la. Lý do rất đơn giản: lần đầu tiên trong lịch sử, mỗi công ty như vậy đều cần nguồn lực tính toán khổng lồ và một số lượng lớn token. Ngành công nghiệp này đang tạo ra và phát sinh các token hoặc gia tăng giá trị cho các token từ các tổ chức như Anthropic và OpenAI.

Giống như cuộc cách mạng máy tính cá nhân, cuộc cách mạng internet và cuộc cách mạng điện toán đám mây di động đã sản sinh ra một loạt các công ty mang tính đột phá, thế hệ chuyển đổi nền tảng điện toán này cũng sẽ tạo ra một loạt các công ty có tầm ảnh hưởng lớn, trở thành một thế lực quan trọng trong thế giới tương lai.

Ba bước đột phá lịch sử đã thúc đẩy tất cả điều này

Cụ thể điều gì đã xảy ra trong hai năm qua? Ba sự kiện chính.

Đầu tiên: ChatGPT, mở ra kỷ nguyên của trí tuệ nhân tạo tạo sinh (cuối năm 2022 đến năm 2023)

Nó không chỉ có khả năng nhận thức và thấu hiểu mà còn có thể tạo ra nội dung độc đáo. Tôi đã trình bày sự kết hợp giữa trí tuệ nhân tạo tạo sinh với đồ họa máy tính. Trí tuệ nhân tạo tạo sinh (Generative AI) đã thay đổi căn bản cách thức hoạt động của điện toán – điện toán đã chuyển từ dựa trên truy xuất sang dựa trên tạo sinh, tác động sâu sắc đến kiến ​​trúc máy tính, phương pháp triển khai và tầm quan trọng tổng thể.

Thứ hai: Trí tuệ nhân tạo suy luận, được biểu thị bằng o1

Khả năng suy luận cho phép AI tự phản tỉnh, lập kế hoạch và phân tích vấn đề—chia nhỏ các vấn đề mà nó không thể hiểu trực tiếp thành các bước dễ quản lý. o1 giúp AI tạo sinh trở nên đáng tin cậy, có khả năng suy luận dựa trên thông tin thực tế. Để đạt được điều này, số lượng token ngữ cảnh đầu vào và token đầu ra cho quá trình tư duy đã tăng lên đáng kể, dẫn đến nhu cầu tính toán tăng cao.

Thứ ba: Claude Code, mô hình tác nhân đầu tiên

Nó có thể đọc tập tin, viết mã, biên dịch, kiểm thử, đánh giá và lặp lại. Claude Code đã cách mạng hóa hoàn toàn ngành kỹ thuật phần mềm — 100% kỹ sư của NVIDIA đang sử dụng một hoặc nhiều công cụ như Claude Code, Codex và Cursor; không có một kỹ sư phần mềm nào không tận dụng sự hỗ trợ của trí tuệ nhân tạo.

Đây là một bước ngoặt mới—bạn không còn hỏi AI "nó là gì, nó ở đâu, làm thế nào để thực hiện", mà thay vào đó hãy để nó "tạo ra, thực thi, xây dựng", cho phép nó chủ động sử dụng các công cụ, đọc tệp, phân tích vấn đề và hành động. Trí tuệ nhân tạo đã phát triển từ khả năng nhận thức, tạo ra hình ảnh, suy luận, và giờ đây thực sự có khả năng hoàn thành các nhiệm vụ.

Trong hai năm qua, nhu cầu tính toán cho việc suy luận đã tăng khoảng 10.000 lần, và mức độ sử dụng đã tăng khoảng 100 lần. Tôi luôn tin rằng nhu cầu về điện toán đã tăng gấp triệu lần trong hai năm qua - đây là cảm nhận chung của tất cả mọi người, bao gồm cả OpenAI và Anthropic. Nếu chúng ta có thể có được sức mạnh tính toán lớn hơn, chúng ta có thể tạo ra nhiều token hơn, doanh thu sẽ tăng lên và trí tuệ nhân tạo sẽ trở nên thông minh hơn. Bước ngoặt về mặt lý luận quả thực đã đến.

Kỷ nguyên nghìn tỷ đô la của cơ sở hạ tầng AI

Vào thời điểm này năm ngoái, tôi đã tuyên bố ở đây rằng chúng tôi rất tin tưởng vào nhu cầu và các đơn đặt hàng của Blackwell và Rubin cho đến năm 2026, với tổng giá trị khoảng 500 tỷ đô la. Hôm nay, một năm sau GTC, tôi đứng đây để nói với các bạn: nhìn về năm 2027, tôi thấy con số ít nhất là 1 nghìn tỷ đô la. Và tôi tin chắc rằng nhu cầu tính toán thực tế sẽ còn cao hơn nhiều so với con số này.

2025: Năm của Inference đối với NVIDIA

Năm 2025 là Năm của Trí tuệ Nhân tạo của NVIDIA. Chúng tôi muốn đảm bảo rằng, ngoài giai đoạn đào tạo và sau đào tạo, chúng tôi duy trì sự xuất sắc ở mọi giai đoạn của vòng đời AI, cho phép cơ sở hạ tầng đã đầu tư hoạt động hiệu quả và bền bỉ hơn, với chi phí đơn vị thấp hơn.

Đồng thời, Anthropic và Meta đã chính thức gia nhập nền tảng NVIDIA, cùng nhau chiếm một phần ba nhu cầu điện toán AI toàn cầu. Các mô hình mã nguồn mở đang tiến gần đến công nghệ tiên tiến và trở nên phổ biến rộng rãi.

Hiện tại, NVIDIA là nền tảng duy nhất trên thế giới có khả năng vận hành tất cả các lĩnh vực trí tuệ nhân tạo—ngôn ngữ, sinh học, đồ họa máy tính, thị giác máy tính, giọng nói, protein và hóa học, robot, v.v.—tất cả các mô hình AI, dù là ở biên hay trên đám mây, bất kể ngôn ngữ nào. Kiến trúc của NVIDIA có tính phổ quát trong tất cả các trường hợp này, khiến chúng tôi trở thành nền tảng có chi phí thấp nhất và độ tin cậy cao nhất.

Hiện tại, 60% doanh thu của NVIDIA đến từ năm nhà cung cấp dịch vụ điện toán đám mây siêu quy mô hàng đầu, trong khi 40% còn lại được phân bổ cho các dịch vụ điện toán đám mây khu vực, điện toán đám mây quốc gia, doanh nghiệp, ngành công nghiệp, robot và điện toán biên. Phạm vi bao phủ rộng lớn của AI chính là điểm mạnh của nó - đây chắc chắn là một sự chuyển đổi nền tảng điện toán mới.

Grace Blackwell và NVLink 72: Đổi mới kiến ​​trúc táo bạo

Trong khi kiến ​​trúc Hopper vẫn đang ở thời kỳ đỉnh cao, chúng tôi đã quyết định tái cấu trúc hoàn toàn hệ thống, mở rộng NVLink từ 8 làn lên NVLink 72, phân tách và tái cấu trúc hoàn toàn hệ thống điện toán. Grace Blackwell NVLink 72 là một canh bạc công nghệ quan trọng, không dễ dàng đối với tất cả các đối tác, và tôi chân thành cảm ơn tất cả mọi người vì điều đó.

Đồng thời, chúng tôi đã cho ra mắt NVFP4—không chỉ là một FP4 thông thường, mà là một loại lõi tensor và đơn vị tính toán mới. Chúng tôi đã chứng minh rằng NVFP4 có thể thực hiện suy luận mà không làm giảm độ chính xác, đồng thời mang lại những cải tiến đáng kể về hiệu suất và hiệu quả năng lượng, và nó cũng phù hợp cho việc huấn luyện. Ngoài ra, một loạt các thuật toán mới như Dynamo và TensorRT-LLM đã xuất hiện, và chúng tôi thậm chí đã đầu tư hàng tỷ đô la để xây dựng một siêu máy tính chuyên dụng cho việc tối ưu hóa nhân hệ điều hành, được gọi là DGX Cloud.

Kết quả cho thấy hiệu suất suy luận của chúng tôi rất đáng kể. Dữ liệu từ Semi Analysis—bài đánh giá hiệu năng suy luận AI toàn diện nhất cho đến nay—cho thấy NVIDIA dẫn đầu đáng kể cả về số token trên mỗi watt và chi phí trên mỗi token. Ban đầu, định luật Moore có thể chỉ mang lại hiệu suất tăng gấp 1,5 lần cho H200, nhưng chúng tôi đã đạt được mức tăng gấp 35 lần. Dylan Patel của Semi Analysis thậm chí còn nói, "Jensen đã cố tình nói dối; con số thực tế là gấp 50 lần." Anh ấy nói đúng.

Tôi xin trích lời ông ấy: "Jensen đã chơi xấu."

Chi phí mỗi token của NVIDIA là thấp nhất thế giới hiện nay, không có đối thủ nào sánh kịp. Lý do nằm ở sự hợp tác thiết kế triệt để.

Ví dụ, trước khi NVIDIA cập nhật toàn bộ bộ phần mềm và thuật toán, Fireworks có tốc độ xử lý trung bình khoảng 700 token mỗi giây; sau khi cập nhật, tốc độ này đạt gần 5.000 token mỗi giây, tăng khoảng 7 lần. Đây chính là sức mạnh của thiết kế hợp tác toàn diện.

Nhà máy AI: Từ trung tâm dữ liệu đến nhà máy sản xuất token

Trước đây, trung tâm dữ liệu là nơi lưu trữ các tập tin; giờ đây chúng là những nhà máy sản xuất mã thông báo. Trong tương lai, mọi nhà cung cấp dịch vụ đám mây và mọi công ty AI đều sẽ sử dụng "hiệu quả nhà máy token" làm thước đo hoạt động cốt lõi.

Đây là luận điểm cốt lõi của tôi:

  • Trục dọc: Thông lượng — số lượng token được tạo ra mỗi giây ở công suất cố định.

  • Trục ngang: Tốc độ tương tác — tốc độ phản hồi cho mỗi suy luận; tốc độ càng nhanh, mô hình có thể sử dụng càng lớn, ngữ cảnh càng dài và trí tuệ nhân tạo càng thông minh.

Token là loại hàng hóa mới, và khi trưởng thành, chúng sẽ được định giá theo nhiều bậc:

  • Gói miễn phí (lưu lượng cao, tốc độ thấp)

  • Phân khúc tầm trung (~3 đô la Mỹ cho mỗi triệu token)

  • Cao cấp (~6 đô la Mỹ cho mỗi triệu token)

  • Gói tốc độ cao (~45 đô la Mỹ cho mỗi triệu token)

  • Gói tốc độ cực cao (~150 đô la Mỹ cho mỗi triệu token)

So với Hopper, Grace Blackwell đã cải thiện hiệu suất gấp 35 lần ở phân khúc giá trị cao nhất và giới thiệu thêm một phân khúc mới. Nếu đơn giản hóa các ước tính mô hình, bằng cách phân bổ 25% công suất cho mỗi trong bốn cấp, Grace Blackwell có thể tạo ra doanh thu gấp 5 lần so với Hopper.

Vera Rubin: Hệ thống điện toán AI thế hệ tiếp theo

(Xem video giới thiệu hệ thống Vera Rubin)

Vera Rubin là một hệ thống hoàn chỉnh, được tối ưu hóa từ đầu đến cuối, được thiết kế cho các tác vụ dựa trên tác nhân:

  • Lõi tính toán mô hình ngôn ngữ quy mô lớn: Cụm GPU NVLink 72, xử lý việc điền trước dữ liệu và bộ nhớ đệm KV.

  • CPU Vera mới: Được thiết kế cho hiệu năng đơn luồng cực cao, sử dụng bộ nhớ LPDDR5, với hiệu quả năng lượng tuyệt vời, là CPU trung tâm dữ liệu duy nhất trên thế giới sử dụng LPDDR5, phù hợp cho các cuộc gọi công cụ tác nhân AI.

  • Hệ thống lưu trữ: BlueField 4 + CX 9, một nền tảng lưu trữ mới cho kỷ nguyên AI, với sự tham gia 100% từ ngành công nghiệp lưu trữ toàn cầu.

  • Bộ chuyển mạch CPO Spectrum X: Bộ chuyển mạch Ethernet quang tích hợp đầu tiên trên thế giới, hiện đang được sản xuất hàng loạt.

  • Giá đỡ Kyber: Một hệ thống giá đỡ mới hỗ trợ 144 GPU để tạo thành một miền NVLink duy nhất, với khả năng tính toán ở phía trước và chuyển mạch NVLink ở phía sau, tạo thành một máy tính khổng lồ.

  • Rubin Ultra: Cấu trúc siêu máy tính thế hệ tiếp theo, thiết kế dạng đứng, kết hợp với giá đỡ Kyber, hỗ trợ kết nối NVLink quy mô lớn hơn.

Vera Rubin sử dụng hệ thống làm mát bằng chất lỏng 100%, giúp giảm thời gian lắp đặt từ hai ngày xuống còn hai giờ, bằng cách sử dụng nước nóng 45°C để làm mát, giảm đáng kể áp suất làm mát trong các trung tâm dữ liệu. Lần này, Satya (Nadella) đã xác nhận rằng hệ thống Vera Rubin rack đầu tiên hiện đã hoạt động trên Microsoft Azure, điều này khiến tôi rất phấn khởi.

Tích hợp Groq: Mở rộng tối đa hiệu suất suy luận

Chúng tôi đã mua lại đội ngũ Groq và có được giấy phép công nghệ của họ. Groq là một bộ xử lý luồng dữ liệu xác định, sử dụng biên dịch tĩnh và lập lịch trình biên dịch, với dung lượng SRAM lớn, được tối ưu hóa cho suy luận khối lượng công việc đơn lẻ, có độ trễ cực thấp và tốc độ tạo mã thông báo cao.

Tuy nhiên, dung lượng bộ nhớ của Groq bị hạn chế (500MB SRAM tích hợp trên chip), khiến việc lưu trữ độc lập các tham số và bộ nhớ đệm KV của các mô hình lớn trở nên khó khăn, hạn chế khả năng ứng dụng quy mô lớn của nó.

Giải pháp chính là Dynamo - một bộ phần mềm lập lịch suy luận. Chúng tôi đã phân tách quy trình suy luận thông qua Dynamo:

  • Quá trình giải mã cơ chế điền trước và chú ý được hoàn tất trên Vera Rubin (yêu cầu sức mạnh tính toán khổng lồ và dung lượng lưu trữ KV Cache).

  • Quá trình giải mã mạng truyền thẳng, tức là phần tạo mã thông báo, được hoàn thành trên Groq (yêu cầu băng thông cực cao và độ trễ thấp).

Hai thành phần này được kết nối chặt chẽ với nhau thông qua Ethernet, giúp giảm độ trễ xuống khoảng một nửa nhờ các chế độ đặc biệt. Dưới sự lập trình thống nhất của Dynamo, "hệ điều hành nhà máy AI", hiệu suất tổng thể được cải thiện gấp 35 lần, mở ra những cấp độ hiệu suất suy luận mới mà NVLink 72 trước đây không thể đạt được.

Gợi ý kết hợp sử dụng Groq và Vera Rubin:

  • Nếu khối lượng công việc chủ yếu là xử lý dữ liệu tốc độ cao, hãy sử dụng 100% Vera Rubin.

  • Nếu số lượng lớn các tác vụ liên quan đến việc tạo ra token có giá trị cao, chẳng hạn như tạo mã, hãy sử dụng Groq, với tỷ lệ khuyến nghị khoảng 25% Groq + 75% Vera Rubin.

Tai nghe Groq LP30, do Samsung sản xuất, đã bắt đầu sản xuất hàng loạt và dự kiến ​​sẽ bắt đầu giao hàng vào quý 3. Xin cảm ơn Samsung vì sự hợp tác toàn diện.

Bước tiến vượt bậc mang tính lịch sử về hiệu năng suy luận

Định lượng những tiến bộ công nghệ trước đây: trong vòng hai năm, tốc độ tạo token của một nhà máy AI 1GW sẽ tăng từ 22 triệu token/giây lên 700 triệu token/giây, tăng gấp 350 lần. Đây chính là sức mạnh của thiết kế hợp tác toàn diện.

Lộ trình công nghệ

  • Blackwell: Hiện đang trong quá trình sản xuất, hệ thống giá đỡ tiêu chuẩn Oberon, cáp đồng mở rộng lên NVLink 72, tùy chọn mở rộng cáp quang lên NVLink 576.

  • Vera Rubin (hiện tại): Tủ rack Kyber, NVLink 144 (cáp đồng); Tủ rack Oberon, NVLink 72 + quang học, mở rộng lên NVLink 576; Spectrum 6, bộ chuyển mạch CPO đầu tiên trên thế giới.

  • Vera Rubin Ultra (sắp ra mắt): GPU Rubin Ultra thế hệ tiếp theo, chip LP35 (lần đầu tiên tích hợp NVFP4), giúp nâng cao hiệu năng lên nhiều lần.

  • Feynman (thế hệ tiếp theo): GPU mới, chip LP40 (được phát triển chung bởi NVIDIA và nhóm Groq, tích hợp NVFP4); CPU mới—Rosa (Rosalyn); BlueField 5; CX 10; giá đỡ Kyber hỗ trợ cả phương pháp mở rộng bằng cáp đồng và CPO.

Lộ trình đã rõ ràng: mở rộng sản xuất cáp đồng, cáp quang (Scale-Up) và cáp quang mở rộng quy mô (Scale-Out) đang được tiến hành song song, và chúng ta cần tất cả các đối tác tiếp tục mở rộng sản xuất cáp đồng, sợi quang và CPO.

NVIDIA DSX: Nền tảng mô hình song sinh kỹ thuật số cho các nhà máy AI

Các nhà máy sản xuất AI ngày càng trở nên phức tạp, nhưng các nhà cung cấp công nghệ khác nhau tạo nên chúng chưa bao giờ hợp tác trong giai đoạn thiết kế, mà chỉ "gặp gỡ" tại trung tâm dữ liệu - điều này rõ ràng là không đủ.

Để giải quyết vấn đề này, chúng tôi đã tạo ra Omniverse và nền tảng NVIDIA DSX dựa trên đó — một nền tảng cho tất cả các đối tác cùng nhau thiết kế và vận hành các nhà máy AI công suất gigawatt trong thế giới ảo. DSX cung cấp:

  • Hệ thống mô phỏng cơ khí, nhiệt, điện và mạng ở cấp độ giá đỡ

  • Kết nối với lưới điện để lập lịch tiết kiệm năng lượng hợp tác

  • Tối ưu hóa động mức tiêu thụ điện năng và làm mát dựa trên Max-Q trong trung tâm dữ liệu

Theo ước tính thận trọng, hệ thống này có thể cải thiện hiệu quả sử dụng năng lượng lên khoảng 2 lần, đây là một lợi ích đáng kể ở quy mô mà chúng ta đang thảo luận. Omniverse bắt đầu từ trái đất kỹ thuật số và sẽ mang theo các bản sao kỹ thuật số ở nhiều quy mô khác nhau; chúng tôi đang xây dựng chiếc máy tính lớn nhất trong lịch sử loài người với sự hợp tác của các đối tác toàn cầu.

Ngoài ra, NVIDIA cũng đang mở rộng hoạt động sang lĩnh vực vũ trụ. Chip Thor đã vượt qua chứng nhận về khả năng chống bức xạ và đang được sử dụng trong các vệ tinh. Chúng tôi đang phát triển Vera Rubin Space-1 cùng với các đối tác để xây dựng các máy tính trung tâm dữ liệu không gian. Trong không gian, chúng ta chỉ có thể dựa vào bức xạ để tản nhiệt, và quản lý nhiệt là một thách thức cốt lõi; chúng tôi đang tập hợp các kỹ sư hàng đầu để giải quyết vấn đề này.

OpenClaw: Hệ điều hành cho kỷ nguyên đặc vụ

Peter Steinberger đã phát triển một phần mềm có tên là OpenClaw. Đây là dự án mã nguồn mở phổ biến nhất trong lịch sử loài người, vượt qua những thành tựu của Linux chỉ trong vài tuần.

Về bản chất, OpenClaw là một hệ thống tác nhân có khả năng:

  • Quản lý tài nguyên, truy cập công cụ, hệ thống tập tin và các mô hình ngôn ngữ lớn.

  • Thực hiện các nhiệm vụ theo lịch trình và thời gian

  • Phân tích vấn đề từng bước và huy động các tác nhân phụ.

  • Hỗ trợ nhiều phương thức nhập và xuất dữ liệu khác nhau (giọng nói, video, văn bản, email, v.v.)

Nếu mô tả nó bằng cú pháp của một hệ điều hành, thì nó thực sự là một hệ điều hành—hệ điều hành dành cho các máy tính tác nhân. Windows đã tạo nên khả năng của máy tính cá nhân; OpenClaw giúp hiện thực hóa khả năng của các trợ lý ảo cá nhân.

Mỗi doanh nghiệp cần xây dựng chiến lược OpenClaw riêng của mình, giống như chúng ta cần có chiến lược Linux, chiến lược HTML và chiến lược Kubernetes.

Tái cấu trúc toàn diện CNTT doanh nghiệp

Trước khi có OpenClaw, công nghệ thông tin doanh nghiệp bao gồm việc dữ liệu và tập tin được đưa vào hệ thống, luân chuyển qua các công cụ và quy trình làm việc, cuối cùng trở thành công cụ để con người sử dụng. Các công ty phần mềm tạo ra các công cụ, và các nhà tích hợp hệ thống (GSI) cùng các công ty tư vấn đã giúp các doanh nghiệp sử dụng những công cụ này.

Sau OpenClaw, mọi công ty SaaS sẽ chuyển đổi thành công ty AaaS (Agent as a Service) — không chỉ cung cấp công cụ, mà còn cung cấp các tác nhân AI chuyên biệt trong các lĩnh vực cụ thể.

Nhưng có một thách thức quan trọng: các tác nhân nội bộ có thể truy cập dữ liệu nhạy cảm, thực thi mã và liên lạc với các bên bên ngoài. Điều này cần được kiểm soát chặt chẽ trong môi trường doanh nghiệp.

Để giải quyết vấn đề này, chúng tôi đã hợp tác với Peter để tích hợp bảo mật vào phiên bản doanh nghiệp, và cho ra mắt:

  • Móng vuốt NeMo (thiết kế tham khảo): Một khung tham chiếu cấp doanh nghiệp dựa trên OpenClaw, tích hợp toàn bộ bộ công cụ trí tuệ nhân tạo (AI) của NVIDIA.

  • Open Shield (lớp bảo mật): Được tích hợp vào OpenClaw, cung cấp các công cụ quản lý chính sách, rào chắn mạng và bộ định tuyến bảo mật để đảm bảo an ninh dữ liệu doanh nghiệp.

  • Đám mây NeMo: Có thể tải xuống và tích hợp với các công cụ quản lý chính sách của tất cả các công ty SaaS.

Đây là thời kỳ phục hưng của công nghệ thông tin doanh nghiệp, một ngành công nghiệp trị giá 2 nghìn tỷ đô la đang trên đà phát triển lên quy mô hàng nghìn tỷ đô la, chuyển từ việc cung cấp công cụ sang cung cấp các dịch vụ tác nhân AI chuyên biệt.

Tôi hoàn toàn có thể hình dung rằng trong tương lai, mỗi kỹ sư trong một công ty sẽ có một ngân sách token hàng năm. Mức lương của họ có thể lên tới hàng trăm nghìn đô la, và tôi sẽ cung cấp thêm cho họ một hạn ngạch tượng trưng tương đương với một nửa mức lương đó, cho phép sản lượng của họ tăng lên gấp 10 lần. "Bạn sẽ nhận được bao nhiêu token khi nhận việc?" đã trở thành một chủ đề tuyển dụng mới ở Thung lũng Silicon.

Trong tương lai, mọi doanh nghiệp sẽ vừa là người sử dụng token (đối với kỹ sư) vừa là nhà sản xuất token (cung cấp dịch vụ cho khách hàng). Tầm quan trọng của OpenClaw không thể bị đánh giá thấp; nó quan trọng ngang với HTML và Linux.

Sáng kiến ​​mô hình mở của NVIDIA

Trong lĩnh vực phần mềm tùy chỉnh (Custom Claw), chúng tôi cung cấp các mô hình tiên tiến do chính NVIDIA phát triển:

Mô hình miền Nemotron Mô hình ngôn ngữ lớn Mô hình nền tảng thế giới Cosmos Mô hình robot hình người GROOT Mô hình lái xe tự hành Alpamayo Sinh học kỹ thuật số BioNeMo Vật lý Phys-AIAI

Chúng tôi luôn đi đầu về công nghệ trong mọi lĩnh vực và cam kết không ngừng cải tiến – Nemotron 3 sẽ được tiếp nối bởi Nemotron 4, Cosmos 1 sẽ được tiếp nối bởi Cosmos 2, và Groq cũng sẽ được nâng cấp lên thế hệ thứ hai.

Nemotron 3 nằm trong top ba mẫu máy hàng đầu thế giới về OpenClaw và là công nghệ tiên tiến nhất. Nemotron 3 Ultra sẽ trở thành mô hình nền tảng mạnh mẽ nhất từ ​​trước đến nay, hỗ trợ các quốc gia xây dựng trí tuệ nhân tạo chủ quyền.

Hôm nay, chúng tôi tuyên bố thành lập Liên minh Nemotron, đầu tư hàng tỷ đô la để thúc đẩy sự phát triển của các mô hình nền tảng trí tuệ nhân tạo. Các thành viên của liên minh bao gồm: BlackForest Labs, Cursor, LangChain, Mistral, Perplexity, Reflection, Sarvam (Ấn Độ), Thinking Machines (phòng thí nghiệm của Mira Murati), và nhiều hơn nữa. Hết công ty này đến công ty khác, các doanh nghiệp phần mềm đang tham gia, tích hợp thiết kế tham chiếu NeMo Claw và bộ công cụ trí tuệ nhân tạo agent của NVIDIA vào sản phẩm của họ.

Trí tuệ nhân tạo vật lý và robot

Các tác nhân kỹ thuật số hoạt động trong thế giới kỹ thuật số—viết mã, phân tích dữ liệu; trong khi trí tuệ nhân tạo vật lý đề cập đến các tác nhân hữu hình, tức là robot.

Tại hội nghị GTC này, 110 robot đã được trưng bày, gần như bao gồm tất cả các công ty phát triển robot trên toàn thế giới. NVIDIA cung cấp ba máy tính (máy tính huấn luyện, máy tính mô phỏng, máy tính tích hợp) cùng một bộ phần mềm hoàn chỉnh và các mô hình trí tuệ nhân tạo.

Xét về lĩnh vực lái xe tự hành, "thời điểm ChatGPT" đã đến. Hôm nay, chúng tôi công bố bốn đối tác mới tham gia nền tảng RoboTaxi Ready của NVIDIA: BYD, Hyundai, Nissan và Geely, với tổng sản lượng hàng năm là 18 triệu xe. Cùng với các đối tác trước đây như Mercedes-Benz, Toyota và General Motors, dòng sản phẩm đã được mở rộng hơn nữa. Chúng tôi cũng đã công bố một sự hợp tác quan trọng với Uber để triển khai và tích hợp các phương tiện RoboTaxi Ready tại nhiều thành phố.

Trong lĩnh vực robot công nghiệp, nhiều công ty như ABB, Universal Robotics và KUKA đang hợp tác với chúng tôi để kết hợp các mô hình AI vật lý với hệ thống mô phỏng, thúc đẩy việc triển khai robot trong các dây chuyền sản xuất toàn cầu.

Trong lĩnh vực viễn thông, Caterpillar và T-Mobile cũng nằm trong số đó. Trong tương lai, các trạm gốc không dây sẽ không chỉ đơn thuần là các nút truyền thông mà sẽ trở thành NVIDIA Aerial AI RAN — một nền tảng điện toán biên thông minh có khả năng nhận biết lưu lượng truy cập theo thời gian thực và điều chỉnh định hướng chùm tia để đạt được khả năng tiết kiệm năng lượng và nâng cao hiệu quả.

Phần đặc biệt: Hình ảnh robot Olaf

(Xem video trình diễn robot Olaf của Disney)

Jensen Huang: Người tuyết đã đến rồi! Newton đang hoạt động tốt! Omniverse cũng đang hoạt động tốt! Olaf, bạn khỏe không?

Olaf: Tôi rất vui khi được gặp bạn.

Jensen Huang: Đúng vậy, vì tôi đã tặng bạn một chiếc máy tính—Jetson!

Olaf: Đó là cái gì vậy?

Jensen Huang: Nó nằm ngay trong bụng bạn.

Olaf: Thật tuyệt vời.

Jensen Huang: Bạn đã học cách đi bộ trong Omniverse.

Olaf: Tôi thích đi bộ. Nó còn tuyệt hơn nhiều so với việc cưỡi tuần lộc và ngắm nhìn bầu trời tuyệt đẹp.

Jensen Huang: Điều đó là nhờ vào mô phỏng vật lý—bộ giải Newton chạy trên NVIDIA Warp, được phát triển với sự hợp tác của Disney và DeepMind, cho phép bạn thích ứng với thế giới vật lý thực tế.

Olaf: Tôi cũng định nói điều đó.

Jensen Huang: Đó chính là sự thông minh của bạn. Tôi là người tuyết, không phải quả cầu tuyết.

Jensen Huang: Bạn có thể tưởng tượng được không? Disneyland tương lai - với tất cả các nhân vật robot tự do đi lại trong công viên. Nhưng thành thật mà nói, tôi nghĩ bạn sẽ cao hơn. Tôi chưa từng thấy người tuyết nào thấp như vậy.

Olaf: (không đưa ra ý kiến ​​dứt khoát)

Jensen Huang: Bạn có thể giúp tôi kết thúc bài phát biểu hôm nay được không?

Olaf: Điều đó thật tuyệt vời!

Tóm tắt bài phát biểu chính

Jensen Huang: Hôm nay, chúng ta đã cùng nhau khám phá những chủ đề cốt lõi sau:

  1. Bước ngoặt quan trọng trong tư duy logic đã đến: tư duy logic trở thành khối lượng công việc cốt lõi của AI, token là mặt hàng mới và hiệu năng suy luận quyết định trực tiếp doanh thu.

  2. Kỷ nguyên của các nhà máy AI: các trung tâm dữ liệu đã phát triển từ các cơ sở lưu trữ tệp tin thành các nhà máy sản xuất token, và trong tương lai, mọi công ty sẽ đánh giá khả năng cạnh tranh của mình bằng "hiệu quả của nhà máy AI".

  3. Cuộc cách mạng tác nhân OpenClaw: OpenClaw đã mở ra kỷ nguyên điện toán tác nhân, và CNTT doanh nghiệp đang chuyển đổi từ kỷ nguyên công cụ sang kỷ nguyên tác nhân; mỗi doanh nghiệp cần phải xây dựng chiến lược OpenClaw.

  4. Trí tuệ nhân tạo vật lý và robot: Trí tuệ thể hiện qua hình thể đang được mở rộng quy mô, với xe tự lái, robot công nghiệp và robot hình người cùng nhau tạo nên cơ hội quan trọng tiếp theo cho trí tuệ nhân tạo vật lý.

Cảm ơn tất cả mọi người, và chúc các bạn vui vẻ với GTC!

Bạn cũng có thể thích

Ba biểu đồ đáng chú ý tại sự kiện GTC của NVIDIA: Máy tính rẻ hơn, chi tiêu nhiều hơn

Chi phí khai thác giảm 94%, vốn đầu tư tăng 170%.

Bản tin sáng | Strategy đã đầu tư 1,57 tỷ đô la vào tuần trước để tăng lượng nắm giữ thêm 22.337 bitcoin; Abra có kế hoạch niêm yết cổ phiếu thông qua hình thức sáp nhập SPAC; Metaplanet đặt mục tiêu huy động khoảng 765 triệu đô la để tăng lượng nắm giữ b

Tổng quan về các sự kiện thị trường quan trọng ngày 16 tháng 3

Tám cây nến xanh của BTC đã đạt mức 76.000 đô la, lý do nào đằng sau việc nó vượt trội hơn vàng giữa lúc thị trường biến động mạnh?

Chiến tranh hạ nhiệt, giá dầu giảm, thị trường chứng khoán phục hồi: Lần này Bitcoin sẽ đi về đâu?

CB Insights: Chín dự đoán về lĩnh vực Fintech năm 2026, trong đó mã hóa tài sản (Asset Tokenization) đang trở thành xu hướng.

Các tác nhân AI khởi xướng giao dịch tự động, các ông lớn tiền điện tử trực tiếp thách thức các ngân hàng truyền thống: một bài báo tiết lộ 9 dự đoán mang tính đột phá sẽ định hình lại bối cảnh tài chính vào năm 2026.

Nghiên cứu về Stablecoin Dune: Dòng chảy và nhu cầu của một thị trường trị giá 300 tỷ đô la

Trong tập dữ liệu này, các giao dịch chuyển tiền không còn được dán nhãn đơn thuần là "khối lượng giao dịch" mà được phân loại là các hoạt động khác nhau trên chuỗi. Đây là sự khác biệt giữa "chỉ biết rằng 100 nghìn tỷ đô la đã được chuyển đi" và "hiểu được lý do tại sao số tiền đó được chuyển đi".

Thư thường niên của Stripe: Mật độ nhận thức mới cực kỳ cao, đặc biệt là mô hình 5 cấp độ "AI + Thanh toán".

Mọi xu hướng ở đây đều ảnh hưởng đến sự sống còn trong tương lai của mọi người.

Coin thịnh hành

Tin tức crypto mới nhất

Đọc thêm