SÁNG LẬP ĐẾN TỪ TRUNG QUỐC BẤT NGỜ GIẢM CHI PHÍ ĐÀO TẠO AI THAY VÌ ĐUA CẠNH VỀ PHẦN CỨNG!

ĐỘT PHÁ AI ĐẾN TỪ TRUNG QUỐC: DEEPSEEK MỞ RỘNG CUỘC ĐUA CẢNH TRANH TOÀN CẦU

Liang Wenfeng vừa đề xuất một bước tiến đột phá trong việc huấn luyện trí tuệ nhân tạo thông qua kiến trúc mới mang tên Siêu kết nối đa tạp (mHC). Phương pháp này hứa hẹn sẽ thay đổi hoàn toàn cuộc chơi khi có khả năng mở rộng quy mô mô hình AI mà không gây ra gánh nặng tính toán quá lớn, mở ra khả năng vượt mặt các đối thủ cạnh tranh như OpenAI và các gã khổng lồ công nghệ Mỹ.

DeepSeek đã từng gây chấn động thị trường với khả năng phát triển các mô hình AI mạnh tương đương OpenAI, nhưng chỉ với chi phí thấp hơn nhiều. Sự ra mắt bất ngờ của công ty Trung Quốc đã khiến Nvidia phải chứng kiến cổ phiếu giảm tới 17% trong một ngày, làm dấy lên cuộc so kè khốc liệt trong ngành AI toàn cầu. Không chỉ thế, DeepSeek còn buộc các công ty Mỹ phải điều chỉnh chiến lược từ AI mã nguồn đóng sang mã nguồn mở, khi các nghiên cứu của họ ngày càng công khai và cởi mở hơn.

Trong nghiên cứu đăng ngày 1.1, nhóm các nhà khoa học của DeepSeek tiết lộ đã thử nghiệm phương pháp mHC trên các mô hình có từ 3 tỉ đến 27 tỉ tham số. Kết quả cho thấy, mHC có khả năng mở rộng quy mô mà không làm tăng đáng kể gánh nặng tính toán, đặc biệt khi các công ty Mỹ đang có lợi thế lớn về khả năng tiếp cận sức mạnh tính toán. Điều này thể hiện rõ nét trong bối cảnh các công ty Trung Quốc ngày càng cởi mở, chia sẻ nhiều nghiên cứu công khai nhằm thúc đẩy sự hợp tác trong ngành.

Các chuyên gia đánh giá cao nghiên cứu của DeepSeek, cho rằng mô hình mHC mở ra nhiều tiềm năng quan trọng cho các sản phẩm trí tuệ nhân tạo trong tương lai. Các nhà nghiên cứu của công ty nhấn mạnh: “Kết quả thực nghiệm xác nhận mHC thực sự cho phép huấn luyện các mô hình lớn với khả năng mở rộng vượt trội so với các phương pháp truyền thống.” Đồng thời, nhóm nghiên cứu còn khẳng định rằng tối ưu hóa hiệu quả hạ tầng là yếu tố chủ chốt, giúp giảm chi phí tính toán mà vẫn đảm bảo hiệu quả phát triển.

Khái niệm siêu kết nối lần đầu tiên được các nhà nghiên cứu của ByteDance đề xuất vào tháng 9.2024, nhằm cải tiến kiến trúc mạng residual (ResNet) nổi tiếng. Trong đó, ResNet đã giúp huấn luyện các mạng sâu dễ dàng hơn, giữ gìn dữ liệu quan trọng dù số lớp tăng lên. Tới nay, ResNet đã trở thành nền tảng của nhiều mô hình lớn như GPT của OpenAI hay AlphaFold của Google DeepMind.

Tuy nhiên, ResNet còn tồn tại những hạn chế về khả năng đảm bảo tín hiệu truyền qua mạng một cách hiệu quả khi chiều sâu của mô hình tăng lên, dẫn đến hiện tượng “sụp đổ” thông tin. Các nhà nghiên cứu của DeepSeek cho rằng phương pháp của ByteDance đã mở rộng luồng dư và tăng cường độ phức tạp của mạng mà không làm tăng chi phí tính toán. Nhưng họ cũng nhận thấy, các phương pháp cũ không tính đến chi phí bộ nhớ ngày càng lớn, gây hạn chế khả năng mở rộng của các mô hình lớn. Chính vì vậy, DeepSeek đề xuất một điều chỉnh mới dựa trên giới hạn mạng HC bằng một đa tạp cụ thể, nhằm tối ưu hiệu suất tính toán và chi phí.

“mHC sẽ giúp giải quyết những hạn chế hiện tại và mở ra các hướng phát triển mới cho các kiến trúc AI của thế hệ tiếp theo,” các nhà nghiên cứu của DeepSeek nhận định. Tổng thể, chiến lược này được CEO Liang Wenfeng dẫn dắt, người vẫn tích cực tham gia vào các hoạt động nghiên cứu cốt lõi của công ty. Các công trình của DeepSeek, gồm các mô hình R1 và V3, liên tục được công bố rộng rãi qua các nền tảng như arXiv, góp phần thúc đẩy tiến trình đổi mới trong ngành AI toàn cầu.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *