NHÀ SÁNG LẬP DEEPSEEK BÊN TRUNG QUỐC BỊ MẮC CHỚP VỚI GIẢM CHI PHÍ ĐÀO TẠO AI THAY VÌ ĐUA CHẠY VỀ PHẦN CỨNG

DEEPSEEK, CUỘC Cách Mạng Trong AI: ĐÃ ĐẾN LÚC AI ĐẢO NGƯỢC CUỘC ĐUA?

Liang Wenfeng, nhà sáng lập công ty công nghệ DeepSeek của Trung Quốc, mới đây đã đề xuất một kiến trúc mới mang tên Siêu kết nối đa tạp (Manifold-Constrained Hyper-Connections – mHC) nhằm thay đổi căn bản cách huấn luyện trí tuệ nhân tạo. Phương pháp này gây ra làn sóng chú ý trong giới công nghệ khi hứa hẹn có thể làm thay đổi cuộc đua AI toàn cầu.

DeepSeek từng gây chấn động khi ra mắt các mô hình AI hoàn toàn tương đương OpenAI nhưng với chi phí thấp hơn rất nhiều. Sự kiện này đã làm sụt giảm giá trị thị trường của Nvidia, khiến cổ phiếu của hãng này giảm 17% trong một ngày và buộc các công ty Mỹ phải điều chỉnh chiến lược chuyển hướng từ AI đóng mã nguồn sang mã nguồn mở. Tuyên bố của Liang Wenfeng được đánh giá là có thể mở ra một bước ngoặt mới trong ngành trí tuệ nhân tạo toàn cầu.

ĐỘT PHÁ CỦA DEEPSEEK
Trong nghiên cứu công bố ngày 1.1, nhóm 19 nhà nghiên cứu của DeepSeek cho biết đã thử nghiệm phương pháp mHC trên các mô hình có từ 3 tỉ đến 27 tỉ tham số. Kết quả cho thấy siêu kết nối đa tạp giúp mở rộng quy mô mô hình mà không gây tăng đáng kể gánh nặng tính toán. Đây là bước tiến quan trọng trong bối cảnh các công ty Mỹ đang dẫn đầu nhờ khả năng tiếp cận hạ tầng mạnh mẽ hơn.

Điều này còn phản ánh một xu hướng mở cửa và hợp tác ngày càng rõ nét hơn của các doanh nghiệp AI Trung Quốc, khi họ công khai chia sẻ các nghiên cứu công cộng thay vì giữ bí mật để duy trì lợi thế cạnh tranh. Các chuyên gia nhận định rằng các kết quả của DeepSeek chứa đựng những tín hiệu quan trọng định hình các hướng đi sẽ tiếp tục phát triển trong ngành.

“Kết quả thực nghiệm xác nhận mHC thực sự cho phép huấn luyện các mô hình quy mô lớn với khả năng mở rộng vượt trội so với các siêu kết nối thông thường,” các nhà nghiên cứu của DeepSeek nói. Họ cũng nhấn mạnh rằng tối ưu hóa hiệu quả ở cấp hạ tầng giúp giảm chi phí đáng kể, mang lại lợi ích vượt trội so với phương pháp truyền thống. Nhà sáng lập Liang Wenfeng vẫn tích cực tham gia sâu vào các nghiên cứu cốt lõi của công ty.

SỨC MẠNH CỦA SIÊU KẾT NỐI ĐA TẠP
Khái niệm về siêu kết nối lần đầu được nhóm ByteDance đề xuất vào tháng 9.2024 như một cải tiến của ResNet, kiến trúc mạng dư nổi tiếng ra đời năm 2015 bởi các nhà khoa học của Microsoft Research Asia, trong đó có Hà Khai Minh. ResNet giúp huấn luyện các mạng nơ-ron sâu hơn mà vẫn giữ được tính ổn định, trở thành nền tảng cho các mô hình lớn như GPT của OpenAI hay hệ thống củng cố như AlphaFold của Google DeepMind.

Tuy nhiên, ResNet tồn tại một số hạn chế như khó đảm bảo hiệu quả truyền tín hiệu qua mạng khi độ sâu tăng, dẫn đến hiện tượng suy giảm tín hiệu — hay còn gọi là “sụp đổ” tín hiệu.

Các nhà nghiên cứu của DeepSeek cho biết, phương pháp siêu kết nối của họ đã giải quyết được vấn đề này bằng cách mở rộng luồng dư và tăng cường mức độ phức tạp của mạng mà không làm tăng chi phí tính toán của từng phần. Tuy nhiên, họ cũng nhấn mạnh rằng các phương pháp trước đó chưa xem xét đầy đủ chi phí bộ nhớ ngày càng lớn, khiến khả năng mở rộng thực tế bị hạn chế khi huấn luyện các mô hình siêu lớn.

Do đó, DeepSeek đề xuất điều chỉnh gián tiếp bằng cách giới hạn mạng HC bằng một đa tạp cụ thể để đảm bảo hiệu quả về mặt tính toán và chi phí. “mHC sẽ giúp giải quyết các hạn chế hiện tại và mở ra những hướng phát triển mới cho các kiến trúc nền tảng thế hệ tiếp theo,” các nhà nghiên cứu khẳng định.

Bài viết này được chính CEO của DeepSeek, Liang Wenfeng, đăng tải lên kho lưu trữ mở arXiv. Ông còn là người thường xuyên công bố các nghiên cứu kỹ thuật nổi bật của công ty, bao gồm các mô hình R1 và V3 trong thời gian gần đây.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *