“ChatGPT phiên bản Việt” và câu chuyện của người tiên phong

0:00 / 0:00
0:00
(Ngày Nay) - Chỉ 9 tháng sau khi ChatGPT ra mắt, đội ngũ kỹ sư VinBigdata (Tập đoàn Vingroup) đã làm chủ hoàn toàn mô hình ngôn ngữ lớn tiếng Việt và chính thức giới thiệu ViGPT - ChatGPT phiên bản Việt đầu tiên dành cho người dùng cuối vào tháng 12/2023. Sản phẩm nhanh chóng gây được tiếng vang trong cộng đồng khoa học công nghệ Việt Nam.
“ChatGPT phiên bản Việt” và câu chuyện của người tiên phong

Chọn con đường khó để giải bài toán Việt

Vào cuối năm 2022, ChatGPT tạo nên một “cú nổ lớn”, mở ra cuộc đua chinh phục AI tạo sinh giữa các các quốc gia và ông lớn trong lĩnh vực công nghệ. Giới công nghệ Việt khi ấy cũng sục sôi mong muốn phát triển những sản phẩm của riêng người Việt để tự chủ về công nghệ, giảm thiểu sự phụ thuộc vào các sản phẩm quốc tế. Tuy nhiên, không phải đơn vị nào cũng đủ khả năng và quyết tâm hiện thực hóa mong muốn ấy như VinBigdata.

“AI tạo sinh là một bài toán khó. Các ông lớn như OpenAI hay Google cũng phải đổ rất nhiều nguồn lực và thời gian vào nghiên cứu mới có thể tạo ra những sản phẩm như chúng ta thấy. Các sản phẩm này đã rất tốt, nhưng thật ra các nhà khoa học cũng vẫn chưa hoàn toàn hiểu cơ cấu hoạt động của nó. Khi nào nó có lỗi, và lỗi sẽ như thế nào ít ai đoán trước được. Để phát triển một sản phẩm tương tự ChatGPT dành cho người Việt, trong thời gian ngắn chưa tới một năm, thì rất nhiều thử thách. Nhưng chúng tôi đã lựa chọn "liều" vì một phiên bản ChatGPT tiếng Việt nếu không phải người Việt làm thì ai làm” - GS. Vũ Hà Văn, Giám đốc khoa học VinBigdata chia sẻ.

Thực tế, rất ít công ty lựa chọn xây dựng Mô hình ngôn ngữ lớn của riêng mình từ đầu. Như GPT 3 của OpenAI có 175 tỷ tham số và được đào tạo trên bộ dữ liệu 45 terabyte và tiêu tốn 4,6 triệu USD. Thậm chí, theo tính toán, số tiền để phát triển GPT 4 có thể lên tới 100 triệu USD. “Với những con số khổng lồ như thế, rất khó để tìm được một công ty nào đủ sức đầu tư cho công nghệ này”, TS. Nguyễn Kim Anh, Giám đốc Sản phẩm VinBigdata nói.

Để các doanh nghiệp Việt Nam có thể tiếp cận với công nghệ AI thế hệ mới, với chi phí và hạ tầng tối ưu, VinBigdata lựa chọn một hướng đi hoàn toàn khác biệt, đó là tạo ra một mô hình ngôn ngữ chỉ với 1,6 tỷ tham số, nhưng có khả năng tương đương với những mô hình ngôn ngữ lớn có nhiều tỷ tham số.“Kết quả cho thấy, với kiến trúc do chính VinBigdata tự phát triển hoàn toàn có thể tối ưu và đẩy nhanh quá trình huấn luyện mô hình ngôn ngữ, giảm chi phí hạ tầng (bao gồm chi phí huấn luyện và chi phí sử dụng), nhưng vẫn đảm bảo chất lượng của mô hình”, TS. Nguyễn Kim Anh cho biết thêm.

Sau khi giải quyết bài toán về kích thước mô hình ngôn ngữ lớn, trong quá trình “thai nghén” ViGPT, sau khi nghiên cứu các mô hình của nước ngoài, đội ngũ VinBigdata còn nhận ra một thử thách khác là “tính ảo giác”, đến từ bản chất cố hữu của mô hình xác suất thống kê.

“ChatGPT phiên bản Việt” và câu chuyện của người tiên phong ảnh 1

Theo đó, các mô hình ngôn ngữ lớn trên thế giới thường được huấn luyện bằng các nguồn dữ liệu tiếng Anh. Do đó, mô hình này chưa thực sự hiểu và phản ứng đúng với ngữ cảnh và văn hóa của người Việt. Điều này dẫn đến tình trạng ảo giác (hallucination) khiến mô hình ngôn ngữ lớn “bịa đặt” ra câu trả lời không chính xác.

Để tìm ra lời giải tối ưu trong thời gian ngắn nhất, đội ngũ Xử lý ngôn ngữ tự nhiên (NLP) của VinBigdata được chia thành các nhóm nhỏ, cùng phân tích, bàn bạc các ý tưởng khác nhau để tìm hướng đi cuối cùng phù hợp nhất.

“Sau cùng, chúng tôi quyết định phát triển kiến trúc khác so với phần lớn mô hình ngôn ngữ lớn hiện tại, đồng thời tiến hành đào tạo trên bộ 600GB dữ liệu tiếng Việt tinh chỉnh, nhằm tạo ra một “trợ lý ảo thông minh” có khả năng hiểu và đưa ra câu trả lời theo ngữ cảnh của người Việt”, TS. Nguyễn Kim Anh nói thêm.

Khát vọng một hệ sinh thái công nghệ Việt

Theo kết quả đánh giá từ Bộ Tiêu chuẩn đánh giá năng lực tiếng Việt (VMLU) ViGPT đạt điểm trung bình là 42.24%, đứng thứ hai chỉ sau ChatGPT (48.54%). Kết quả này cho phép ViGPT tìm kiếm thông tin, giải đáp câu hỏi về các chủ đề đặc trưng, đặc thù của Việt Nam một cách nhanh chóng.

Bên cạnh năng lực của trợ lý ảo, điều đội ngũ phát triển mong muốn là tích hợp ViGPT vào các sản phẩm gần gũi, sử dụng hàng ngày, nhằm tạo ra sự thay đổi trong cuộc sống của người Việt. Đó chính là động lực thôi thúc đội ngũ VinBigdata xây dựng một hệ sinh thái các sản phẩm ngôn ngữ và tiếng nói ứng dụng ViGPT - Hệ sinh thái “Vi” bao gồm: ViChat, ViVoice, Trợ lý ảo ViVi. Các sản phẩm này có thể sử dụng cho đa ngành nghề, từ công nghiệp ô tô, ngân hàng - tài chính, bảo hiểm đến giao thông vận tải và nhiều lĩnh vực khác.

“Khi làm công nghệ, nhất là AI, chúng tôi không chỉ muốn chinh phục những hệ thống hay, phức tạp mà khó nhìn thấy. Chúng tôi muốn tạo ra những sản phẩm hữu hình, có tính ứng dụng cao, mà ở đó, AI là tác nhân trực tiếp tạo ra những thay đổi trong cuộc sống”, Giám đốc Sản phẩm VinBigdata khẳng định.

Do đó, phát triển thành công ViGPT mới chỉ là bước đầu tiên trong hành trình đưa công nghệ và dữ liệu “thuần Việt” phục vụ cuộc sống của hàng triệu người dân Việt Nam. Đại diện VinBigdata cho biết, đơn vị này đặt mục tiêu tích hợp ViGPT vào nền tảng trí tuệ nhân tạo đa nhận thức VinBase 2.0, nhằm cung cấp các giải pháp vượt trội cho hệ thống tổ chức, doanh nghiệp ở đa dạng quy mô, ngành nghề.

Trước ViGPT, đội ngũ chuyên gia, kỹ sư trong lĩnh vực công nghệ xử lý ngôn ngữ và tiếng nói VinBigdata đã ghi dấu ấn với việc cho ra mắt ViVi - trợ lý ảo tiếng Việt toàn diện đầu tiên (được ứng dụng và triển khai trên các dòng ô tô điện VinFast, ứng dụng cư dân Vinhomes Resident và sàn thương mại điện tử Vinhomes Online), đồng thời, làm chủ hoàn toàn những công nghệ tiên tiến nhất trên thế giới như Sinh trắc học giọng nói (Voice Biometrics) hay Nhân bản giọng nói (Voice Cloning).

Tất cả những công nghệ này đều được phát triển dựa trên cơ sở dữ liệu 3.500 terabyte, tập trung chủ yếu vào dữ liệu đặc thù của người Việt, do VinBigdata thu thập, phân tích và tinh chỉnh. Mục tiêu sau cùng là làm sao mang công nghệ thế giới, chạm tới cuộc sống Việt, bằng chính dữ liệu và hệ tri thức của người Việt.

Miễn vé tham quan Thành nhà Hồ trong Ngày Di sản văn hóa Việt Nam
Miễn vé tham quan Thành nhà Hồ trong Ngày Di sản văn hóa Việt Nam
(Ngày Nay) - Ngày 22/11, Trung tâm Bảo tồn Di sản Thành nhà Hồ (huyện Vĩnh Lộc, Thanh Hóa) cho biết, nhân kỷ niệm Ngày Di sản văn hóa Việt Nam (23/11/2005 - 23/11/2024), Trung tâm sẽ miễn vé cho du khách trong nước và quốc tế đến tham quan, trải nghiệm tại di sản Thành nhà Hồ.
Kháng thuốc tăng nguy cơ lây lan bệnh, bệnh nặng và tử vong
Kháng thuốc tăng nguy cơ lây lan bệnh, bệnh nặng và tử vong
(Ngày Nay) - Ngày 22/11, tại Hà Nội, Bộ Y tế phối hợp với Tổ chức Y tế Thế giới (WHO) và các đối tác quốc tế tổ chức mít tinh hưởng ứng “Tuần lễ Thế giới nâng cao nhận thức về kháng thuốc” từ ngày 18-24/11/2024 và Hội nghị triển khai Kế hoạch hành động phòng, chống kháng thuốc lĩnh vực y tế giai đoạn 2024 – 2025.
Thứ trưởng Bộ VH,TT&DL Hồ An Phong.
Hội nghị triển khai Chỉ thị 30/CT-TTg: Bước ngoặt quan trọng cho ngành công nghiệp văn hóa Việt Nam
(Ngày Nay) - Ngày 21 và 22/11/2024, Bộ VH,TT&DL đã tổ chức Hội nghị triển khai Chỉ thị số 30/CT-TTg ngày 29/8/2024 của Thủ tướng Chính phủ về phát triển các ngành công nghiệp văn hóa Việt Nam. Hội nghị được kỳ vọng trở thành bước đột phá, đặt nền tảng cho sự phát triển mạnh mẽ và bền vững của ngành công nghiệp văn hóa. Liên hiệp các Hội UNESCO Việt Nam cũng cử đại diện tham dự hội nghị nhằm học hỏi kinh nghiệm thực tiễn để thúc đẩy công nghiệp văn hóa gắn liền với hợp tác toàn cầu.
Bước tiến đột phá trong dự án xây dựng Bản đồ Tế bào con người
Bước tiến đột phá trong dự án xây dựng Bản đồ Tế bào con người
(Ngày Nay) - Các nhà khoa học quốc tế ngày 20/11 đã công bố bản thiết kế đầu tiên về sự phát triển của hệ xương người, đánh dấu bước tiến quan trọng trong dự án Bản đồ Tế bào con người (Human Cell Atlas), một nỗ lực lớn nhằm tạo ra bản đồ sinh học chi tiết của mọi loại tế bào trong cơ thể người.
Gia Lai : Ngôi cổ tự duy nhất được phong sắc tứ
Gia Lai : Ngôi cổ tự duy nhất được phong sắc tứ
(Ngày Nay) - Gia Lai hiện có hàng trăm ngôi chùa, trong đó có nhiều chùa đã qua trăm năm lịch sử. Nhưng chỉ duy nhất chùa Tân An (đường Nguyễn Thiếp, phường Tây Sơn, thị xã An Khê) được sự công nhận và ban tặng của hoàng gia nhà Nguyễn, gọi là sắc tứ.
Đặc sắc chương trình giao lưu "Sắc màu di sản"
Đặc sắc chương trình giao lưu "Sắc màu di sản"
(Ngày Nay) - Tối 21/11, tại hồ Nguyên Phi Ỷ Lan (thành phố Bắc Ninh), Sở Văn hóa, Thể thao và Du lịch tỉnh Bắc Ninh tổ chức Chương trình nghệ thuật dân ca trên thuyền và giao lưu các miền di sản chủ đề "Sắc màu di sản".
Phật dạy 5 điều thân kính với làng xóm
Phật dạy 5 điều thân kính với làng xóm
(Ngày Nay) - Mối quan hệ làng xóm cũng có những nhiêu khê và phức tạp, nếu không khéo thì từ thâm tình lại hóa ra giận ghét, thậm chí là oán thù. Cho nên Đức Phật rất tinh tế khi dạy phải thân kính với bà con.
Học cách trân quý từng phút giây còn sống
Học cách trân quý từng phút giây còn sống
(Ngày Nay) - Khi tôi nghe thấy tin có người nào đó vừa mất đi, tin ấy với tôi như tiếng chuông thức tỉnh. Tiếng chuông đó là một lời nhắc nhở sâu sắc về sự mong manh của kiếp người.
Oai nghi của người tu hành
Oai nghi của người tu hành
(Ngày Nay) - Oai nghi cùng với chánh kiến và tịnh giới là ba yếu tố làm nên đạo hạnh - phẩm chất của tu sĩ Phật giáo, như cố Trưởng lão Hòa thượng Thích Thiện Siêu, bậc am tường kinh luật luận đã từng nhấn mạnh.
Tác phẩm có tên “Comedian” của nghệ sĩ người Italy Maurizio Cattelan ra mắt lần đầu năm 2019 tại triển lãm Art Basel ở Miami Beach, đã gây tranh cãi về việc có thể được coi là nghệ thuật hay không. Ảnh: AP
6,2 triệu USD cho quả chuối dán tường
(Ngày Nay) - 6,2 triệu USD là mức giá vừa được trả cho một tác phẩm nghệ thuật gây tranh cãi, một quả chuối tươi dán lên tường bằng băng dính bạc. Tác phẩm được đưa ra trong một cuộc bán đấu giá của Sotheby’s ở New York, Mỹ.