Lần đầu tiên Việt Nam có mô hình ngôn ngữ lớn chuyên biệt cho lĩnh vực pháp lý, đi kèm bộ chuẩn đánh giá độc lập. Sự kiện này mở ra khả năng phát triển trợ lý ảo pháp lý tiếng Việt có độ tin cậy cao, phù hợp hệ thống pháp luật trong nước.
CMC-AI-Legal-32B: Mô hình pháp lý tiếng Việt chuyên biệt
CMC OpenAI, công ty thành viên của Tập đoàn Công nghệ CMC, vừa công bố mô hình ngôn ngữ lớn pháp lý tiếng Việt CMC-AI-Legal-32B. Đây là mô hình được tinh chỉnh chuyên sâu theo hệ thống pháp luật Việt Nam. Mô hình kế thừa nền tảng từ các mô hình ngôn ngữ lớn hiện đại.
Theo CMC OpenAI, pháp lý là lĩnh vực nhạy cảm, yêu cầu độ chính xác cao. Các kết quả đầu ra cần có khả năng kiểm chứng rõ ràng. Việc phát triển mô hình chuyên biệt giúp đáp ứng tốt hơn các yêu cầu này.
Doanh nghiệp cho biết cách tiếp cận làm chủ cả mô hình và tiêu chuẩn đánh giá mang ý nghĩa then chốt. Cách tiếp cận này giúp kiểm soát chất lượng hệ thống AI. Đồng thời, nó bảo đảm tính minh bạch khi triển khai ứng dụng thực tế.
Trên bộ chuẩn VLegal-Bench, CMC-AI-Legal-32B đạt hiệu năng tổng thể dẫn đầu. Mô hình đứng đầu 6 trong số 22 tác vụ đánh giá. Kết quả nổi bật ở các bài toán suy luận và lập luận pháp lý nhiều bước.
Hiệu năng vượt trội trong các tác vụ suy luận pháp lý
Nhóm nghiên cứu cho biết các mô hình AI thương mại tổng quát vẫn hoạt động hiệu quả ở các nhiệm vụ phổ thông. Các nhiệm vụ này gồm nhận diện hoặc truy xuất thông tin cơ bản. GPT-4o, Claude và Gemini là những ví dụ điển hình.
Tuy nhiên, khi xử lý các tác vụ suy luận pháp lý phức tạp, hiệu năng của các mô hình này giảm rõ rệt. Hạn chế thể hiện rõ khi tạo lập văn bản pháp lý theo chuẩn viện dẫn của Việt Nam. Các yêu cầu về cấu trúc và điều khoản cụ thể cũng gây khó khăn.
Ngược lại, mô hình được huấn luyện theo ngữ cảnh pháp luật Việt Nam cho kết quả tốt hơn. CMC-AI-Legal-32B thể hiện ưu thế trong việc phân tích điều luật. Mô hình cũng xử lý tốt mối quan hệ sửa đổi, bổ sung và thay thế văn bản.
Theo CMC OpenAI, đây là minh chứng cho nhu cầu phát triển AI chuyên ngành. Các mô hình tổng quát khó đáp ứng yêu cầu đặc thù của pháp luật trong nước.
VLegal-Bench: Bộ chuẩn đánh giá cho AI pháp lý Việt Nam
Song song với mô hình, CMC OpenAI giới thiệu bộ chuẩn đánh giá VLegal-Bench. Đây được xem là trụ cột thứ hai của hệ sinh thái AI pháp lý tiếng Việt. Bộ chuẩn gồm 10.450 mẫu dữ liệu có đáp án chuẩn.
VLegal-Bench được chia thành 22 tác vụ khác nhau. Các tác vụ được thiết kế theo 5 cấp độ suy luận tăng dần. Phạm vi đánh giá trải từ nhận diện điều khoản đến tạo sinh nội dung pháp lý.
Bộ chuẩn bám sát đặc thù của hệ thống pháp luật Việt Nam theo truyền thống dân luật. Nội dung phản ánh rõ cấu trúc phân cấp của văn bản quy phạm. Các yêu cầu về hiệu lực pháp lý và viện dẫn điều luật được đặt lên hàng đầu.
Mỗi mẫu dữ liệu đều gắn với nguồn văn bản pháp luật cấp trung ương. Điều này bảo đảm khả năng kiểm chứng và truy xuất nguồn gốc thông tin.
Định hướng xây dựng hệ sinh thái AI pháp lý mở
CMC OpenAI cho biết bộ chuẩn VLegal-Bench đã được đăng ký trên cổng arXiv của Đại học Cornell, Mỹ. Phiên bản mới nhất được cập nhật ngày 25-12-2025. Việc công bố quốc tế thể hiện cam kết minh bạch và chuẩn hóa học thuật.
Doanh nghiệp theo đuổi tầm nhìn xây dựng nền tảng AI mở, an toàn và do Việt Nam làm chủ. Mục tiêu là thúc đẩy cộng đồng doanh nghiệp và nhà phát triển cùng tham gia.
Trong thời gian tới, CMC OpenAI dự kiến công bố mã nguồn và dữ liệu của VLegal-Bench. Doanh nghiệp cũng sẽ mở rộng website đối sánh các mô hình. Các phiên bản mở sẽ được phát hành theo từng giai đoạn trong năm 2026.
Mục tiêu cuối cùng là hình thành nền tảng tiêu chuẩn có cơ chế kiểm chứng rõ ràng. Nền tảng này phục vụ phát triển các ứng dụng AI chuyên ngành. Đồng thời, nó góp phần vào sự phát triển bền vững của hệ sinh thái AI Việt Nam.
Theo: Tuổi Trẻ