ĐÓNG GÓP MỚI CỦA LUẬN ÁN
Tên đề tài: “Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng Việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt”
Chuyên ngành: Khoa học máy tính
Mã số: 62.48.01.01
Họ và tên NCS: Nguyễn Nho Túy
Người hướng dẫn khoa học: PGS.TS. Phan Huy Khánh
Cơ sở đào tạo: Đại học Đà Nẵng
NHỮNG ĐÓNG GÓP MỚI CỦA LUẬN ÁN
1. Xây dựng kho ngữ liệu CVT tiếng Việt: Kho ngữ liệu được cập nhật từ nhiều nguồn dữ liệu khác nhau theo sự biến động và phát triển CVT trong thực tiễn với phương pháp thủ công/tự động. Dữ liệu được chuẩn hóa và phân lớp. Hiện nay đã có khoảng 7.000 CVT tiếng Việt (có cả CVT nội sinh và ngoại nhập) đã biên tập lưu trữ trong CSDL, từng bước chuyển song ngữ (Việt – Anh) những CVT thông dụng.
2. Xây dựng các quy tắc tạo sinh CVT, từng bước chuẩn hóa việc sử dụng CVT, góp phần phát triển ngôn ngữ tiếng Việt: Luận án đã tiếp cận nghiên cứu sự hình thành CVT thông qua việc mô hình hóa sự hình thành, xem xét kỹ nguồn gốc tạo nên CVT, phân tích, tổng hợp để xây dựng và công bố 9 quy tắc tạo sinh CVT. Tổng hợp các yếu tố ảnh hưởng đến tạo sinh CVT, so sánh với những quy định ngữ pháp tiếng Việt về sử dụng CVT, làm rõ dấu hiệu nhận biết CVT trong văn bản.
3. Xây dựng hệ thống khai thác và xử lý chữ viết tắt tiếng Việt (Abbreviations Management Exploit System – AMES): Luận án đề xuất AMES, mô hình hệ thống khai thác chữ viết tắt (CVT). Đó là môi trường khai thác CVT tiếng Việt dựa trên ý tưởng hệ sinh thái phần mềm, có tính ổn định, tính mở, tính kế thừa; kết nối giữa các đối tượng NSD, chuyên gia nghiên cứu, doanh nghiệp, lập trình viên, nhà cung cấp hạ tầng với nhau.
4. Tiếp cận xử lý nhập nhằng chữ viết tắt: Luận án xây dựng 27 vị từ điều khiển, nhận diện CVT trong văn bản; xây dựng 12 hàm xử lý chuỗi; lập 12 luật trong cơ sở luật làm căn cứ xây dựng máy suy diễn nhận diện CVT và triển khai thử nghiệm trong chuyên ngành viễn thông. Xây dựng khái niệm, đề xuất giải pháp và xây dựng công cụ thống kê tần số, tần suất CVT tiếng Việt. Chỉ số tần số, tần suất giúp nhà nghiên cứu quan sát, lưu trữ, thống kê và phân tích các hiện tượng phát triển ngôn ngữ tiếng việt nói chung và CVT nói riêng qua từng thời điểm. Chỉ số tần suất xuất hiện CVT cũng là cơ sở cho phép một cách tiếp cận xử lý nhập nhằng ngữ nghĩa CVT.
5. Tạo lập từ điển CVT trên máy tính, máy điện thoại di động: Sử dụng nguồn tài nguyên CVT tiếng Việt, xây dựng hai hệ thống từ điển: Web site thư viện CVT và Từ điển CVT trên máy di động. Hai hệ thống này có sự đồng bộ dữ liệu với nhau đảm bảo thống nhất chung nguồn dữ liệu; tuy nhiên có sự tùy biến cá nhân khi sử dụng CVT trên máy di động như thống kê, tần suất sử dụng…
6. Xây dựng các ứng dụng: Xây dựngứng dụng máy tìm kiếm CVT mới, xây dựng công cụ quảng bá thương hiệu Brandname cho doanh nghiệp, công cụ tư vấn đặt tên Brandname cho doanh nghiệp (tránh trùng lập, nhập nhằng), từ điển tra cứu CVT… Các ứng dụng trên là những thành phần trong hệ thống AMES. Xây dựng 4 thuật toán, triển khai thực nghiệm: Thuật toán SENVA – cập nhật tự động CVT mới từ Internet, thuật toán SAOM-FTS – từ điển CVT trên di động, thuật toán CSBCOM – tư vấn thương hiệu, thuật toán AFVAI -đánh giá tần số CVT.
7. Xây dựng công cụ thống kê CVT và đề xuất sử dụng CVT ở phạm vi quốc gia: Luận án xây dựng khái niệm tần số, tần suất CVT trên Internet, đề xuất giải pháp và xây dựng thực nghiệm công cụ thống kê CVT tiếng Việt, làm cơ sở đánh giá, lượng hóa chỉ số sử dụng và sự phát triển CVT trong thực tiễn. Luận án đề xuất sử dụng CVT ở phạm vi quốc gia: Cần thiết phải xây dựng và ban hành bộ mã chuẩn CSDL danh mục quốc gia, ưu tiên sử dụng CVT có tính gợi nhớ, dễ sử dụng, tạo điều kiện trao đổi chia xẻ thông tin CSDL quốc gia dễ dàng và đồng bộ.
Tóm lại, đóng góp của luận án như là gạch nối nhỏ giữa lý thuyết ngôn ngữ học với thực tiễn sử dụng chữ viết tắt và với chuyên ngành xử lý ngôn ngữ tự nhiên trong ngành công nghệ thông tin của khoa học máy tính, góp phần cùng giải quyết vấn đề chữ viết tắt tiếng Việt được nhiều người quan tâm.