Thông tin luận án Tiến sĩ của NCS Phạm Nghĩa Luân
Tên đề tài luận án: Nghiên cứu một số kỹ thuật thích ứng miền trong dịch máy thống kê Anh-Việt.
1. Họ và tên nghiên cứu sinh: Phạm Nghĩa Luân 2. Giới tính: Nam
3. Ngày sinh: 17/03/1983 4. Nơi sinh: Hải Phòng
5. Quyết định công nhận nghiên cứu sinh số: 642/QĐ-CTSV, ngày 15 tháng 09 năm 2014 của Hiệu trưởng Trường Đại học Công nghệ.
6. Các thay đổi trong quá trình đào tạo:
7. Tên đề tài luận án: Nghiên cứu một số kỹ thuật thích ứng miền trong dịch máy thống kê Anh-Việt.
8. Chuyên ngành: Hệ thống thông tin. 9. Mã số: 9480104.01
10. Cán bộ hướng dẫn khoa học:
Hướng dẫn chính: TS. Nguyễn Văn Vinh.
Cơ quan công tác: Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội.
Hướng dẫn phụ: TS. Phạm Việt Thắng
Cơ quan công tác: VU University Medical Center, Hà Lan.
Thông tin luận án Tiến sĩ của NCS Phạm Nghĩa Luân (tiếng Anh)
11. Tóm tắt các kết quả mới của luận án:
Luận án đã đạt được một số kết quả chính như sau:
- Thứ nhất, đề xuất phương pháp tinh chỉnh bảng cụm từ (phrase-table) cho hệ thống dịch máy SMT. Do bảng cụm từ chứa danh sách các xác suất dịch của các cụm từ từ ngôn ngữ nguồn sang ngôn ngữ đích theo cả hai chiều dịch, các xác suất này được học tự động từ tập dữ liệu song ngữ. Phương pháp đề xuất thực hiện phân loại miền cho các cụm từ trong bảng cụm từ, từ đó điều chỉnh, cập nhật lại xác suất dịch của các cụm từ này theo hướng ưu tiên hơn trong miền đích..
- Thứ hai, đề xuất phương pháp sinh tự động dữ liệu song ngữ cho dịch máy. Do dịch máy NMT luôn trong tình trạng thiếu dữ liệu song ngữ để huấn luyện, đặc biệt dữ liệu song ngữ miền. Vì vậy, trong luận án đã đề xuất phương pháp sử dụng Google translate như một mô hình thành phần trong các bước của kĩ thuật dịch ngược để tạo ra dữ liệu giả song ngữ.
- Cuối cùng, đề xuất phương pháp cải tiến chất lượng của dữ liệu giả song ngữ được sinh tự động ở đề xuất thứ hai. Do đầu vào của đề xuất thứ hai là một văn bản nhưng văn bản này thường có nhiễu vì có thể chứa các lỗi về chính tả, ngữ pháp nên ảnh hưởng tới chất lượng của đầu ra, phương pháp đề xuất góp phần giảm nhiễu bằng cách sửa lỗi chính tả, ngữ pháp tự động cho văn bản đầu vào. Đề xuất này góp phần cải thiện chất lượng của dữ liệu giả song ngữ được sinh tự động.
12. Khả năng ứng dụng trong thực tiễn:
Hiện nay, dịch máy ngày càng được ứng dụng rộng rãi. Phương pháp dịch máy thống kê là cách tiếp cận tốt nhất hiện nay. Hơn nữa, mỗi lĩnh vực (miền) phải có cách tiếp cận và chiến lược dịch cho phù hợp, vì vậy việc nghiên cứu về thích ứng miền trong dịch máy thống kê là có ý nghĩa về mặt khoa học cũng như thực tiễn.
13. Những hướng nghiên cứu tiếp theo:
Trong thời gian tới, nghiên cứu sinh tập trung vào các nghiên cứu để giải quyết một số hạn chế còn tồn tại của luận án. Trong đó, tập trung tiến hành một số nghiên cứu sau đây:
- Các phương pháp nhằm thu thập, xây dựng dữ liệu đơn ngữ, song ngữ và dữ liệu miền và các phương cải tiến chất lượng của dữ liệu.
- Cải tiến chất lượng dịch máy bằng cách khai thác tri thức từ các nguồn dữ liệu thu thập được và ứng dụng mô hình ngôn ngữ lớn.
- Cải thiện chất lượng dịch Anh-Việt tự động trên nhiều miền khác nhau và mở rộng khả năng dịch giữa tiếng Việt và một số ngôn ngữ khác theo hướng xây dựng, phát triển và cải tiến các hệ thống dịch đa ngữ, đa miền.
14. Các công trình đã công bố có liên quan đến luận án:
- Nguyễn Quang Huy, Nguyễn Văn Vinh, Phạm Nghĩa Luân, Nguyễn Quỳnh Anh (2014). “Nghiên cứu phương pháp dóng hàng câu cho cặp ngôn ngữ Anh – Việt”. Hội thảo quốc gia lần thứ XVII: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, trang 188-195.
- Phạm Nghĩa Luân, Nguyễn Văn Vinh, Nguyễn Quang Huy (2015). ”Một phương pháp thích ứng miền cho dịch máy thống kê”. Hội thảo quốc gia lần thứ XVIII: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, trang 174-180.
- Viet Tran Hong, Huyen Vu Thuong, Trung Le Tien, Luan Nghia Pham and Vinh Nguyen Van (2015). ”The English – Vietnamese Machine Translation System for IWSLT 2015”. In Proceedings of the 12th International Workshop on Spoken Language Translation, pp. 80-83. (SCOPUS).
- Phạm Nghĩa Luân, Nguyễn Văn Vinh (2019). ”Thích ứng miền trong dịch máy nơ ron cho cặp ngôn ngữ Anh – Việt”. Hội nghị khoa học quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR 2019), pp.436-442.
- Nghia Luan Pham and Van Vinh Nguyen (2019). ”Adapting Neural Machine Translation for English-Vietnamese using Google Translate system for Back-translation”. In the 33rd Pacific Asia Conference on Language, Information and Computation, pp. 567-575 (SCOPUS).
- Nghia Luan Pham, Tien Ha Nguyen and Van Vinh Nguyen (2019). ”Grammatical error correction for Vietnamese using Machine Translation”. In 16th International Conference of the Pacific Association for Computational Linguistics, pp.505-512. ISBN 978-981-15-6167-2. DOI: https://doi.org/10.1007/978-981-15-6168-9\_41 (SCOPUS).
- Nghia Luan Pham and Van Vinh Nguyen (2020). ”Adaptation in Statistical Machine Translation for low-resource domains in English-Vietnamese language”. In VNU Journal of Science: Computer Science and Communication Engineering, [S.l.], v.36, n.1. ISSN 2588-1086.
- Nghia Luan Pham, Van Vinh Nguyen and Thang Viet Pham (2023). ”A Data Augmentation Method For English-Vietnamese Neural Machine Translation,” In IEEE Access, vol. 11, pp. 28034-28044, 2023, doi: 10.1109/ACCESS.2023.3252898 (Q1, SCOPUS).