Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt
1. Đặt vấn đề
Nhu cầu trao đổi thông tin giữa các quốc gia, các nền văn hóa, giữa mỗi người
trong xã hội hiện đại ngày càng tăng làm cho việc dịch thuật trở nên quan trọng và
cần thiết. Dịch thuật sử dụng con người là công việc thủ công, tuy chất lượng cao
nhưng tốc độ chậm, năng suất thấp và giá thành cao mà không thể tái sử dụng. Trong
khi đó, một phiên dịch viên dù giỏi đến đâu cũng không thể cập nhật hết được một
lượng thông tin khổng lồ trong nền kinh tế toàn cầu đang phát triển như vũ bão. Vì
vậy, sử dụng hệ thống dịch tự động bằng máy tính để trợ giúp cho quá trình dịch thuật
là cần thiết.
Dịch tự động bằng máy tính nếu cho kết quả dịch tốt sẽ mang lại hiệu quả với
chi phí bỏ ra ít, có thể dịch nhanh với khối lượng tài liệu lớn thuộc các lĩnh vực
chuyên môn khác nhau. Khi đó các hệ dịch máy sẽ trở thành công cụ giúp con người
tiếp cận kho tri thức khổng lồ viết bằng các ngôn ngữ khác nhau.
Những chương trình máy tính đầu tiên thực hiện công việc dịch tự động đã
được các nhà khoa học trên thế giới nghiên cứu và phát triển từ giữa thế kỷ 20 [1].
Đối với dịch tự động từ tiếng Việt sang các ngôn ngữ khác, đã có nhiều nghiên cứu
và các sản phẩm ứng dụng được nhiều người dùng quan tâm và sử dụng, điển hình là
hệ thống dịch của Google, Microsoft, EVTran [2] Các hệ thống này cho phép dịch
tự động văn bản với một cặp ngôn ngữ đã chọn trước, ví dụ dịch từ tiếng Anh sang
tiếng Việt hoặc ngược lại.
Khi sử dụng một hệ thống dịch tự động, người dùng quan tâm đến chất lượng
của bản dịch. Tuy nhiên hiện nay chất lượng dịch tự động của giữa các cặp ngôn ngữ
ít phổ biến (low-resource) khá thấp [3], kể cả dịch từ tiếng Việt sang tiếng Anh và
các ngôn ngữ khác, nên kết quả dịch chủ yếu để tham khảo, nắm đại ý của văn bản.
Trong một số trường hợp, bản dịch làm cho người đọc hiểu sai nội dung một phần
hoặc toàn bộ nội dung chính của văn bản. Các hệ thống dịch tự động mặc dù đã được
sử dụng rộng rãi nhưng cũng cần có nhiều cải tiến mới có thể mang lại kết quả dịch
có chất lượng hơn, giúp cho người đọc hiểu được văn bản cần dịch.14
Chính vì vậy, cần thiết phải có những đánh giá về mặt khoa học để có những
số liệu cụ thể minh chứng cho chất lượng của các hệ thống dịch tiếng Việt, từ đó phân
tích và đề xuất các giải pháp nhằm nâng cao chất lượng của dịch tự động tiếng Việt,
giúp các hệ thống dịch tự động cho các kết quả dịch chính xác hơn, trở thành công cụ
hiệu quả giúp cho người dùng hiểu được các văn bản tiếng nước ngoài mà không phải
tốn thời gian tra từ điển. Các kết quả dịch cũng có thể trở thành bản dịch tham khảo
hỗ trợ có hiệu quả trong công tác dịch thuật.
Nhằm góp phần giải quyết các vấn đề nêu trên, nghiên cứu sinh đã chọn đề tài
“Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt” làm nội dung
nghiên cứu luận án Tiến sỹ kỹ thuật của mình.
2. Mục tiêu nghiên cứu
Mục tiêu chung của nghiên cứu là đề xuất được các giải pháp cụ thể nhằm cải
tiến chất lượng của các hệ thống dịch tiếng Việt nói chung, trong đó phân tích cụ thể
cho bài toán dịch tự động giữa cặp ngôn ngữ Việt – Anh. Các mục tiêu cụ thể gồm:
- Đánh giá được thực trạng của các hệ thống dịch tự động tiếng Việt đang hoạt
động hiện nay;
- Đề xuất được các giải pháp nhằm nâng cao chất lượng của hệ thống dịch giữa
cặp ngôn ngữ Anh – Việt;
- Xây dựng được hệ thống dịch tự động Anh – Việt trong lĩnh vực cụ thể là văn
bản quy phạm pháp luật.
3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận án gồm:
- Các phương pháp đánh giá chất lượng hệ thống dịch tự động
- Kho ngữ liệu sử dụng để huấn luyện và xây dựng mô hình dịch tự động
- Các phương pháp dịch tự động
- Các hệ thống dịch tự động tiếng Việt đang hoạt động hiện nay15
Với các mục tiêu và đối tượng nghiên cứu mô tả trên, phạm vi nghiên cứu của
luận án giới hạn ở một số nội dung sau:
- Tập trung nghiên cứu, đánh giá các hệ thống dịch tự động phổ biến hiện nay,
đề xuất giải pháp cải tiến chất lượng dịch tự động đối với cặp ngôn ngữ tiếng
Việt – tiếng Anh.
- Xây dựng ứng dụng thực nghiệm dịch tự động từ tiếng Anh sang tiếng Việt và
ngược lại ở một lĩnh vực hẹp là lĩnh vực văn bản quy phạm pháp luật.
- Triển khai ứng dụng trên nền tảng website nhằm thuận tiện truy cập đối với
người dùng.
Tóm tắt nội dung tài liệu: Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN VĂN BÌNH NGHIÊN CỨU GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng, 12/2021 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN VĂN BÌNH NGHIÊN CỨU GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT Chuyên ngành: Khoa học máy tính Mã số: 9480101 LUẬN ÁN TIẾN SĨ KỸ THUẬT Người hướng dẫn khoa học: 1. PGS.TS. Huỳnh Công Pháp 2. GS. Vincent Berment Đà Nẵng, 12/2021 3 LỜI CAM ĐOAN Tôi tên là Nguyễn Văn Bình. Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện. Các nội dung và kết quả nghiên cứu được trình bày trong Luận án là trung thực và mọi tham khảo đều được trích dẫn, chỉ rõ nguồn tham khảo theo đúng quy định. Tác giả Nguyễn Văn Bình 4 MỤC LỤC LỜI CAM ĐOAN .................................................................................................. 3 MỤC LỤC .............................................................................................................. 4 DANH MỤC CÁC TỪ VIẾT TẮT ....................................................................... 7 DANH MỤC BẢNG BIỂU .................................................................................... 8 DANH MỤC HÌNH VẼ ....................................................................................... 10 MỞ ĐẦU .............................................................................................................. 13 1. Đặt vấn đề................................................................................................. 13 2. Mục tiêu nghiên cứu ................................................................................. 14 3. Đối tượng và phạm vi nghiên cứu ............................................................. 14 4. Phương pháp nghiên cứu........................................................................... 15 5. Bố cục của luận án .................................................................................... 15 6. Đóng góp chính của luận án ...................................................................... 16 TỔNG QUAN VỀ DỊCH TỰ ĐỘNG VÀ CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT HIỆN NAY ................................................................ 19 1.1. Giới thiệu .................................................................................................. 19 1.2. Nghiên cứu tổng quan về dịch tự động, kho ngữ liệu, các phương pháp cải tiến và đánh giá chất lượng dịch tự động ......................................................... 21 Các phương pháp dịch tự động ..................................................... 21 Kho ngữ liệu trong dịch tự động ................................................... 28 Đánh giá chất lượng hệ thống dịch tự động .................................. 33 1.3. Các nghiên cứu liên quan đến xây dựng và cải tiến chất lượng dịch tự động tiếng Việt ........................................................................................................ 43 Nghiên cứu xây dựng hệ thống dịch và đánh giá chất lượng dịch . 43 Nghiên cứu xây dựng và cải tiến kho ngữ liệu tiếng Việt ............. 45 1.4. Thực trạng chất lượng dịch tự động tiếng Việt .......................................... 48 1.5. Kết luận Chương 1 .................................................................................... 52 5 GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT..................................................................................................................... 53 2.1. Giới thiệu .................................................................................................. 53 2.2. Đánh giá chất lượng các hệ thống dịch tự động tiếng Việt ........................ 54 Tổ chức đánh giá .......................................................................... 55 Nhận xét, đánh giá ....................................................................... 60 Đề xuất giải pháp đánh giá chất lượng dựa trên quá trình hiệu đính bản dịch.......................................................................................... 61 2.3. Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào kho ngữ liệu lớn ..... 69 Tổng quan .................................................................................... 69 Các nghiên cứu liên quan đến cải tiến chất lượng kho ngữ liệu .... 70 Giải pháp nâng cao chất lượng kho ngữ liệu ................................. 71 Đánh giá vai trò của kho ngữ liệu đối với kết quả hệ thống dịch ... 87 2.4. Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào mô hình máy học mạng nơ ron .................................................................................................... 91 Tổng quan .................................................................................... 91 Giải pháp cải tiến chất lượng dịch tiếng Việt bằng mô hình học máy mạng nơ ron .................................................................................. 91 Kết quả xây dựng hệ thống dịch ................................................. 102 Giải pháp xây dựng hệ thống dịch ngữ nghĩa .............................. 104 2.5. Kết luận Chương 2 .................................................................................. 109 HỆ THỐNG DỊCH TỰ ĐỘNG ANH-VIỆT VIKI TRANSLATOR ............................................................................................................................ 111 3.1. Giới thiệu ................................................................................................ 111 3.2. Xây dựng kho ngữ liệu............................................................................ 112 Quy trình các bước triển khai ..................................................... 112 Xây dựng kho ngữ liệu song ngữ số lượng lớn ........................... 113 Xây dựng công cụ hỗ trợ mở rộng ngôn ngữ và ngữ nghĩa ......... 117 6 Xây dựng kho ngữ liệu ontology ................................................ 118 3.3. Kết quả thực nghiệm xây dựng ứng dụng dịch Anh – Việt lĩnh vực văn bản pháp luật (VIKI Translator) ........................................................................... 122 Quy trình các bước triển khai ..................................................... 122 Tổ chức huấn luyện mô hình và điều chỉnh tham số mô hình...... 122 Xây dựng các mô đun của hệ thống dịch .................................... 124 3.4. Đánh giá kết quả ..................................................................................... 125 Kết quả thực nghiệm .................................................................. 125 Đánh giá của người dùng............................................................ 128 3.5. Kết luận Chương 3 .................................................................................. 130 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN......................................................... 131 1. Kết luận .................................................................................................. 131 2. Hướng phát triển ..................................................................................... 132 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ................... 133 TÀI LIỆU THAM KHẢO ................................................................................. 135 7 DANH MỤC CÁC TỪ VIẾT TẮT Thuật ngữ Tiếng Anh Tiếng Việt ALPAC Automatic Language Processing Advisory Committee Ủy ban cố vấn xử lý ngôn ngữ tự động BLEU BiLingual Evaluation Understudy Chỉ số đánh giá chất lượng bản dịch BLEU CBOW Continuous Bag of Words Mô hình túi từ liên tục EBMT Example Based Machine Translation Dịch máy dựa trên ví dụ GNMT Google Neural Machine Translation Hệ thống dịch tự động sử dụng mạng nơ ron của Google HTER Human Translation Error Rate Chỉ số lỗi khi dịch bởi con người NIST National Institute of Standards and Technology Chỉ số đánh giá chất lượng bản dịch NIST NMT Neural Network Translation Dịch máy sử dụng mạng nơ ron POS Part of Speech Phân loại từ vựng RNN Recurrent Neural Networks Mạng nơ ron tái phát SMT Statistical Machine Translation Dịch máy thống kê TBL Transformation-Based Learning Dịch máy chuyển đổi TER Translation Edit Rate Chỉ số đo lỗi bản dịch WER Word Error Rate Chỉ số tỉ lệ lỗi theo từ WMT Workshop on Statistical Machine Translation Hội thảo về dịch máy thống kê 8 DANH MỤC BẢNG BIỂU Bảng 1.1. Chi tiết kho ngữ liệu EuroMatrix ........................................................... 30 Bảng 1.2. Tổng hợp một số kho ngữ liệu ............................................................... 31 Bảng 1.3. Bảng các thang đo tương ứng với mức độ đầy đủ và trôi chảy ............... 36 Bảng 1.4. Mô phỏng kết quả đánh giá bằng hình thức xếp hạng ............................ 37 Bảng 1.5. Đánh giá chất lượng dịch Anh – Việt từ hệ thống dịch dựa trên MOSES .............................................................................................................................. 43 Bảng 1.6. So sánh kết quả dịch sử dụng MOSES và hệ thống Google, Microsoft .. 44 Bảng 1.7. Kết quả đánh giá trên tập dữ liệu TED tst2015 của IWSLT 2015 ........... 44 Bảng 1.8. Đánh giá chất lượng hệ thống dịch sử dụng ngôn ngữ trung gian ........... 45 Bảng 1.9. Ví dụ về một số câu hệ thống dịch sai nghĩa .......................................... 50 Bảng 2.1. Thông tin về dữ liệu phục vụ đánh giá ................................................... 55 Bảng 2.2. Đánh giá kết quả dịch từ tiếng Anh sang tiếng Việt ............................... 57 Bảng 2.3. Đánh giá kết quả dịch từ tiếng Việt sang tiếng Anh ............................... 57 Bảng 2.4. Kết quả đánh giá bằng phương pháp chủ quan ....................................... 59 Bảng 2.5. Trung bình các chỉ số trên 5 bộ dữ liệu .................................................. 67 Bảng 2.6. Kết quả sau khi hiệu chỉnh bản dịch....................................................... 67 Bảng 2.7. Bảng tóm tắt đặc trưng các kho ngữ liệu phổ biến ................................. 72 Bảng 2.8. Số liệu kho ngữ liệu sử dụng để đánh giá sự ảnh hưởng đến chất lượng . 89 Bảng 2.9. Chất lượng các mô hình dịch nhận được ................................................ 90 Bảng 2.10. Mô tả dữ liệu phục vụ xây dựng hệ thống dịch .................................. 103 Bảng 2.11. So sánh chất lượng hệ thống dịch theo các phương pháp khác nhau ... 104 Bảng 3.1. Thống kê số lượng câu trong kho ngữ liệu đã được xây dựng .............. 114 Bảng 3.2. Tổng hợp quy mô kho ngữ liệu của một số công bố ............................. 115 9 Bảng 3.3. Kết quả đánh giá và so sánh chất lượng hệ thống dịch Anh-Việt.......... 125 Bảng 3.4. So sánh điểm BLEU đạt được ở một số nghiên cứu xây dựng hệ thống dịch tiếng Việt . ... ue, pp. 177–180, 2007, doi: 10.5539/ijel.v5n3p143. [13] Phan Thị Hà, “Nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng Việt.” Luận án Tiến sĩ kỹ thuật Ngành Hệ thống thông tin, Học viện công nghệ Bưu chính Viễn thông, 2013. [14] C. Boitet, “Corpus pour la TA : types, tailles et problèmes associés, selon leur usage et le type de système,” Revue française de linguistique appliquée, vol. 136 XII, no. 1. p. 25, 2007, doi: 10.3917/rfla.121.0025. [15] L. N. M. Đinh Điền, “Ứng dụng Ngữ liệu Song ngữ Anh-Việt trong Giảng dạy Ngôn ngữ,” in Hội thảo Liên ngành NNH Ứng dụng & Giảng dạy Ngôn ngữ, 2015, pp. 559–567. [16] P. Koehn, “Europarl: A Parallel Corpus for Statistical Machine Translation,” in Proc. of the 10th Machine Translation Summit, 2005, pp. 79–86, doi: 10.5209/DIDA.19853. [17] J. B. Carroll, “An Experiment in Evaluating the Quality of Translations,” Mechanical Translation and Computational Linguistics, vol. 9, no. 3–4. pp. 67–75, 1966. [18] J. S. Chris Callison-Burch, Cameron Fordyce, Philipp Koehn, Christof Monz, “(Meta-) Evaluation of Machine Translation,” in Proceedings ofthe Second Workshop on Statistical Machine Translation, 2007, pp. 136–158. [19] M. Przybocki, K. Peterson, S. Bronsart, and G. Sanders, “The NIST 2008 Metrics for machine translation challenge—overview, methodology, metrics, and results,” Mach. Transl., vol. 23, no. 2–3, pp. 71–103, Sep. 2009, doi: 10.1007/s10590-009-9065-6. [20] and I. D. M. Joseph P. Turian, Luke Shen, “Evaluation of Machine Translation and its Evaluation,” Proceedings of the International Conference & Workshop on Emerging Trends in Technology - ICWET ’11. ACM Press, New York, New York, USA, 2011, doi: 10.1145/1980022.1980409. [21] M. Snover, B. Dorr, R. Schwartz, L. Micciulla, and J. Makhoul, “A study of translation edit rate with targeted human annotation,” AMTA2006 - Proceedings of the 7th Conference of the Association for Machine Translation of the Americas: Visions for the Future of MT. pp. 223–231, 2006. [22] D. Gates et al., “End-to-end evaluation in JANUS: A speech-to-speech translation system,” in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 1997, vol. 1236, pp. 195–206, doi: 10.1007/3-540-63175-5_47. [23] R. Nübel, “End-to-End evaluation in VERBMOBIL I,” in Proceedings of MT Summit VI, 1997, pp. 232–239. [24] J. S. White and T. A. O’Connell, “Evaluation in the ARPA machine translation program,” Human Language Technology: Proceedings of a Workshop held at Plainsboro, New Jersey. 1994, doi: 10.3115/1075812.1075840. [25] M. Denkowski and A. Lavie, “Choosing the right evaluation for machine translation: An examination of annotator and automatic metric performance on human judgment tasks,” AMTA 2010 - 9th Conference of the Association for Machine Translation in the Americas. 2010. [26] F. J. Och, “Minimum Error Rate Training,” Proceedings of the 41st Annual 137 Meeting of the Association for Computational Linguistics. pp. 160–167, 2003. [27] K.-Y. Su, M.-W. Wu, and J.-S. Chang, “A new quantitative quality measure for machine translation systems.” p. 433, 1992, doi: 10.3115/992133.992137. [28] V. I. Levenshtein, “Binary codes capable of correcting deletions, insertions, and reversals,” Soviet physics doklady, vol. 10, no. 8. pp. 707–710, 1966. [29] S. Nießen, F. J. Och, G. Leusch, and H. Ney, “An evaluation tool for machine translation: Fast evaluation for MT research,” 2nd International Conference on Language Resources and Evaluation, LREC 2000. 2000. [30] H. S. C. Tillmann, S. Vogel, H. Ney, A. Zubiaga, “Accelerated Dp Based Search For Statistical Translation,” Fifth European Conference on Speech Communication and Technology. 1997. [31] W.-J. Z. Kishore Papineni, Salim Roukos, Todd Ward, “BLEU: a Method for Automatic Evaluation of Machine Translation,” in Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), 2002, pp. 311–318, doi: 10.1002/andp.19223712302. [32] E. Hovy, “Toward Finely Differentiated Evaluation Metrics for Machine Translation,” Proceedings of the EAGLES Workshop on Standards and Evaluation. pp. 127–133, 1999. [33] A. Popescu-Belis, “An experiment in comparative evaluation: human vs. computers,” MT Summit IX. pp. 307–314, 2003. [34] G. N. Ramaswamy, J. Navrátil, U. V. Chaudhari, and R. D. Zilca, “The IBM system for the NIST-2002 cellular speaker verification evaluation,” ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, vol. 2. pp. 61–64, 2003, doi: 10.1109/icassp.2003.1202294. [35] V. T. Hùng, “Phương pháp và công cụ đánh giá tự động các hệ thống dịch tự động trên mạng,” Tạp chí Khoa học và Công nghệ Đại học Đà Nẵng, vol. 1(18), pp. 37–42, 2007. [36] H. V. Tran, T. H. Vu, T. T. Le, P. L. Nghia, and V. V. Nguyen, “The English- Vietnamese Machine Translation System for IWSLT 2015,” Proceeding of the 12th International Workshop on Spoken Language Translation. 2015. [37] M. Luong and C. D. Manning, “Stanford Neural Machine Translation Systems for Spoken Language Domains,” Proceedings of the international workshop on spoken language translation. pp. 76–79, 2015. [38] D. T. Hoang and O. Bojar, “Pivoting methods and data for Czech-Vietnamese translation via English,” Proceedings of the 19th Annual Conference of the European Association for MT, EAMT2016. pp. 190–202, 2016. [39] Dinh Dien, “Building an annotated English-Vietnamese parallel corpus,” MKS A J. Southeast Asian Linguist. Lang., vol. 35, pp. 21–36, 2005. 138 [40] T.-N.-D. Do, V.-B. Le, B. Bigi, L. Besacier, and E. Castelli, “Mining a comparable text corpus for a Vietnamese - French statistical machine translation system.” p. 165, 2009, doi: 10.3115/1626431.1626466. [41] L. T. H. Dương Minh Hùng, Lê Mạnh Thạnh, “Một phương pháp xây dựng ngữ liệu song ngữ Anh-Việt từ nguồn tài nguyên internet,” in Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Oct. 2019, pp. 315–321, doi: 10.15625/vap.2019.00040. [42] N. T. Hà, N. T. M. Huyền, and N. M. Hải, “Xây dựng kho ngữ liệu du lịch song ngữ Việt–Anh gióng hàng mức câu cho dịch máy,” Res. Dev. Inf. Commun. Technol., Jul. 2018, doi: 10.32913/rd-ict.vol1.no39.550. [43] P. N. Luân, N. V. Vinh, and N. H. Hoàng, “Thích ứng miền trong dịch máy nơ ron cho cặp ngôn ngữ Anh-Việt,” Kỷ yếu Hội nghị Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công Nghệ thông tin (FAIR). Publishing House for Science and Technology, Huế, Oct. 28, 2019, doi: 10.15625/vap.2019.00056. [44] T. B. Ho, N. K. Pham, T. L. Ha, and P. T. Nguyen, “Issues and First Phase Development of the English-Vietnamese Translation System EVSMT1.0,” Special Issue in Journal of Science, Natural Sciences and Technology. pp. 59– 66, 2008. [45] L. K. Hung, “One method of interlingual translation,” National Conference on IT Research, Development and Applications CNTT&TT. 2003. [46] M. Alez, J. Us Giménez, and L. Arquez, “A Graphical Interface for MT Evaluation and Error Analysis,” Jeju, Republic of Korea. Association for Computational Linguistics, pp. 139–144, 2012. [47] B. Chen and C. Cherry, “A Systematic Comparison of Smoothing Techniques for Sentence-Level BLEU,” in Association for Computational Linguistics (ACL), 2015, pp. 362–367, doi: 10.3115/v1/w14-3346. [48] C.-P. Huynh, “Des suites de test pour la TA à un système d’exploitation de corpus alignés de documents et métadocuments multilingues, multiannotés et multimédia.” Institut National Polytechnique de Grenoble - INPG, p. 226, 2010. [49] D. M. Dragos Stefan Munteanu, “Extracting parallel sub-sentential fragments from non-parallel corpora,” in Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, 2006, pp. 81–88. [50] C. P. Huynh, “New approach for collecting high quality parallel corpora from multilingual websites,” ACM International Conference Proceeding Series. pp. 341–344, 2011, doi: 10.1145/2095536.2095599. [51] H. C. Pháp, “Nghiên cứu và xây dựng hệ một hệ thống hỗ trợ khai thác dữ liệu 139 dịch tự động.” Đề tài nghiên cứu khoa học cấp Đại học Đà Nẵng, 2012. [52] C. B. Hervé Blanchon, “Pour l évaluation externe des systèmes de TA par des méthodes fondées sur la tâche.pdf.” . [53] H.C. Pháp, Đ.Đ. Thọ, “Mở rộng kho ngữ liệu theo hướng ngữ nghĩa,” Hội thảo CNTT và ứng dụng trong các lĩnh vực, Lần thứ 2. Đà Nẵng, 2013. [54] Đ. Đ. T. Huỳnh Công Pháp, “Giải pháp chuẩn hóa các kho ngữ liệu dùng trong lĩnh vực dịch tự động,” Tạp chí Khoa học và Công nghệ Đại học Đà Nẵng, vol. 9(58).2012, pp. 111–117, 2012. [55] and C.-Y. O. Van-Hai Vu, Quang-Phuoc Nguyen, Pum-Mo Ryu, “Effect of Named Entity Recognition on English-Vietnamese Neural Machine Translation,” Int. J. Mach. Learn. Comput., vol. 12, no. 2, pp. 51–55, 2021, doi: 10.18178/ijmlc.2022.12.2.1078. [56] T. Mikolov, “Distributed Representations of Words and Phrases and their Compositionality,” NIPS Deep Learning Workshop. pp. 1–31, 2013. [57] D. Bahdanau, K. H. Cho, and Y. Bengio, “Neural machine translation by jointly learning to align and translate,” 3rd International Conference on Learning Representations, ICLR 2015 - Conference Track Proceedings. 2015. [58] Q. Le Oriol Vinyals, “A Neural Conversational Model,” in The 31st International Conference on Machine Learning, 2015, pp. 233–239. [59] O. V. Wojciech Zaremba, Ilya Sutskever, “Recurrent Neural Network Regularization,” ICLR 2015 : International Conference on Learning Representations 2015. 2015, doi: 10.1111/j.1745-3984.1987.tb00286.x. [60] Z. Li, J. Cai, S. He, and H. Zhao, “Seq2seq Dependency Parsing,” Proceedings of the 27th International Conference on Computational Linguistics, no. 15. pp. 3203–3214, 2018. [61] Z. Yang, Z. Hu, Y. Deng, C. Dyer, and A. Smola, “Neural Machine Translation with Recurrent Attention Modeling,” in Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers, 2017, pp. 383–387, doi: 10.18653/v1/E17-2061. [62] Y. Wu et al., “Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation,” https://arxiv.org/abs/ 1609.08144v2, Sep. 2016. [63] J. D. Tomas Mikolov, Kai Chen, Greg Corrado, “Efficient Estimation ofWord Representations in Vector Space.” 2013, [Online]. Available: https://arxiv.org/abs/1301.3781. [64] G. Klein, Y. Kim, Y. Deng, J. Crego, J. Senellart, and A. M. Rush, “OpenNMT: Open-source toolkit for neural machine translation,” 20th Annual Conference of the European Association for M. Translation, EAMT 2017. p. 22, 2017. 140
File đính kèm:
- luan_an_nghien_cuu_giai_phap_cai_tien_chat_luong_dich_tu_don.pdf
- 0. Phụ lục Bìa luận án.pdf
- 2. Tóm tắt tiếng Việt.pdf
- 3. Tóm tắt tiếng Anh.pdf
- 4. Thông tin đóng góp mới tiếng Việt.pdf
- 5. Thông tin đóng góp mới tiếng Anh.pdf
- 6. Trích yếu luận án tiếng Việt.pdf
- 7. Trích yếu luận án tiếng Anh.pdf