Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt

1. Đặt vấn đề

Nhu cầu trao đổi thông tin giữa các quốc gia, các nền văn hóa, giữa mỗi người

trong xã hội hiện đại ngày càng tăng làm cho việc dịch thuật trở nên quan trọng và

cần thiết. Dịch thuật sử dụng con người là công việc thủ công, tuy chất lượng cao

nhưng tốc độ chậm, năng suất thấp và giá thành cao mà không thể tái sử dụng. Trong

khi đó, một phiên dịch viên dù giỏi đến đâu cũng không thể cập nhật hết được một

lượng thông tin khổng lồ trong nền kinh tế toàn cầu đang phát triển như vũ bão. Vì

vậy, sử dụng hệ thống dịch tự động bằng máy tính để trợ giúp cho quá trình dịch thuật

là cần thiết.

Dịch tự động bằng máy tính nếu cho kết quả dịch tốt sẽ mang lại hiệu quả với

chi phí bỏ ra ít, có thể dịch nhanh với khối lượng tài liệu lớn thuộc các lĩnh vực

chuyên môn khác nhau. Khi đó các hệ dịch máy sẽ trở thành công cụ giúp con người

tiếp cận kho tri thức khổng lồ viết bằng các ngôn ngữ khác nhau.

Những chương trình máy tính đầu tiên thực hiện công việc dịch tự động đã

được các nhà khoa học trên thế giới nghiên cứu và phát triển từ giữa thế kỷ 20 [1].

Đối với dịch tự động từ tiếng Việt sang các ngôn ngữ khác, đã có nhiều nghiên cứu

và các sản phẩm ứng dụng được nhiều người dùng quan tâm và sử dụng, điển hình là

hệ thống dịch của Google, Microsoft, EVTran [2] Các hệ thống này cho phép dịch

tự động văn bản với một cặp ngôn ngữ đã chọn trước, ví dụ dịch từ tiếng Anh sang

tiếng Việt hoặc ngược lại.

Khi sử dụng một hệ thống dịch tự động, người dùng quan tâm đến chất lượng

của bản dịch. Tuy nhiên hiện nay chất lượng dịch tự động của giữa các cặp ngôn ngữ

ít phổ biến (low-resource) khá thấp [3], kể cả dịch từ tiếng Việt sang tiếng Anh và

các ngôn ngữ khác, nên kết quả dịch chủ yếu để tham khảo, nắm đại ý của văn bản.

Trong một số trường hợp, bản dịch làm cho người đọc hiểu sai nội dung một phần

hoặc toàn bộ nội dung chính của văn bản. Các hệ thống dịch tự động mặc dù đã được

sử dụng rộng rãi nhưng cũng cần có nhiều cải tiến mới có thể mang lại kết quả dịch

có chất lượng hơn, giúp cho người đọc hiểu được văn bản cần dịch.14

Chính vì vậy, cần thiết phải có những đánh giá về mặt khoa học để có những

số liệu cụ thể minh chứng cho chất lượng của các hệ thống dịch tiếng Việt, từ đó phân

tích và đề xuất các giải pháp nhằm nâng cao chất lượng của dịch tự động tiếng Việt,

giúp các hệ thống dịch tự động cho các kết quả dịch chính xác hơn, trở thành công cụ

hiệu quả giúp cho người dùng hiểu được các văn bản tiếng nước ngoài mà không phải

tốn thời gian tra từ điển. Các kết quả dịch cũng có thể trở thành bản dịch tham khảo

hỗ trợ có hiệu quả trong công tác dịch thuật.

Nhằm góp phần giải quyết các vấn đề nêu trên, nghiên cứu sinh đã chọn đề tài

“Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt” làm nội dung

nghiên cứu luận án Tiến sỹ kỹ thuật của mình.

2. Mục tiêu nghiên cứu

Mục tiêu chung của nghiên cứu là đề xuất được các giải pháp cụ thể nhằm cải

tiến chất lượng của các hệ thống dịch tiếng Việt nói chung, trong đó phân tích cụ thể

cho bài toán dịch tự động giữa cặp ngôn ngữ Việt – Anh. Các mục tiêu cụ thể gồm:

- Đánh giá được thực trạng của các hệ thống dịch tự động tiếng Việt đang hoạt

động hiện nay;

- Đề xuất được các giải pháp nhằm nâng cao chất lượng của hệ thống dịch giữa

cặp ngôn ngữ Anh – Việt;

- Xây dựng được hệ thống dịch tự động Anh – Việt trong lĩnh vực cụ thể là văn

bản quy phạm pháp luật.

3. Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu của luận án gồm:

- Các phương pháp đánh giá chất lượng hệ thống dịch tự động

- Kho ngữ liệu sử dụng để huấn luyện và xây dựng mô hình dịch tự động

- Các phương pháp dịch tự động

- Các hệ thống dịch tự động tiếng Việt đang hoạt động hiện nay15

Với các mục tiêu và đối tượng nghiên cứu mô tả trên, phạm vi nghiên cứu của

luận án giới hạn ở một số nội dung sau:

- Tập trung nghiên cứu, đánh giá các hệ thống dịch tự động phổ biến hiện nay,

đề xuất giải pháp cải tiến chất lượng dịch tự động đối với cặp ngôn ngữ tiếng

Việt – tiếng Anh.

- Xây dựng ứng dụng thực nghiệm dịch tự động từ tiếng Anh sang tiếng Việt và

ngược lại ở một lĩnh vực hẹp là lĩnh vực văn bản quy phạm pháp luật.

- Triển khai ứng dụng trên nền tảng website nhằm thuận tiện truy cập đối với

người dùng.

pdf 140 trang chauphong 16/08/2022 14241
Bạn đang xem 20 trang mẫu của tài liệu "Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt

Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt
ĐẠI HỌC ĐÀ NẴNG 
TRƯỜNG ĐẠI HỌC BÁCH KHOA 
 
NGUYỄN VĂN BÌNH 
NGHIÊN CỨU GIẢI PHÁP CẢI TIẾN 
CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT 
LUẬN ÁN TIẾN SĨ KỸ THUẬT 
Đà Nẵng, 12/2021 
ĐẠI HỌC ĐÀ NẴNG 
TRƯỜNG ĐẠI HỌC BÁCH KHOA 
 
NGUYỄN VĂN BÌNH 
NGHIÊN CỨU GIẢI PHÁP CẢI TIẾN 
CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT 
Chuyên ngành: Khoa học máy tính 
 Mã số: 9480101 
LUẬN ÁN TIẾN SĨ KỸ THUẬT 
Người hướng dẫn khoa học: 
1. PGS.TS. Huỳnh Công Pháp 
 2. GS. Vincent Berment 
Đà Nẵng, 12/2021
3 
LỜI CAM ĐOAN 
Tôi tên là Nguyễn Văn Bình. Tôi xin cam đoan đây là công trình nghiên cứu 
do tôi thực hiện. Các nội dung và kết quả nghiên cứu được trình bày trong Luận án là 
trung thực và mọi tham khảo đều được trích dẫn, chỉ rõ nguồn tham khảo theo đúng 
quy định. 
 Tác giả 
 Nguyễn Văn Bình 
4 
MỤC LỤC 
LỜI CAM ĐOAN .................................................................................................. 3 
MỤC LỤC .............................................................................................................. 4 
DANH MỤC CÁC TỪ VIẾT TẮT ....................................................................... 7 
DANH MỤC BẢNG BIỂU .................................................................................... 8 
DANH MỤC HÌNH VẼ ....................................................................................... 10 
MỞ ĐẦU .............................................................................................................. 13 
1. Đặt vấn đề................................................................................................. 13 
2. Mục tiêu nghiên cứu ................................................................................. 14 
3. Đối tượng và phạm vi nghiên cứu ............................................................. 14 
4. Phương pháp nghiên cứu........................................................................... 15 
5. Bố cục của luận án .................................................................................... 15 
6. Đóng góp chính của luận án ...................................................................... 16 
 TỔNG QUAN VỀ DỊCH TỰ ĐỘNG VÀ CHẤT LƯỢNG DỊCH 
TỰ ĐỘNG TIẾNG VIỆT HIỆN NAY ................................................................ 19 
1.1. Giới thiệu .................................................................................................. 19 
1.2. Nghiên cứu tổng quan về dịch tự động, kho ngữ liệu, các phương pháp cải 
tiến và đánh giá chất lượng dịch tự động ......................................................... 21 
 Các phương pháp dịch tự động ..................................................... 21 
 Kho ngữ liệu trong dịch tự động ................................................... 28 
 Đánh giá chất lượng hệ thống dịch tự động .................................. 33 
1.3. Các nghiên cứu liên quan đến xây dựng và cải tiến chất lượng dịch tự động 
tiếng Việt ........................................................................................................ 43 
 Nghiên cứu xây dựng hệ thống dịch và đánh giá chất lượng dịch . 43 
 Nghiên cứu xây dựng và cải tiến kho ngữ liệu tiếng Việt ............. 45 
1.4. Thực trạng chất lượng dịch tự động tiếng Việt .......................................... 48 
1.5. Kết luận Chương 1 .................................................................................... 52 
5 
 GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG 
VIỆT..................................................................................................................... 53 
2.1. Giới thiệu .................................................................................................. 53 
2.2. Đánh giá chất lượng các hệ thống dịch tự động tiếng Việt ........................ 54 
 Tổ chức đánh giá .......................................................................... 55 
 Nhận xét, đánh giá ....................................................................... 60 
 Đề xuất giải pháp đánh giá chất lượng dựa trên quá trình hiệu đính 
bản dịch.......................................................................................... 61 
2.3. Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào kho ngữ liệu lớn ..... 69 
 Tổng quan .................................................................................... 69 
 Các nghiên cứu liên quan đến cải tiến chất lượng kho ngữ liệu .... 70 
 Giải pháp nâng cao chất lượng kho ngữ liệu ................................. 71 
 Đánh giá vai trò của kho ngữ liệu đối với kết quả hệ thống dịch ... 87 
2.4. Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào mô hình máy học 
mạng nơ ron .................................................................................................... 91 
 Tổng quan .................................................................................... 91 
 Giải pháp cải tiến chất lượng dịch tiếng Việt bằng mô hình học máy 
mạng nơ ron .................................................................................. 91 
 Kết quả xây dựng hệ thống dịch ................................................. 102 
 Giải pháp xây dựng hệ thống dịch ngữ nghĩa .............................. 104 
2.5. Kết luận Chương 2 .................................................................................. 109 
 HỆ THỐNG DỊCH TỰ ĐỘNG ANH-VIỆT VIKI TRANSLATOR
 ............................................................................................................................ 111 
3.1. Giới thiệu ................................................................................................ 111 
3.2. Xây dựng kho ngữ liệu............................................................................ 112 
 Quy trình các bước triển khai ..................................................... 112 
 Xây dựng kho ngữ liệu song ngữ số lượng lớn ........................... 113 
 Xây dựng công cụ hỗ trợ mở rộng ngôn ngữ và ngữ nghĩa ......... 117 
6 
 Xây dựng kho ngữ liệu ontology ................................................ 118 
3.3. Kết quả thực nghiệm xây dựng ứng dụng dịch Anh – Việt lĩnh vực văn bản 
pháp luật (VIKI Translator) ........................................................................... 122 
 Quy trình các bước triển khai ..................................................... 122 
 Tổ chức huấn luyện mô hình và điều chỉnh tham số mô hình...... 122 
 Xây dựng các mô đun của hệ thống dịch .................................... 124 
3.4. Đánh giá kết quả ..................................................................................... 125 
 Kết quả thực nghiệm .................................................................. 125 
 Đánh giá của người dùng............................................................ 128 
3.5. Kết luận Chương 3 .................................................................................. 130 
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN......................................................... 131 
1. Kết luận .................................................................................................. 131 
2. Hướng phát triển ..................................................................................... 132 
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ................... 133 
TÀI LIỆU THAM KHẢO ................................................................................. 135 
7 
DANH MỤC CÁC TỪ VIẾT TẮT 
Thuật ngữ Tiếng Anh Tiếng Việt 
ALPAC 
Automatic Language Processing 
Advisory Committee 
Ủy ban cố vấn xử lý ngôn ngữ 
tự động 
BLEU BiLingual Evaluation Understudy 
Chỉ số đánh giá chất lượng bản 
dịch BLEU 
CBOW Continuous Bag of Words Mô hình túi từ liên tục 
EBMT 
Example Based Machine 
Translation 
Dịch máy dựa trên ví dụ 
GNMT 
Google Neural Machine 
Translation 
Hệ thống dịch tự động sử dụng 
mạng nơ ron của Google 
HTER Human Translation Error Rate 
Chỉ số lỗi khi dịch bởi con 
người 
NIST 
National Institute of Standards and 
Technology 
Chỉ số đánh giá chất lượng bản 
dịch NIST 
NMT Neural Network Translation Dịch máy sử dụng mạng nơ ron 
POS Part of Speech Phân loại từ vựng 
RNN Recurrent Neural Networks Mạng nơ ron tái phát 
SMT Statistical Machine Translation Dịch máy thống kê 
TBL Transformation-Based Learning Dịch máy chuyển đổi 
TER Translation Edit Rate Chỉ số đo lỗi bản dịch 
WER Word Error Rate Chỉ số tỉ lệ lỗi theo từ 
WMT 
Workshop on Statistical Machine 
Translation 
Hội thảo về dịch máy thống kê 
8 
DANH MỤC BẢNG BIỂU 
Bảng 1.1. Chi tiết kho ngữ liệu EuroMatrix ........................................................... 30 
Bảng 1.2. Tổng hợp một số kho ngữ liệu ............................................................... 31 
Bảng 1.3. Bảng các thang đo tương ứng với mức độ đầy đủ và trôi chảy ............... 36 
Bảng 1.4. Mô phỏng kết quả đánh giá bằng hình thức xếp hạng ............................ 37 
Bảng 1.5. Đánh giá chất lượng dịch Anh – Việt từ hệ thống dịch dựa trên MOSES
 .............................................................................................................................. 43 
Bảng 1.6. So sánh kết quả dịch sử dụng MOSES và hệ thống Google, Microsoft .. 44 
Bảng 1.7. Kết quả đánh giá trên tập dữ liệu TED tst2015 của IWSLT 2015 ........... 44 
Bảng 1.8. Đánh giá chất lượng hệ thống dịch sử dụng ngôn ngữ trung gian ........... 45 
Bảng 1.9. Ví dụ về một số câu hệ thống dịch sai nghĩa .......................................... 50 
Bảng 2.1. Thông tin về dữ liệu phục vụ đánh giá ................................................... 55 
Bảng 2.2. Đánh giá kết quả dịch từ tiếng Anh sang tiếng Việt ............................... 57 
Bảng 2.3. Đánh giá kết quả dịch từ tiếng Việt sang tiếng Anh ............................... 57 
Bảng 2.4. Kết quả đánh giá bằng phương pháp chủ quan ....................................... 59 
Bảng 2.5. Trung bình các chỉ số trên 5 bộ dữ liệu .................................................. 67 
Bảng 2.6. Kết quả sau khi hiệu chỉnh bản dịch....................................................... 67 
Bảng 2.7. Bảng tóm tắt đặc trưng các kho ngữ liệu phổ biến ................................. 72 
Bảng 2.8. Số liệu kho ngữ liệu sử dụng để đánh giá sự ảnh hưởng đến chất lượng . 89 
Bảng 2.9. Chất lượng các mô hình dịch nhận được ................................................ 90 
Bảng 2.10. Mô tả dữ liệu phục vụ xây dựng hệ thống dịch .................................. 103 
Bảng 2.11. So sánh chất lượng hệ thống dịch theo các phương pháp khác nhau ... 104 
Bảng 3.1. Thống kê số lượng câu trong kho ngữ liệu đã được xây dựng .............. 114 
Bảng 3.2. Tổng hợp quy mô kho ngữ liệu của một số công bố ............................. 115 
9 
Bảng 3.3. Kết quả đánh giá và so sánh chất lượng hệ thống dịch Anh-Việt.......... 125 
Bảng 3.4. So sánh điểm BLEU đạt được ở một số nghiên cứu xây dựng hệ thống dịch 
tiếng Việt . ... ue, pp. 177–180, 2007, doi: 
10.5539/ijel.v5n3p143. 
[13] Phan Thị Hà, “Nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu 
từ nguồn Internet cho xử lý tiếng Việt.” Luận án Tiến sĩ kỹ thuật Ngành Hệ 
thống thông tin, Học viện công nghệ Bưu chính Viễn thông, 2013. 
[14] C. Boitet, “Corpus pour la TA : types, tailles et problèmes associés, selon leur 
usage et le type de système,” Revue française de linguistique appliquée, vol. 
136 
XII, no. 1. p. 25, 2007, doi: 10.3917/rfla.121.0025. 
[15] L. N. M. Đinh Điền, “Ứng dụng Ngữ liệu Song ngữ Anh-Việt trong Giảng dạy 
Ngôn ngữ,” in Hội thảo Liên ngành NNH Ứng dụng & Giảng dạy Ngôn ngữ, 
2015, pp. 559–567. 
[16] P. Koehn, “Europarl: A Parallel Corpus for Statistical Machine Translation,” 
in Proc. of the 10th Machine Translation Summit, 2005, pp. 79–86, doi: 
10.5209/DIDA.19853. 
[17] J. B. Carroll, “An Experiment in Evaluating the Quality of Translations,” 
Mechanical Translation and Computational Linguistics, vol. 9, no. 3–4. pp. 
67–75, 1966. 
[18] J. S. Chris Callison-Burch, Cameron Fordyce, Philipp Koehn, Christof Monz, 
“(Meta-) Evaluation of Machine Translation,” in Proceedings ofthe Second 
Workshop on Statistical Machine Translation, 2007, pp. 136–158. 
[19] M. Przybocki, K. Peterson, S. Bronsart, and G. Sanders, “The NIST 2008 
Metrics for machine translation challenge—overview, methodology, metrics, 
and results,” Mach. Transl., vol. 23, no. 2–3, pp. 71–103, Sep. 2009, doi: 
10.1007/s10590-009-9065-6. 
[20] and I. D. M. Joseph P. Turian, Luke Shen, “Evaluation of Machine Translation 
and its Evaluation,” Proceedings of the International Conference & Workshop 
on Emerging Trends in Technology - ICWET ’11. ACM Press, New York, New 
York, USA, 2011, doi: 10.1145/1980022.1980409. 
[21] M. Snover, B. Dorr, R. Schwartz, L. Micciulla, and J. Makhoul, “A study of 
translation edit rate with targeted human annotation,” AMTA2006 - 
Proceedings of the 7th Conference of the Association for Machine Translation 
of the Americas: Visions for the Future of MT. pp. 223–231, 2006. 
[22] D. Gates et al., “End-to-end evaluation in JANUS: A speech-to-speech 
translation system,” in Lecture Notes in Computer Science (including subseries 
Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 
1997, vol. 1236, pp. 195–206, doi: 10.1007/3-540-63175-5_47. 
[23] R. Nübel, “End-to-End evaluation in VERBMOBIL I,” in Proceedings of MT 
Summit VI, 1997, pp. 232–239. 
[24] J. S. White and T. A. O’Connell, “Evaluation in the ARPA machine translation 
program,” Human Language Technology: Proceedings of a Workshop held at 
Plainsboro, New Jersey. 1994, doi: 10.3115/1075812.1075840. 
[25] M. Denkowski and A. Lavie, “Choosing the right evaluation for machine 
translation: An examination of annotator and automatic metric performance on 
human judgment tasks,” AMTA 2010 - 9th Conference of the Association for 
Machine Translation in the Americas. 2010. 
[26] F. J. Och, “Minimum Error Rate Training,” Proceedings of the 41st Annual 
137 
Meeting of the Association for Computational Linguistics. pp. 160–167, 2003. 
[27] K.-Y. Su, M.-W. Wu, and J.-S. Chang, “A new quantitative quality measure 
for machine translation systems.” p. 433, 1992, doi: 10.3115/992133.992137. 
[28] V. I. Levenshtein, “Binary codes capable of correcting deletions, insertions, 
and reversals,” Soviet physics doklady, vol. 10, no. 8. pp. 707–710, 1966. 
[29] S. Nießen, F. J. Och, G. Leusch, and H. Ney, “An evaluation tool for machine 
translation: Fast evaluation for MT research,” 2nd International Conference on 
Language Resources and Evaluation, LREC 2000. 2000. 
[30] H. S. C. Tillmann, S. Vogel, H. Ney, A. Zubiaga, “Accelerated Dp Based 
Search For Statistical Translation,” Fifth European Conference on Speech 
Communication and Technology. 1997. 
[31] W.-J. Z. Kishore Papineni, Salim Roukos, Todd Ward, “BLEU: a Method for 
Automatic Evaluation of Machine Translation,” in Proceedings of the 40th 
Annual Meeting of the Association for Computational Linguistics (ACL), 2002, 
pp. 311–318, doi: 10.1002/andp.19223712302. 
[32] E. Hovy, “Toward Finely Differentiated Evaluation Metrics for Machine 
Translation,” Proceedings of the EAGLES Workshop on Standards and 
Evaluation. pp. 127–133, 1999. 
[33] A. Popescu-Belis, “An experiment in comparative evaluation: human vs. 
computers,” MT Summit IX. pp. 307–314, 2003. 
[34] G. N. Ramaswamy, J. Navrátil, U. V. Chaudhari, and R. D. Zilca, “The IBM 
system for the NIST-2002 cellular speaker verification evaluation,” ICASSP, 
IEEE International Conference on Acoustics, Speech and Signal Processing - 
Proceedings, vol. 2. pp. 61–64, 2003, doi: 10.1109/icassp.2003.1202294. 
[35] V. T. Hùng, “Phương pháp và công cụ đánh giá tự động các hệ thống dịch tự 
động trên mạng,” Tạp chí Khoa học và Công nghệ Đại học Đà Nẵng, vol. 1(18), 
pp. 37–42, 2007. 
[36] H. V. Tran, T. H. Vu, T. T. Le, P. L. Nghia, and V. V. Nguyen, “The English-
Vietnamese Machine Translation System for IWSLT 2015,” Proceeding of the 
12th International Workshop on Spoken Language Translation. 2015. 
[37] M. Luong and C. D. Manning, “Stanford Neural Machine Translation Systems 
for Spoken Language Domains,” Proceedings of the international workshop on 
spoken language translation. pp. 76–79, 2015. 
[38] D. T. Hoang and O. Bojar, “Pivoting methods and data for Czech-Vietnamese 
translation via English,” Proceedings of the 19th Annual Conference of the 
European Association for MT, EAMT2016. pp. 190–202, 2016. 
[39] Dinh Dien, “Building an annotated English-Vietnamese parallel corpus,” MKS 
A J. Southeast Asian Linguist. Lang., vol. 35, pp. 21–36, 2005. 
138 
[40] T.-N.-D. Do, V.-B. Le, B. Bigi, L. Besacier, and E. Castelli, “Mining a 
comparable text corpus for a Vietnamese - French statistical machine 
translation system.” p. 165, 2009, doi: 10.3115/1626431.1626466. 
[41] L. T. H. Dương Minh Hùng, Lê Mạnh Thạnh, “Một phương pháp xây dựng 
ngữ liệu song ngữ Anh-Việt từ nguồn tài nguyên internet,” in Kỷ yếu Hội nghị 
KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ 
thông tin (FAIR), Oct. 2019, pp. 315–321, doi: 10.15625/vap.2019.00040. 
[42] N. T. Hà, N. T. M. Huyền, and N. M. Hải, “Xây dựng kho ngữ liệu du lịch song 
ngữ Việt–Anh gióng hàng mức câu cho dịch máy,” Res. Dev. Inf. Commun. 
Technol., Jul. 2018, doi: 10.32913/rd-ict.vol1.no39.550. 
[43] P. N. Luân, N. V. Vinh, and N. H. Hoàng, “Thích ứng miền trong dịch máy nơ 
ron cho cặp ngôn ngữ Anh-Việt,” Kỷ yếu Hội nghị Quốc gia lần thứ XII về 
Nghiên cứu cơ bản và ứng dụng Công Nghệ thông tin (FAIR). Publishing House 
for Science and Technology, Huế, Oct. 28, 2019, doi: 
10.15625/vap.2019.00056. 
[44] T. B. Ho, N. K. Pham, T. L. Ha, and P. T. Nguyen, “Issues and First Phase 
Development of the English-Vietnamese Translation System EVSMT1.0,” 
Special Issue in Journal of Science, Natural Sciences and Technology. pp. 59–
66, 2008. 
[45] L. K. Hung, “One method of interlingual translation,” National Conference on 
IT Research, Development and Applications CNTT&TT. 2003. 
[46] M. Alez, J. Us Giménez, and L. Arquez, “A Graphical Interface for MT 
Evaluation and Error Analysis,” Jeju, Republic of Korea. Association for 
Computational Linguistics, pp. 139–144, 2012. 
[47] B. Chen and C. Cherry, “A Systematic Comparison of Smoothing Techniques 
for Sentence-Level BLEU,” in Association for Computational Linguistics 
(ACL), 2015, pp. 362–367, doi: 10.3115/v1/w14-3346. 
[48] C.-P. Huynh, “Des suites de test pour la TA à un système d’exploitation de 
corpus alignés de documents et métadocuments multilingues, multiannotés et 
multimédia.” Institut National Polytechnique de Grenoble - INPG, p. 226, 
2010. 
[49] D. M. Dragos Stefan Munteanu, “Extracting parallel sub-sentential fragments 
from non-parallel corpora,” in Proceedings of the 21st International 
Conference on Computational Linguistics and 44th Annual Meeting of the 
ACL, 2006, pp. 81–88. 
[50] C. P. Huynh, “New approach for collecting high quality parallel corpora from 
multilingual websites,” ACM International Conference Proceeding Series. pp. 
341–344, 2011, doi: 10.1145/2095536.2095599. 
[51] H. C. Pháp, “Nghiên cứu và xây dựng hệ một hệ thống hỗ trợ khai thác dữ liệu 
139 
dịch tự động.” Đề tài nghiên cứu khoa học cấp Đại học Đà Nẵng, 2012. 
[52] C. B. Hervé Blanchon, “Pour l évaluation externe des systèmes de TA par des 
méthodes fondées sur la tâche.pdf.” . 
[53] H.C. Pháp, Đ.Đ. Thọ, “Mở rộng kho ngữ liệu theo hướng ngữ nghĩa,” Hội thảo 
CNTT và ứng dụng trong các lĩnh vực, Lần thứ 2. Đà Nẵng, 2013. 
[54] Đ. Đ. T. Huỳnh Công Pháp, “Giải pháp chuẩn hóa các kho ngữ liệu dùng trong 
lĩnh vực dịch tự động,” Tạp chí Khoa học và Công nghệ Đại học Đà Nẵng, vol. 
9(58).2012, pp. 111–117, 2012. 
[55] and C.-Y. O. Van-Hai Vu, Quang-Phuoc Nguyen, Pum-Mo Ryu, “Effect of 
Named Entity Recognition on English-Vietnamese Neural Machine 
Translation,” Int. J. Mach. Learn. Comput., vol. 12, no. 2, pp. 51–55, 2021, doi: 
10.18178/ijmlc.2022.12.2.1078. 
[56] T. Mikolov, “Distributed Representations of Words and Phrases and their 
Compositionality,” NIPS Deep Learning Workshop. pp. 1–31, 2013. 
[57] D. Bahdanau, K. H. Cho, and Y. Bengio, “Neural machine translation by jointly 
learning to align and translate,” 3rd International Conference on Learning 
Representations, ICLR 2015 - Conference Track Proceedings. 2015. 
[58] Q. Le Oriol Vinyals, “A Neural Conversational Model,” in The 31st 
International Conference on Machine Learning, 2015, pp. 233–239. 
[59] O. V. Wojciech Zaremba, Ilya Sutskever, “Recurrent Neural Network 
Regularization,” ICLR 2015 : International Conference on Learning 
Representations 2015. 2015, doi: 10.1111/j.1745-3984.1987.tb00286.x. 
[60] Z. Li, J. Cai, S. He, and H. Zhao, “Seq2seq Dependency Parsing,” Proceedings 
of the 27th International Conference on Computational Linguistics, no. 15. pp. 
3203–3214, 2018. 
[61] Z. Yang, Z. Hu, Y. Deng, C. Dyer, and A. Smola, “Neural Machine Translation 
with Recurrent Attention Modeling,” in Proceedings of the 15th Conference of 
the European Chapter of the Association for Computational Linguistics: 
Volume 2, Short Papers, 2017, pp. 383–387, doi: 10.18653/v1/E17-2061. 
[62] Y. Wu et al., “Google’s Neural Machine Translation System: Bridging the Gap 
between Human and Machine Translation,” https://arxiv.org/abs/ 
1609.08144v2, Sep. 2016. 
[63] J. D. Tomas Mikolov, Kai Chen, Greg Corrado, “Efficient Estimation ofWord 
Representations in Vector Space.” 2013, [Online]. Available: 
https://arxiv.org/abs/1301.3781. 
[64] G. Klein, Y. Kim, Y. Deng, J. Crego, J. Senellart, and A. M. Rush, “OpenNMT: 
Open-source toolkit for neural machine translation,” 20th Annual Conference 
of the European Association for M. Translation, EAMT 2017. p. 22, 2017. 
140 

File đính kèm:

  • pdfluan_an_nghien_cuu_giai_phap_cai_tien_chat_luong_dich_tu_don.pdf
  • pdf0. Phụ lục Bìa luận án.pdf
  • pdf2. Tóm tắt tiếng Việt.pdf
  • pdf3. Tóm tắt tiếng Anh.pdf
  • pdf4. Thông tin đóng góp mới tiếng Việt.pdf
  • pdf5. Thông tin đóng góp mới tiếng Anh.pdf
  • pdf6. Trích yếu luận án tiếng Việt.pdf
  • pdf7. Trích yếu luận án tiếng Anh.pdf