Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt

1. Đặt vấn đề

Nhu cầu trao đổi thông tin giữa các quốc gia, các nền văn hóa, giữa mỗi người

trong xã hội hiện đại ngày càng tăng làm cho việc dịch thuật trở nên quan trọng và

cần thiết. Dịch thuật sử dụng con người là công việc thủ công, tuy chất lượng cao

nhưng tốc độ chậm, năng suất thấp và giá thành cao mà không thể tái sử dụng. Trong

khi đó, một phiên dịch viên dù giỏi đến đâu cũng không thể cập nhật hết được một

lượng thông tin khổng lồ trong nền kinh tế toàn cầu đang phát triển như vũ bão. Vì

vậy, sử dụng hệ thống dịch tự động bằng máy tính để trợ giúp cho quá trình dịch thuật

là cần thiết.

Dịch tự động bằng máy tính nếu cho kết quả dịch tốt sẽ mang lại hiệu quả với

chi phí bỏ ra ít, có thể dịch nhanh với khối lượng tài liệu lớn thuộc các lĩnh vực

chuyên môn khác nhau. Khi đó các hệ dịch máy sẽ trở thành công cụ giúp con người

tiếp cận kho tri thức khổng lồ viết bằng các ngôn ngữ khác nhau.

Những chương trình máy tính đầu tiên thực hiện công việc dịch tự động đã

được các nhà khoa học trên thế giới nghiên cứu và phát triển từ giữa thế kỷ 20 [1].

Đối với dịch tự động từ tiếng Việt sang các ngôn ngữ khác, đã có nhiều nghiên cứu

và các sản phẩm ứng dụng được nhiều người dùng quan tâm và sử dụng, điển hình là

hệ thống dịch của Google, Microsoft, EVTran [2] Các hệ thống này cho phép dịch

tự động văn bản với một cặp ngôn ngữ đã chọn trước, ví dụ dịch từ tiếng Anh sang

tiếng Việt hoặc ngược lại.

Khi sử dụng một hệ thống dịch tự động, người dùng quan tâm đến chất lượng

của bản dịch. Tuy nhiên hiện nay chất lượng dịch tự động của giữa các cặp ngôn ngữ

ít phổ biến (low-resource) khá thấp [3], kể cả dịch từ tiếng Việt sang tiếng Anh và

các ngôn ngữ khác, nên kết quả dịch chủ yếu để tham khảo, nắm đại ý của văn bản.

Trong một số trường hợp, bản dịch làm cho người đọc hiểu sai nội dung một phần

hoặc toàn bộ nội dung chính của văn bản. Các hệ thống dịch tự động mặc dù đã được

sử dụng rộng rãi nhưng cũng cần có nhiều cải tiến mới có thể mang lại kết quả dịch

có chất lượng hơn, giúp cho người đọc hiểu được văn bản cần dịch.14

Chính vì vậy, cần thiết phải có những đánh giá về mặt khoa học để có những

số liệu cụ thể minh chứng cho chất lượng của các hệ thống dịch tiếng Việt, từ đó phân

tích và đề xuất các giải pháp nhằm nâng cao chất lượng của dịch tự động tiếng Việt,

giúp các hệ thống dịch tự động cho các kết quả dịch chính xác hơn, trở thành công cụ

hiệu quả giúp cho người dùng hiểu được các văn bản tiếng nước ngoài mà không phải

tốn thời gian tra từ điển. Các kết quả dịch cũng có thể trở thành bản dịch tham khảo

hỗ trợ có hiệu quả trong công tác dịch thuật.

Nhằm góp phần giải quyết các vấn đề nêu trên, nghiên cứu sinh đã chọn đề tài

“Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt” làm nội dung

nghiên cứu luận án Tiến sỹ kỹ thuật của mình.

2. Mục tiêu nghiên cứu

Mục tiêu chung của nghiên cứu là đề xuất được các giải pháp cụ thể nhằm cải

tiến chất lượng của các hệ thống dịch tiếng Việt nói chung, trong đó phân tích cụ thể

cho bài toán dịch tự động giữa cặp ngôn ngữ Việt – Anh. Các mục tiêu cụ thể gồm:

- Đánh giá được thực trạng của các hệ thống dịch tự động tiếng Việt đang hoạt

động hiện nay;

- Đề xuất được các giải pháp nhằm nâng cao chất lượng của hệ thống dịch giữa

cặp ngôn ngữ Anh – Việt;

- Xây dựng được hệ thống dịch tự động Anh – Việt trong lĩnh vực cụ thể là văn

bản quy phạm pháp luật.

3. Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu của luận án gồm:

- Các phương pháp đánh giá chất lượng hệ thống dịch tự động

- Kho ngữ liệu sử dụng để huấn luyện và xây dựng mô hình dịch tự động

- Các phương pháp dịch tự động

- Các hệ thống dịch tự động tiếng Việt đang hoạt động hiện nay15

Với các mục tiêu và đối tượng nghiên cứu mô tả trên, phạm vi nghiên cứu của

luận án giới hạn ở một số nội dung sau:

- Tập trung nghiên cứu, đánh giá các hệ thống dịch tự động phổ biến hiện nay,

đề xuất giải pháp cải tiến chất lượng dịch tự động đối với cặp ngôn ngữ tiếng

Việt – tiếng Anh.

- Xây dựng ứng dụng thực nghiệm dịch tự động từ tiếng Anh sang tiếng Việt và

ngược lại ở một lĩnh vực hẹp là lĩnh vực văn bản quy phạm pháp luật.

- Triển khai ứng dụng trên nền tảng website nhằm thuận tiện truy cập đối với

người dùng.

140 trang chauphong 27561

Download

Bạn đang xem 20 trang mẫu của tài liệu "Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Luận án Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN VĂN BÌNH
NGHIÊN CỨU GIẢI PHÁP CẢI TIẾN
CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Đà Nẵng, 12/2021
ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN VĂN BÌNH
NGHIÊN CỨU GIẢI PHÁP CẢI TIẾN
CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT
Chuyên ngành: Khoa học máy tính
Mã số: 9480101
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Người hướng dẫn khoa học:
1. PGS.TS. Huỳnh Công Pháp
2. GS. Vincent Berment
Đà Nẵng, 12/2021
3
LỜI CAM ĐOAN
Tôi tên là Nguyễn Văn Bình. Tôi xin cam đoan đây là công trình nghiên cứu
do tôi thực hiện. Các nội dung và kết quả nghiên cứu được trình bày trong Luận án là
trung thực và mọi tham khảo đều được trích dẫn, chỉ rõ nguồn tham khảo theo đúng
quy định.
Tác giả
Nguyễn Văn Bình
4
MỤC LỤC
LỜI CAM ĐOAN .................................................................................................. 3
MỤC LỤC .............................................................................................................. 4
DANH MỤC CÁC TỪ VIẾT TẮT ....................................................................... 7
DANH MỤC BẢNG BIỂU .................................................................................... 8
DANH MỤC HÌNH VẼ ....................................................................................... 10
MỞ ĐẦU .............................................................................................................. 13
1. Đặt vấn đề................................................................................................. 13
2. Mục tiêu nghiên cứu ................................................................................. 14
3. Đối tượng và phạm vi nghiên cứu ............................................................. 14
4. Phương pháp nghiên cứu........................................................................... 15
5. Bố cục của luận án .................................................................................... 15
6. Đóng góp chính của luận án ...................................................................... 16
TỔNG QUAN VỀ DỊCH TỰ ĐỘNG VÀ CHẤT LƯỢNG DỊCH
TỰ ĐỘNG TIẾNG VIỆT HIỆN NAY ................................................................ 19
1.1. Giới thiệu .................................................................................................. 19
1.2. Nghiên cứu tổng quan về dịch tự động, kho ngữ liệu, các phương pháp cải
tiến và đánh giá chất lượng dịch tự động ......................................................... 21
Các phương pháp dịch tự động ..................................................... 21
Kho ngữ liệu trong dịch tự động ................................................... 28
Đánh giá chất lượng hệ thống dịch tự động .................................. 33
1.3. Các nghiên cứu liên quan đến xây dựng và cải tiến chất lượng dịch tự động
tiếng Việt ........................................................................................................ 43
Nghiên cứu xây dựng hệ thống dịch và đánh giá chất lượng dịch . 43
Nghiên cứu xây dựng và cải tiến kho ngữ liệu tiếng Việt ............. 45
1.4. Thực trạng chất lượng dịch tự động tiếng Việt .......................................... 48
1.5. Kết luận Chương 1 .................................................................................... 52
5
GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG
VIỆT..................................................................................................................... 53
2.1. Giới thiệu .................................................................................................. 53
2.2. Đánh giá chất lượng các hệ thống dịch tự động tiếng Việt ........................ 54
Tổ chức đánh giá .......................................................................... 55
Nhận xét, đánh giá ....................................................................... 60
Đề xuất giải pháp đánh giá chất lượng dựa trên quá trình hiệu đính
bản dịch.......................................................................................... 61
2.3. Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào kho ngữ liệu lớn ..... 69
Tổng quan .................................................................................... 69
Các nghiên cứu liên quan đến cải tiến chất lượng kho ngữ liệu .... 70
Giải pháp nâng cao chất lượng kho ngữ liệu ................................. 71
Đánh giá vai trò của kho ngữ liệu đối với kết quả hệ thống dịch ... 87
2.4. Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào mô hình máy học
mạng nơ ron .................................................................................................... 91
Tổng quan .................................................................................... 91
Giải pháp cải tiến chất lượng dịch tiếng Việt bằng mô hình học máy
mạng nơ ron .................................................................................. 91
Kết quả xây dựng hệ thống dịch ................................................. 102
Giải pháp xây dựng hệ thống dịch ngữ nghĩa .............................. 104
2.5. Kết luận Chương 2 .................................................................................. 109
HỆ THỐNG DỊCH TỰ ĐỘNG ANH-VIỆT VIKI TRANSLATOR
............................................................................................................................ 111
3.1. Giới thiệu ................................................................................................ 111
3.2. Xây dựng kho ngữ liệu............................................................................ 112
Quy trình các bước triển khai ..................................................... 112
Xây dựng kho ngữ liệu song ngữ số lượng lớn ........................... 113
Xây dựng công cụ hỗ trợ mở rộng ngôn ngữ và ngữ nghĩa ......... 117
6
Xây dựng kho ngữ liệu ontology ................................................ 118
3.3. Kết quả thực nghiệm xây dựng ứng dụng dịch Anh – Việt lĩnh vực văn bản
pháp luật (VIKI Translator) ........................................................................... 122
Quy trình các bước triển khai ..................................................... 122
Tổ chức huấn luyện mô hình và điều chỉnh tham số mô hình...... 122
Xây dựng các mô đun của hệ thống dịch .................................... 124
3.4. Đánh giá kết quả ..................................................................................... 125
Kết quả thực nghiệm .................................................................. 125
Đánh giá của người dùng............................................................ 128
3.5. Kết luận Chương 3 .................................................................................. 130
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN......................................................... 131
1. Kết luận .................................................................................................. 131
2. Hướng phát triển ..................................................................................... 132
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ................... 133
TÀI LIỆU THAM KHẢO ................................................................................. 135
7
DANH MỤC CÁC TỪ VIẾT TẮT
Thuật ngữ Tiếng Anh Tiếng Việt
ALPAC
Automatic Language Processing
Advisory Committee
Ủy ban cố vấn xử lý ngôn ngữ
tự động
BLEU BiLingual Evaluation Understudy
Chỉ số đánh giá chất lượng bản
dịch BLEU
CBOW Continuous Bag of Words Mô hình túi từ liên tục
EBMT
Example Based Machine
Translation
Dịch máy dựa trên ví dụ
GNMT
Google Neural Machine
Translation
Hệ thống dịch tự động sử dụng
mạng nơ ron của Google
HTER Human Translation Error Rate
Chỉ số lỗi khi dịch bởi con
người
NIST
National Institute of Standards and
Technology
Chỉ số đánh giá chất lượng bản
dịch NIST
NMT Neural Network Translation Dịch máy sử dụng mạng nơ ron
POS Part of Speech Phân loại từ vựng
RNN Recurrent Neural Networks Mạng nơ ron tái phát
SMT Statistical Machine Translation Dịch máy thống kê
TBL Transformation-Based Learning Dịch máy chuyển đổi
TER Translation Edit Rate Chỉ số đo lỗi bản dịch
WER Word Error Rate Chỉ số tỉ lệ lỗi theo từ
WMT
Workshop on Statistical Machine
Translation
Hội thảo về dịch máy thống kê
8
DANH MỤC BẢNG BIỂU
Bảng 1.1. Chi tiết kho ngữ liệu EuroMatrix ........................................................... 30
Bảng 1.2. Tổng hợp một số kho ngữ liệu ............................................................... 31
Bảng 1.3. Bảng các thang đo tương ứng với mức độ đầy đủ và trôi chảy ............... 36
Bảng 1.4. Mô phỏng kết quả đánh giá bằng hình thức xếp hạng ............................ 37
Bảng 1.5. Đánh giá chất lượng dịch Anh – Việt từ hệ thống dịch dựa trên MOSES
.............................................................................................................................. 43
Bảng 1.6. So sánh kết quả dịch sử dụng MOSES và hệ thống Google, Microsoft .. 44
Bảng 1.7. Kết quả đánh giá trên tập dữ liệu TED tst2015 của IWSLT 2015 ........... 44
Bảng 1.8. Đánh giá chất lượng hệ thống dịch sử dụng ngôn ngữ trung gian ........... 45
Bảng 1.9. Ví dụ về một số câu hệ thống dịch sai nghĩa .......................................... 50
Bảng 2.1. Thông tin về dữ liệu phục vụ đánh giá ................................................... 55
Bảng 2.2. Đánh giá kết quả dịch từ tiếng Anh sang tiếng Việt ............................... 57
Bảng 2.3. Đánh giá kết quả dịch từ tiếng Việt sang tiếng Anh ............................... 57
Bảng 2.4. Kết quả đánh giá bằng phương pháp chủ quan ....................................... 59
Bảng 2.5. Trung bình các chỉ số trên 5 bộ dữ liệu .................................................. 67
Bảng 2.6. Kết quả sau khi hiệu chỉnh bản dịch....................................................... 67
Bảng 2.7. Bảng tóm tắt đặc trưng các kho ngữ liệu phổ biến ................................. 72
Bảng 2.8. Số liệu kho ngữ liệu sử dụng để đánh giá sự ảnh hưởng đến chất lượng . 89
Bảng 2.9. Chất lượng các mô hình dịch nhận được ................................................ 90
Bảng 2.10. Mô tả dữ liệu phục vụ xây dựng hệ thống dịch .................................. 103
Bảng 2.11. So sánh chất lượng hệ thống dịch theo các phương pháp khác nhau ... 104
Bảng 3.1. Thống kê số lượng câu trong kho ngữ liệu đã được xây dựng .............. 114
Bảng 3.2. Tổng hợp quy mô kho ngữ liệu của một số công bố ............................. 115
9
Bảng 3.3. Kết quả đánh giá và so sánh chất lượng hệ thống dịch Anh-Việt.......... 125
Bảng 3.4. So sánh điểm BLEU đạt được ở một số nghiên cứu xây dựng hệ thống dịch
tiếng Việt . ... ue, pp. 177–180, 2007, doi:
10.5539/ijel.v5n3p143.
[13] Phan Thị Hà, “Nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu
từ nguồn Internet cho xử lý tiếng Việt.” Luận án Tiến sĩ kỹ thuật Ngành Hệ
thống thông tin, Học viện công nghệ Bưu chính Viễn thông, 2013.
[14] C. Boitet, “Corpus pour la TA : types, tailles et problèmes associés, selon leur
usage et le type de système,” Revue française de linguistique appliquée, vol.
136
XII, no. 1. p. 25, 2007, doi: 10.3917/rfla.121.0025.
[15] L. N. M. Đinh Điền, “Ứng dụng Ngữ liệu Song ngữ Anh-Việt trong Giảng dạy
Ngôn ngữ,” in Hội thảo Liên ngành NNH Ứng dụng & Giảng dạy Ngôn ngữ,
2015, pp. 559–567.
[16] P. Koehn, “Europarl: A Parallel Corpus for Statistical Machine Translation,”
in Proc. of the 10th Machine Translation Summit, 2005, pp. 79–86, doi:
10.5209/DIDA.19853.
[17] J. B. Carroll, “An Experiment in Evaluating the Quality of Translations,”
Mechanical Translation and Computational Linguistics, vol. 9, no. 3–4. pp.
67–75, 1966.
[18] J. S. Chris Callison-Burch, Cameron Fordyce, Philipp Koehn, Christof Monz,
“(Meta-) Evaluation of Machine Translation,” in Proceedings ofthe Second
Workshop on Statistical Machine Translation, 2007, pp. 136–158.
[19] M. Przybocki, K. Peterson, S. Bronsart, and G. Sanders, “The NIST 2008
Metrics for machine translation challenge—overview, methodology, metrics,
and results,” Mach. Transl., vol. 23, no. 2–3, pp. 71–103, Sep. 2009, doi:
10.1007/s10590-009-9065-6.
[20] and I. D. M. Joseph P. Turian, Luke Shen, “Evaluation of Machine Translation
and its Evaluation,” Proceedings of the International Conference & Workshop
on Emerging Trends in Technology - ICWET ’11. ACM Press, New York, New
York, USA, 2011, doi: 10.1145/1980022.1980409.
[21] M. Snover, B. Dorr, R. Schwartz, L. Micciulla, and J. Makhoul, “A study of
translation edit rate with targeted human annotation,” AMTA2006 -
Proceedings of the 7th Conference of the Association for Machine Translation
of the Americas: Visions for the Future of MT. pp. 223–231, 2006.
[22] D. Gates et al., “End-to-end evaluation in JANUS: A speech-to-speech
translation system,” in Lecture Notes in Computer Science (including subseries
Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics),
1997, vol. 1236, pp. 195–206, doi: 10.1007/3-540-63175-5_47.
[23] R. Nübel, “End-to-End evaluation in VERBMOBIL I,” in Proceedings of MT
Summit VI, 1997, pp. 232–239.
[24] J. S. White and T. A. O’Connell, “Evaluation in the ARPA machine translation
program,” Human Language Technology: Proceedings of a Workshop held at
Plainsboro, New Jersey. 1994, doi: 10.3115/1075812.1075840.
[25] M. Denkowski and A. Lavie, “Choosing the right evaluation for machine
translation: An examination of annotator and automatic metric performance on
human judgment tasks,” AMTA 2010 - 9th Conference of the Association for
Machine Translation in the Americas. 2010.
[26] F. J. Och, “Minimum Error Rate Training,” Proceedings of the 41st Annual
137
Meeting of the Association for Computational Linguistics. pp. 160–167, 2003.
[27] K.-Y. Su, M.-W. Wu, and J.-S. Chang, “A new quantitative quality measure
for machine translation systems.” p. 433, 1992, doi: 10.3115/992133.992137.
[28] V. I. Levenshtein, “Binary codes capable of correcting deletions, insertions,
and reversals,” Soviet physics doklady, vol. 10, no. 8. pp. 707–710, 1966.
[29] S. Nießen, F. J. Och, G. Leusch, and H. Ney, “An evaluation tool for machine
translation: Fast evaluation for MT research,” 2nd International Conference on
Language Resources and Evaluation, LREC 2000. 2000.
[30] H. S. C. Tillmann, S. Vogel, H. Ney, A. Zubiaga, “Accelerated Dp Based
Search For Statistical Translation,” Fifth European Conference on Speech
Communication and Technology. 1997.
[31] W.-J. Z. Kishore Papineni, Salim Roukos, Todd Ward, “BLEU: a Method for
Automatic Evaluation of Machine Translation,” in Proceedings of the 40th
Annual Meeting of the Association for Computational Linguistics (ACL), 2002,
pp. 311–318, doi: 10.1002/andp.19223712302.
[32] E. Hovy, “Toward Finely Differentiated Evaluation Metrics for Machine
Translation,” Proceedings of the EAGLES Workshop on Standards and
Evaluation. pp. 127–133, 1999.
[33] A. Popescu-Belis, “An experiment in comparative evaluation: human vs.
computers,” MT Summit IX. pp. 307–314, 2003.
[34] G. N. Ramaswamy, J. Navrátil, U. V. Chaudhari, and R. D. Zilca, “The IBM
system for the NIST-2002 cellular speaker verification evaluation,” ICASSP,
IEEE International Conference on Acoustics, Speech and Signal Processing -
Proceedings, vol. 2. pp. 61–64, 2003, doi: 10.1109/icassp.2003.1202294.
[35] V. T. Hùng, “Phương pháp và công cụ đánh giá tự động các hệ thống dịch tự
động trên mạng,” Tạp chí Khoa học và Công nghệ Đại học Đà Nẵng, vol. 1(18),
pp. 37–42, 2007.
[36] H. V. Tran, T. H. Vu, T. T. Le, P. L. Nghia, and V. V. Nguyen, “The English-
Vietnamese Machine Translation System for IWSLT 2015,” Proceeding of the
12th International Workshop on Spoken Language Translation. 2015.
[37] M. Luong and C. D. Manning, “Stanford Neural Machine Translation Systems
for Spoken Language Domains,” Proceedings of the international workshop on
spoken language translation. pp. 76–79, 2015.
[38] D. T. Hoang and O. Bojar, “Pivoting methods and data for Czech-Vietnamese
translation via English,” Proceedings of the 19th Annual Conference of the
European Association for MT, EAMT2016. pp. 190–202, 2016.
[39] Dinh Dien, “Building an annotated English-Vietnamese parallel corpus,” MKS
A J. Southeast Asian Linguist. Lang., vol. 35, pp. 21–36, 2005.
138
[40] T.-N.-D. Do, V.-B. Le, B. Bigi, L. Besacier, and E. Castelli, “Mining a
comparable text corpus for a Vietnamese - French statistical machine
translation system.” p. 165, 2009, doi: 10.3115/1626431.1626466.
[41] L. T. H. Dương Minh Hùng, Lê Mạnh Thạnh, “Một phương pháp xây dựng
ngữ liệu song ngữ Anh-Việt từ nguồn tài nguyên internet,” in Kỷ yếu Hội nghị
KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ
thông tin (FAIR), Oct. 2019, pp. 315–321, doi: 10.15625/vap.2019.00040.
[42] N. T. Hà, N. T. M. Huyền, and N. M. Hải, “Xây dựng kho ngữ liệu du lịch song
ngữ Việt–Anh gióng hàng mức câu cho dịch máy,” Res. Dev. Inf. Commun.
Technol., Jul. 2018, doi: 10.32913/rd-ict.vol1.no39.550.
[43] P. N. Luân, N. V. Vinh, and N. H. Hoàng, “Thích ứng miền trong dịch máy nơ
ron cho cặp ngôn ngữ Anh-Việt,” Kỷ yếu Hội nghị Quốc gia lần thứ XII về
Nghiên cứu cơ bản và ứng dụng Công Nghệ thông tin (FAIR). Publishing House
for Science and Technology, Huế, Oct. 28, 2019, doi:
10.15625/vap.2019.00056.
[44] T. B. Ho, N. K. Pham, T. L. Ha, and P. T. Nguyen, “Issues and First Phase
Development of the English-Vietnamese Translation System EVSMT1.0,”
Special Issue in Journal of Science, Natural Sciences and Technology. pp. 59–
66, 2008.
[45] L. K. Hung, “One method of interlingual translation,” National Conference on
IT Research, Development and Applications CNTT&TT. 2003.
[46] M. Alez, J. Us Giménez, and L. Arquez, “A Graphical Interface for MT
Evaluation and Error Analysis,” Jeju, Republic of Korea. Association for
Computational Linguistics, pp. 139–144, 2012.
[47] B. Chen and C. Cherry, “A Systematic Comparison of Smoothing Techniques
for Sentence-Level BLEU,” in Association for Computational Linguistics
(ACL), 2015, pp. 362–367, doi: 10.3115/v1/w14-3346.
[48] C.-P. Huynh, “Des suites de test pour la TA à un système d’exploitation de
corpus alignés de documents et métadocuments multilingues, multiannotés et
multimédia.” Institut National Polytechnique de Grenoble - INPG, p. 226,
2010.
[49] D. M. Dragos Stefan Munteanu, “Extracting parallel sub-sentential fragments
from non-parallel corpora,” in Proceedings of the 21st International
Conference on Computational Linguistics and 44th Annual Meeting of the
ACL, 2006, pp. 81–88.
[50] C. P. Huynh, “New approach for collecting high quality parallel corpora from
multilingual websites,” ACM International Conference Proceeding Series. pp.
341–344, 2011, doi: 10.1145/2095536.2095599.
[51] H. C. Pháp, “Nghiên cứu và xây dựng hệ một hệ thống hỗ trợ khai thác dữ liệu
139
dịch tự động.” Đề tài nghiên cứu khoa học cấp Đại học Đà Nẵng, 2012.
[52] C. B. Hervé Blanchon, “Pour l évaluation externe des systèmes de TA par des
méthodes fondées sur la tâche.pdf.” .
[53] H.C. Pháp, Đ.Đ. Thọ, “Mở rộng kho ngữ liệu theo hướng ngữ nghĩa,” Hội thảo
CNTT và ứng dụng trong các lĩnh vực, Lần thứ 2. Đà Nẵng, 2013.
[54] Đ. Đ. T. Huỳnh Công Pháp, “Giải pháp chuẩn hóa các kho ngữ liệu dùng trong
lĩnh vực dịch tự động,” Tạp chí Khoa học và Công nghệ Đại học Đà Nẵng, vol.
9(58).2012, pp. 111–117, 2012.
[55] and C.-Y. O. Van-Hai Vu, Quang-Phuoc Nguyen, Pum-Mo Ryu, “Effect of
Named Entity Recognition on English-Vietnamese Neural Machine
Translation,” Int. J. Mach. Learn. Comput., vol. 12, no. 2, pp. 51–55, 2021, doi:
10.18178/ijmlc.2022.12.2.1078.
[56] T. Mikolov, “Distributed Representations of Words and Phrases and their
Compositionality,” NIPS Deep Learning Workshop. pp. 1–31, 2013.
[57] D. Bahdanau, K. H. Cho, and Y. Bengio, “Neural machine translation by jointly
learning to align and translate,” 3rd International Conference on Learning
Representations, ICLR 2015 - Conference Track Proceedings. 2015.
[58] Q. Le Oriol Vinyals, “A Neural Conversational Model,” in The 31st
International Conference on Machine Learning, 2015, pp. 233–239.
[59] O. V. Wojciech Zaremba, Ilya Sutskever, “Recurrent Neural Network
Regularization,” ICLR 2015 : International Conference on Learning
Representations 2015. 2015, doi: 10.1111/j.1745-3984.1987.tb00286.x.
[60] Z. Li, J. Cai, S. He, and H. Zhao, “Seq2seq Dependency Parsing,” Proceedings
of the 27th International Conference on Computational Linguistics, no. 15. pp.
3203–3214, 2018.
[61] Z. Yang, Z. Hu, Y. Deng, C. Dyer, and A. Smola, “Neural Machine Translation
with Recurrent Attention Modeling,” in Proceedings of the 15th Conference of
the European Chapter of the Association for Computational Linguistics:
Volume 2, Short Papers, 2017, pp. 383–387, doi: 10.18653/v1/E17-2061.
[62] Y. Wu et al., “Google’s Neural Machine Translation System: Bridging the Gap
between Human and Machine Translation,” https://arxiv.org/abs/
1609.08144v2, Sep. 2016.
[63] J. D. Tomas Mikolov, Kai Chen, Greg Corrado, “Efficient Estimation ofWord
Representations in Vector Space.” 2013, [Online]. Available:
https://arxiv.org/abs/1301.3781.
[64] G. Klein, Y. Kim, Y. Deng, J. Crego, J. Senellart, and A. M. Rush, “OpenNMT:
Open-source toolkit for neural machine translation,” 20th Annual Conference
of the European Association for M. Translation, EAMT 2017. p. 22, 2017.
140

File đính kèm:

luan_an_nghien_cuu_giai_phap_cai_tien_chat_luong_dich_tu_don.pdf
0. Phụ lục Bìa luận án.pdf
2. Tóm tắt tiếng Việt.pdf
3. Tóm tắt tiếng Anh.pdf
4. Thông tin đóng góp mới tiếng Việt.pdf
5. Thông tin đóng góp mới tiếng Anh.pdf
6. Trích yếu luận án tiếng Việt.pdf
7. Trích yếu luận án tiếng Anh.pdf