Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập

Trong thời gian qua, cùng với sự phát triển rất nhanh của công nghệ thông tin và công

nghệ hỗ trợ giáo dục trực tuyến, nhu cầu học tập mở ngày càng gia tăng, trong đó có học

tập trực tuyến nhằm ứng phó với những thay đổi của thực tế, đặc biệt trong bối cảnh hạn

chế tiếp xúc trực tiếp giữa người dạy và người học do tình hình dịch bệnh và nhiều lý do

khác. Trong luận án này, các giải pháp mới được đề xuất nhằm cung cấp tài nguyên học

tập đáp ứng tốt hơn nhu cầu và năng lực của người học. Các nghiên cứu được thực hiện

với các đóng góp được trình bày sau đây.

Đầu tiên, cách tiếp cận dựa trên kỹ thuật học sâu với mạng nơ-ron truyền thẳng đa

tầng MLP được đề xuất đùng để phân loại tài nguyên học tập, phục vụ cho quá trình tìm

kiếm tài nguyên. Trong thực nghiệm, mô hình phân loại với kỹ thuật MLP cũng được so

sánh với các kỹ thuật học máy khác; kết quả cho thấy cách tiếp cận này cho kết quả phân

loại khả thi và hiệu quả hơn các kỹ thuật truyền thống trên cùng tập dữ liệu, đặc biệt là dữ

liệu mất cân bằng.

Thứ hai, hai cách tiếp cận tìm kiếm tài nguyên học tập có quan tâm vấn đề ngữ nghĩa

được đề xuất, đó là tìm kiếm dựa trên sự tương đồng về nội dung văn bản và dựa trên mạng

ngữ nghĩa ontology. Ở mỗi cách tiếp cận, truy vấn được phân loại để xác định lĩnh vực

nhằm thu hẹp không gian tìm kiếm trước khi tìm trên lĩnh vực tương ứng của tài nguyên

học tập được xây dựng sẵn. Kết quả thực nghiệm cho thấy, các cách tiếp cận này khả thi

để xây dựng mô hình tìm kiếm tài nguyên học tập, đặc biệt là tìm kiếm có quan tâm vấn

đề ngữ nghĩa.

Thứ ba, các mô hình dự đoán kết quả học tập đề xuất với ba cách tiếp cận dựa trên

các kỹ thuật học sâu, gồm xây dựng mô hình dự đoán cho toàn bộ sinh viên sử dụng mạng

nơ-ron tích chập CNN, mô hình dự đoán theo nhóm năng lực học tập sử dụng mạng nơ-

ron đa tầng MLP và kỹ thuật học máy rừng ngẫu nhiên RF, và mô hình dự đoán theo từng

sinh viên sử dụng bộ nhớ ngắn dài hạn LSTM. Các kết quả thực nghiệm cho thấy các mô

hình được đề xuất cho kết quả dự đoán khá tốt, đặc biệt khi sử dụng kỹ thuật tiền xử lý dữ

liệu trước khi đưa vào mô hình học dự đoán.

Cuối cùng, mô hình gợi ý tài nguyên học tập sử dụng kỹ thuật phân rã ma trận sâu

DMF, được mở rộng từ kỹ thuật phân rã ma trận chuẩn MF, được đề xuất. Mô hình được

kiểm chứng trên nhiều tập dữ liệu về tài nguyên học tập và kết quả học tập của sinh viên,

cũng như so sánh với các kỹ thuật khác của hệ thống gợi ý. Kết quả cho thấy mô hình DMF

có hiệu suất dự đoán xếp hạng khá tốt so với các kỹ thuật khác, từ đó có thể sử dụng để gợi

ý tài nguyên học tập phù hợp với năng lực người học.

pdf 148 trang chauphong 15561
Bạn đang xem 20 trang mẫu của tài liệu "Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập

Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập
BỘ GIÁO DỤC VÀ ĐÀO TẠO 
TRƯỜNG ĐẠI HỌC CẦN THƠ 
TRẦN THANH ĐIỆN 
XÂY DỰNG MÔ HÌNH TÌM KIẾM 
VÀ GỢI Ý TÀI NGUYÊN HỌC TẬP 
LUẬN ÁN TIẾN SĨ 
CHUYÊN NGÀNH HỆ THỐNG THÔNG TIN 
MÃ SỐ 62 48 01 04 
2022 
BỘ GIÁO DỤC VÀ ĐÀO TẠO 
TRƯỜNG ĐẠI HỌC CẦN THƠ 
TRẦN THANH ĐIỆN 
MÃ SỐ NCS: P1617001 
XÂY DỰNG MÔ HÌNH TÌM KIẾM 
VÀ GỢI Ý TÀI NGUYÊN HỌC TẬP 
LUẬN ÁN TIẾN SĨ 
CHUYÊN NGÀNH HỆ THỐNG THÔNG TIN 
MÃ SỐ 62 48 01 04 
NGƯỜI HƯỚNG DẪN 
PGS.TS. NGUYỄN THÁI NGHE 
2022 
1 
LỜI CẢM TẠ 
Để hoàn thành được luận án này, tôi đã nhận được sự quan tâm, giúp đỡ và hướng 
dẫn nhiệt tình từ quý Thầy Cô thuộc Khoa Công nghệ Thông tin và Truyền thông, Trường 
Đại học Cần Thơ và sự hỗ trợ tích cực của đồng nghiệp. 
Đặc biệt, tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến PGS.TS. Nguyễn Thái 
Nghe đã tận tình chỉ dẫn, động viên và tạo mọi điều kiện thuận lợi nhất cho tôi trong suốt 
quá trình học tập và nghiên cứu. 
Tôi cũng xin gửi lời cảm ơn đến TS. Nguyễn Thanh Hải đã hỗ trợ tôi trong quá trình 
triển khai các thực nghiệm của nghiên cứu. 
Xin chân thành cảm ơn quý Thầy Cô đã truyền đạt thêm nhiều kiến thức, quan tâm, 
hỗ trợ và tạo mọi điều kiện cho tôi trong quá trình học tập tại Khoa Công nghệ Thông tin 
và Truyền thông thân yêu, nơi tôi theo học đại học giai đoạn 1993-1998. 
Xin gửi lời cảm ơn chân thành đến Lãnh đạo Nhà trường, Ban Giám đốc Trung tâm 
Thông tin và Quản trị mạng, Nhà xuất bản Đại học Cần Thơ và đồng nghiệp đã tạo điều 
kiện để tôi được học tập nâng cao trình độ chuyên môn và giúp đỡ tôi trong suốt thời gian 
học tập. 
Sau cùng tôi xin chân thành cảm ơn đến gia đình và người thân đã chia sẻ, động viên 
và tạo điều kiện tốt nhất để tôi có thể hoàn thành luận án này. 
2 
TÓM TẮT 
Trong thời gian qua, cùng với sự phát triển rất nhanh của công nghệ thông tin và công 
nghệ hỗ trợ giáo dục trực tuyến, nhu cầu học tập mở ngày càng gia tăng, trong đó có học 
tập trực tuyến nhằm ứng phó với những thay đổi của thực tế, đặc biệt trong bối cảnh hạn 
chế tiếp xúc trực tiếp giữa người dạy và người học do tình hình dịch bệnh và nhiều lý do 
khác. Trong luận án này, các giải pháp mới được đề xuất nhằm cung cấp tài nguyên học 
tập đáp ứng tốt hơn nhu cầu và năng lực của người học. Các nghiên cứu được thực hiện 
với các đóng góp được trình bày sau đây. 
Đầu tiên, cách tiếp cận dựa trên kỹ thuật học sâu với mạng nơ-ron truyền thẳng đa 
tầng MLP được đề xuất đùng để phân loại tài nguyên học tập, phục vụ cho quá trình tìm 
kiếm tài nguyên. Trong thực nghiệm, mô hình phân loại với kỹ thuật MLP cũng được so 
sánh với các kỹ thuật học máy khác; kết quả cho thấy cách tiếp cận này cho kết quả phân 
loại khả thi và hiệu quả hơn các kỹ thuật truyền thống trên cùng tập dữ liệu, đặc biệt là dữ 
liệu mất cân bằng. 
Thứ hai, hai cách tiếp cận tìm kiếm tài nguyên học tập có quan tâm vấn đề ngữ nghĩa 
được đề xuất, đó là tìm kiếm dựa trên sự tương đồng về nội dung văn bản và dựa trên mạng 
ngữ nghĩa ontology. Ở mỗi cách tiếp cận, truy vấn được phân loại để xác định lĩnh vực 
nhằm thu hẹp không gian tìm kiếm trước khi tìm trên lĩnh vực tương ứng của tài nguyên 
học tập được xây dựng sẵn. Kết quả thực nghiệm cho thấy, các cách tiếp cận này khả thi 
để xây dựng mô hình tìm kiếm tài nguyên học tập, đặc biệt là tìm kiếm có quan tâm vấn 
đề ngữ nghĩa. 
Thứ ba, các mô hình dự đoán kết quả học tập đề xuất với ba cách tiếp cận dựa trên 
các kỹ thuật học sâu, gồm xây dựng mô hình dự đoán cho toàn bộ sinh viên sử dụng mạng 
nơ-ron tích chập CNN, mô hình dự đoán theo nhóm năng lực học tập sử dụng mạng nơ-
ron đa tầng MLP và kỹ thuật học máy rừng ngẫu nhiên RF, và mô hình dự đoán theo từng 
sinh viên sử dụng bộ nhớ ngắn dài hạn LSTM. Các kết quả thực nghiệm cho thấy các mô 
hình được đề xuất cho kết quả dự đoán khá tốt, đặc biệt khi sử dụng kỹ thuật tiền xử lý dữ 
liệu trước khi đưa vào mô hình học dự đoán. 
Cuối cùng, mô hình gợi ý tài nguyên học tập sử dụng kỹ thuật phân rã ma trận sâu 
DMF, được mở rộng từ kỹ thuật phân rã ma trận chuẩn MF, được đề xuất. Mô hình được 
kiểm chứng trên nhiều tập dữ liệu về tài nguyên học tập và kết quả học tập của sinh viên, 
cũng như so sánh với các kỹ thuật khác của hệ thống gợi ý. Kết quả cho thấy mô hình DMF 
có hiệu suất dự đoán xếp hạng khá tốt so với các kỹ thuật khác, từ đó có thể sử dụng để gợi 
ý tài nguyên học tập phù hợp với năng lực người học. 
Từ khóa: Tài nguyên học tập, phân loại tài nguyên học tập, tìm kiếm tài nguyên học 
tập, dự đoán kết quả học tập, gợi ý tài nguyên học tập, kỹ thuật học máy và học sâu. 
3 
ABSTRACT 
In recent years, along with the rapid development of information technology, there 
are various technologies that support for online education to effectively exploit available 
learning resources to meet the needs of online learning, especially in the context of limited 
face-to-face classes due to the epidemic situation as well as many other reasons. With the 
continuous increase of those resources, it is a challenge for learners to be able to search for 
suitable learning resources. In this dissertation, we propose state-of-the-art approaches to 
help learners search learning resources meeting their needs and capacities. The 
contributions of the thesis are presented as follows. 
Firstly, an approach to use deep learning with Multilayer Perceptron (MLP) for the 
classification tasks of learning resources is proposed. The experimental results show that 
by using this approach, the results get even better than using other traditional machine 
learning algorithms, especially on imbalanced datasets. 
Secondly, approaches for searching learning resources based on document similarity 
and based on semantics are proposed. For similarity-based searching, cosine similarity and 
word-order similarity of the documents are combined. For semantic-based searching, 
searching learning resources using ontologies is proposed. In both of the approaches, the 
query is classified to determine the topic to aim narrowing the search topics before 
searching on the corresponding one of the built-in learning resources. The experimental 
results show that these approaches are feasible to build models for searching learning 
resources related semantics. 
Thirdly, student performance prediction models which are proposed based on three 
approaches using deep learning techniques include a prediction model for all students using 
a convolutional neural network (CNN), a group-based prediction model for students who 
have similar learning performance using multilayer perceptron (MLP) and machine 
learning technique of RF, and a prediction model for each student using long short-term 
memory (LSTM). The experimental results show that the proposed methods provides good 
prediction results. The results are feasible for applying to practical cases, especially when 
the data are preprocessed before fetching them into the predictive learning model. 
Finally, a deep matrix factorization (DMF) model extended from the standard matrix 
factorization (MF) is proposed for learning resources recommendation. Two dataset groups 
including datasets of learning resources and datasets of learning performance are used to 
validate the model, and the model is also compared with other techniques of the 
recommender system. The experimental results show that the proposed DMF model can 
perform well on various datasets, especially large-scale datasets. It can be used for 
recommending suitable learning resources for students. 
Keywords: Learning resources, topic classification, learning resources searching, 
performance prediction, learning resources recommendation, deep learning and machine 
learning. 
4 
LỜI CAM ĐOAN 
Tôi tên Trần Thanh Điện, là nghiên cứu sinh ngành Hệ thống thông tin, khóa 2017. 
Tôi xin cam đoan luận án này là công trình nghiên cứu khoa học thực sự của bản thân tôi 
dưới sự hướng dẫn của PGS.TS. Nguyễn Thái Nghe. 
Các thông tin được sử dụng tham khảo trong luận án được thu thập từ các nguồn đáng 
tin cậy, đã được kiểm chứng, được công bố rộng rãi và được tôi trích dẫn nguồn gốc rõ 
ràng ở phần danh mục tài liệu tham khảo. Các kết quả nghiên cứu được trình bày trong 
luận án này là do chính tôi thực hiện một cách nghiêm túc, trung thực và không trùng lắp 
với các đề tài khác đã được công bố trước đây. 
Tôi xin lấy danh dự và uy tín của bản thân để đảm bảo cho lời cam đoan này. 
Cần Thơ, ngày tháng 01 năm 2022 
 Người hướng dẫn Nghiên cứu sinh 
 Nguyễn Thái Nghe Trần Thanh Điện 
5 
MỤC LỤC 
CHƯƠNG 1. GIỚI THIỆU ............................................................................................ 1 
1.1. Tính cấp thiết của nghiên cứu ........................................................................... 1 
1.2. Mục tiêu, đối tượng, phạm vi và phương pháp nghiên cứu .............................. 3 
1.3. Nội dung nghiên cứu và hướng tiếp cận của luận án ........................................ 3 
1.3.1. Xây dựng mô hình phân loại tài nguyên học tập ............................................ 5 
1.3.2. Xây dựng mô hình tìm kiếm tài nguyên học tập ............................................. 5 
1.3.3. Xây dựng mô hình dự đoán kết quả học tập ................................................... 6 
1.3.4. Xây dựng mô hình gợi ý tài nguyên học tập ................................................... 6 
1.4. Các đóng góp của luận án ................................................................................. 7 
1.5. Bố cục của luận án ............................................................................................ 8 
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN ......... 10 
2.1. Khái quát về hệ thống quản lý tài nguyên học tập .......................................... 10 
2.1.1. Tài nguyên học tập và hệ thống quản lý tài nguyên học tập ......................... 10 
2.1.2. Hệ thống quản lý tài nguyên học tập có quan tâm ngữ nghĩa ....................... 10 
2.1.3. Hệ thống gợi ý tài nguyên học tập ................................................................ 10 
2.2. Một số kỹ thuật phân loại văn bản .................................................................. 11 
2.2.1. Phân loại với máy véc-tơ hỗ trợ SVM .......................................................... 12 
2.2.2. Phân loại sử dụng giải thuật cây quyết định và rừng ngẫu nhiên ................. 14 
2.2.3. Phân loại với các kỹ thuật học sâu ................................................................ 14 
2.3. Các kỹ thuật tính toán độ tương đồng văn bản ............................................... 15 
2.3.1. Độ tương đồng ............................................................................................... 15 
2.3.2. Một số phương pháp tính độ tương đồng văn bản ........................................ 15 
2.4. Các kỹ thuật xây dựng mạng ngữ nghĩa phục vụ tìm kiếm ............................ 17 
2.4.1. Khái quát về web ngữ nghĩa......... ... sources (OER. Available 
from https://en.unesco.org/themes/building-knowledge-societies/oer 
Versloot, C., 2019. Leaky ReLU: improving traditional ReLU, accessed on 2021. 
Available from https://www.machinecurve.com/index.php/2019/10/15/leaky-
relu-improving-traditional-relu/ 
Vnexpress, 2020. accessed on 20/2/2020. Available from https://vnexpress.net/ 
W3C, 2006. DOME, accessed on 2019. Available from 
https://www.w3.org/2001/sw/wiki/DOME. 
W3C, 2009. OWL Web Ontology Language Overview, accessed on 2019. Available 
from  
W3C, 2012. Knoodl, accessed on 2019. Available from 
https://www.w3.org/2001/sw/wiki/Knoodl 
Wali, W., Gargouri, B. and Ben Hamadou, A., 2020. An Enhanced Plagiarism Detection 
Based on Syntactico-Semantic Knowledge. Intelligent Systems Design and 
Applications. Springer International Publishing, Cham, pp. 264-274. 
Weiss, G. M., 2019. Sample Weka Data Sets, accessed on 18/1/2020. Available from 
https://storm.cis.fordham.edu/gweiss/data-mining/datasets.html 
Winkler, W. E., 1990. String Comparator Metrics and Enhanced Decision Rules in the 
Fellegi-Sunter Model of Record Linkage. 
Wu, B., 2018. The Semantic Retrieval System for Learning Resources Based on Subject 
Knowledge Ontology. International Conference on Computer Science, 
Electronics and Communication Engineering (CSECE 2018). Atlantis Press, pp. 
467-469. 
Xiao, J., Wang, M., Jiang, B. and Li, J., 2018. A personalized recommendation system 
with combinational algorithm for online learning. Journal of Ambient 
Intelligence and Humanized Computing. 9(3): 667-677. 
Yang, Y. and Liu, X., 1999, A re-examination of text categorization methods. In. 
Proceedings of the 22nd annual international ACM SIGIR conference on 
128 
Research and development in information retrieval, Berkeley, California, USA. 
ACM. 312647, 42-49. 
Yu, B., 2019. Research on information retrieval model based on ontology. EURASIP 
Journal on Wireless Communications and Networking. 2019(1): 30. 
Zhang, D. and Lee, W. S., 2003, Question classification using support vector machines. 
In. Proceedings of the 26th annual international ACM SIGIR conference on 
Research and development in informaion retrieval, Toronto, Canada. ACM. 
860443, 26-32. 
Zhang, F., Song, J. and Peng, S., 2018. Deep Matrix Factorization for Recommender 
Systems with Missing Data not at Random. Journal of Physics: Conference 
Series. 1060: 012001-012001. 
Zhang, L., Luo, T., Zhang, F. and Wu, Y., 2018. A Recommendation Model Based on 
Deep Neural Network. IEEE Access. 6: 9454-9463. 
Zhang, S., Yao, L., Sun, A. and Tay, Y., 2019. Deep Learning Based Recommender 
System: A Survey and New Perspectives. ACM Comput. Surv. 52(1): Article 5. 
Zulqarnain Muhammad, Ghazali, R., Mazwin, Y. and Rehan, M., 2020. A comparative 
review on deep learning models for text classification. 
129 
PHỤ LỤC 1. TĂNG TỐC XỬ LÝ DỮ LIỆU BẰNG KỸ THUẬT 
XỬ LÝ DỮ LIỆU LỚN 
1.1. Mô hình đề xuất 
Nghiên cứu này đề xuất giải pháp nhằm tăng tốc độ xử lý dữ liệu phục vụ tìm kiếm 
sử dụng kỹ thuật xử lý dữ liệu lớn dựa trên nền tảng Hadoop cùng với các kỹ thuật xử 
lý văn bản như đề cập. Mô hình tổng quát hệ thống tìm kiếm tài liệu được mô tả như 
Hình 1.1. 
Hình 1.1: Mô hình tìm kiếm tài liệu sử dụng Hadoop MapReduce 
Mô hình này gồm ba bộ phận chính là bộ phận phân tích văn bản, bộ phận lập chỉ 
mục, bộ phận so khớp và sắp xếp các tài liệu trả về. Bộ phận phân tích văn bản có nhiệm 
vụ phân tích văn bản thu thập được hoặc câu truy vấn thành các từ riêng biệt. Bộ phận 
lập chỉ mục gồm các từ được thu thập từ bộ phận phân tích văn bản được lựa chọn để 
làm chỉ mục. Giai đoạn phân tích văn bản, lập chỉ mục được thực hiện trên Hadoop 
MapReduce nhằm tận dụng sức mạnh xử lý song song và phân tán trên cụm máy tính. 
Đối với bộ phận so khớp và sắp xếp tài liệu trả về, các từ trích được từ câu truy 
vấn và các từ trong chỉ mục của văn bản sẽ được so khớp với nhau để tìm ra các tài liệu 
liên quan đến câu truy vấn. Mỗi tài liệu có độ tương quan với câu truy vấn, các tài liệu 
này sẽ được sắp xếp theo độ tương quan giảm dần và trả về cho người dùng. 
Để thực hiện tìm kiếm, tài liệu đầu vào gồm câu truy vấn và tài nguyên học tập 
được tiền xử lý, tính trọng số TF-IDF, lập chỉ mục sử dụng mô hình không gian véc-tơ 
trước khi tính độ tương đồng cosine để so khớp trả về kết quả tìm kiếm. 
130 
1.2. Mô tả dữ liệu 
Mô hình tìm kiếm được đề xuất có thể sử dụng tìm kiếm nhiều dạng tài nguyên 
học tập như sách, giáo trình, bài giảng, bài báo khoa học, Nghiên cứu này thử nghiệm 
trên các đề cương môn môn học có sẵn. Tập dữ liệu gồm 2.829 tập tin đề cương môn 
học của Trường Đại học Cần Thơ. Để thực hiện tìm kiếm, tài liệu đầu vào gồm câu truy 
vấn và tài nguyên học tập được tiền xử lý như để lọc thông tin thừa (mục tiêu, nội dung 
môn học), chuyển tài liệu về dạng thuần văn bản (text), tách từ, loại bỏ từ dừng, tính 
trọng số TF-IDF, lập chỉ mục sử dụng mô hình không gian véc-tơ trước khi tính độ 
tương đồng để so khớp trả về kết quả tìm kiếm. Trong nghiên cứu này góc giữa tài liệu 
và câu truy vấn để đo độ tương đồng giữa hai tài liệu trong không gian véc-tơ được sử 
dụng. 
1.3. Kết quả thực nghiệm 
Phần này không đề cập về hiệu quả của việc tìm kiếm dựa trên độ đo tương đồng 
cosine giữa véc-tơ truy vấn với véc-tơ tài liệu do đã trình bày ở phần trước, mà chỉ đề 
cập đến tốc độ tìm kiếm khi sử dụng nền tảng Hadoop MapReduce. 
Để phục vụ cho quá trình thử nghiệm, nghiên cứu này đã sử dụng phần cứng và hệ 
điều hành gồm: CPU Intel® Core™ i5-4460 3.20GHz, 8GB RAM, triển khai trên hệ 
điều hành Ubuntu-20.04, bộ nhớ 20GB cho mỗi node máy chủ master và slave. Ngoài 
ra, ngôn ngữ lập trình Python 3.6, tính toán dữ liệu phân tán với Hadoop 3.2.0, công cụ 
tách từ tài liệu tiếng Việt Underthesea 1.1.17 cũng được sử dụng. 
Kết quả thực nghiệm cho thấy, hệ thống dựa trên nền tảng Hadoop MapReduce có 
kết quả xử lý dữ liệu tìm kiếm nhanh hơn nhiều so với hệ thống thông thường do sức 
mạnh của xử lý song song và phân tán của một cụm máy tính. Thực nghiệm được thực 
hiện trên tập dữ liệu với 2.829 tập tin đề cương môn học của Trường Đại học Cần Thơ 
để kiểm tra tốc độ xử lý toàn bộ tài liệu với số lượng máy chủ tăng dần từ 1 đến 3 máy. 
Kết quả đo lường thời gian được trình bày như Bảng 1.1: 
Bảng 1.1: So sánh thời gian thực hiện xử lý dữ liệu 
Stt Số lượng máy chủ Thời gian (%) 
1 Xử lý trên 01 máy chủ 100,0% 
2 Xử lý trên 02 máy chủ 73,6% 
3 Xử lý trên 03 máy chủ 43,4% 
Bảng 1.1 cho thấy với tập dữ liệu cố định, khi số lượng máy chủ tham gia tăng thì 
thời gian xử lý giảm dần. Cụ thể, khi sử dụng hai máy chủ thì thời gian xử lý dữ liệu và 
tìm kiếm thông tin giảm còn 73,6% so với một máy chủ; khi sử dụng ba máy chủ thì 
thời gian giảm còn 43,4% so với một máy chủ. Điều đó cho thấy, việc áp dụng nền tảng 
Hadoop MapReduce là một giải pháp tích cực giúp tăng tốc độ xử lý dữ liệu phân tán 
trên nhiều máy chủ khác nhau, làm tăng tốc độ tìm kiếm thông tin. 
131 
PHỤ LỤC 2. MÔ HÌNH DỰ ĐOÁN KẾT QUẢ HỌC TẬP 
2.1. Mô hình đề xuất 
Mô hình đề xuất được thể hiện ở Hình 2.1. Quan sát mô hình có thể thấy mô hình 
đề xuất dự đoán bao gồm 4 bước. Ở bước đầu tiên, toàn bộ tập dữ liệu được chia thành 
các tập huấn luyện và kiểm tra dựa trên thời gian, trong đó tập huấn luyện từ năm 2007 
đến 2017, tập kiểm tra từ năm 2018 đến 2020. Bước hai thực hiện tính điểm trung bình 
cho toàn bộ sinh viên trên tập huấn luyện để huấn luyện bốn mô hình khác nhau dựa 
trên các mức điểm xếp loại (bao gồm các mô hình: Excellent, Very Good, Good, Fairly). 
Bước ba phân chia sinh viên theo nhóm điểm trung bình; đối với mỗi nhóm, lấy điểm 
toàn bộ các môn của tất cả sinh viên trong nhóm đó. Ở bước cuối, sau khi xây dựng bốn 
mô hình dựa trên các mức điểm xếp loại, thực hiện tải tập dữ liệu kiểm tra vào một trong 
bốn mô hình dựa trên điểm trung bình của sinh viên để dự đoán điểm cho mỗi sinh viên. 
Hình 2.1: Mô hình đề xuất dựa trên các mức xếp loại điểm 
Kết quả sau khi dự đoán trả về là một trong 8 mức điểm theo quy định trong khoảng 
từ 0 đến 4. Các bước trên được tóm tắt như Giải thuật 2.1. 
Giải thuật 2.1: Các bước phân chia dữ liệu để xây dựng 4 mô hình dựa trên GPA 1 Begin 2 Bước 1: Chia toàn bộ tập dữ liệu thành tập train và test dựa vào thời gian. Tập 
train từ 2007 đến 2017, tập test từ 2018 đến 2020 3 Bước 2: Trên tập train, tính điểm trung bình từng sinh viên trên toàn bộ sinh viên 
4 Bước 3: Chia theo điểm trung bình tích lũy. Cụ thể: + Excellent model: GPA >= 3,6 + Very good model: 3,2 ≤ GPA < 3,6 + Good model: 2,5 ≤ GPA < 3,2 + Fairly model: GPA < 2,5 
Với mỗi nhóm, chọn điểm của tất cả sinh viên vào nhóm đó 5 Bước 4: Huấn luyện riêng cho từng nhóm tương ứng dãy điểm như Bước 3. 6 End 
132 
2.2. Mô tả dữ liệu 
Để đánh giá mô hình đề xuất, dữ liệu được thu thập tập thực tế từ hệ thống quản 
lý sinh viên của một trường đại học. Dữ liệu thu thập liên quan đến sinh viên, khóa học, 
điểm và các thông tin khác từ năm 2007 đến năm 2020 với hơn 4,5 triệu mẫu tin. Phân 
bố dữ liệu về điểm của tập huấn luyện và tập kiểm tra của sinh viên được mô tả trong 
Hình 2.2 và Hình 2.3. 
Hình 2.2: Phân bố các mức điểm của tập huấn luyện 
Hình 2.3: Phân bố các mức điểm của tập kiểm tra 
Phương pháp tiền xử lý dữ liệu được thực hiện tương tự các nghiên cứu trước đó 
được trình bày trong luận án này, như loại bỏ các thuộc tính dư thừa từ tập tập dữ liệu 
gốc của hệ thống quản lý sinh viên và dữ liệu gây nhiễu trước khi chuyển các thuộc tính 
từ chuỗi sang giá trị số. 
2.3. Kết quả thực nghiệm 
Nghiên cứu này cũng cài đặt các thông số kỹ thuật gồm server 72 core và 320 GB 
RAM được cài đặt hệ điều hành Ubuntu 20.4; ngôn ngữ lập trình Python 3.7 cùng với 
các thư viện của deep learning hỗ trợ các tiến trình triển khai các thực nghiệm. 
133 
Tập dữ liệu ban đầu được chia thành tập huấn luyện và tập kiểm tra dựa trên thời 
gian. Tập dữ liệu tập huấn có khoảng 3,8 triệu mẫu tin về điểm trong khoảng thời gian 
từ năm 2007 đến 2017, trong khi tập dữ liệu kiểm tra khoảng 656 ngàn mẫu tin về điểm 
từ năm 2018 đến 2020. 
Giải thuật hồi quy rừng ngẫu nhiên sử dụng 80 cây, số lượng mẫu tối thiểu cần 
thiết để tách một nút là 30 và độ sâu tối đa của cây là 30. Hai độ đo lỗi MAE và RMSE 
được sử dụng cho mô hình với tất cả sinh viên cũng như bốn mô hình đề xuất chia theo 
4 mức xếp loại điểm, kết quả được biểu diễn như Hình 2.4. 
Hình 2.4: So sánh MAE và RMSE giữa RF và bốn mô hình với RF 
Thực nghiệm cho thấy, với một mô hình thì MAE cho kết quả là 0,5567, trong khi 
độ lỗi của phương pháp đề xuất với bốn mô hình thì MAE giảm xuống còn 0,4525. Với 
độ đo lỗi RMSE thì phương pháp đề xuất bốn mô hình có sự cải thiện đáng kể, khoảng 
22% so với cách tiếp cận một mô hình. Như vậy, việc phân chia tập dữ liệu để huấn 
luyện bốn mô hình dựa trên bốn mức điểm tích lũy được kỳ vọng cải thiện đáng kể dự 
đoán kết quả học tập của sinh viên. 

File đính kèm:

  • pdfluan_an_xay_dung_mo_hinh_tim_kiem_va_goi_y_tai_nguyen_hoc_ta.pdf
  • pdf2-TomtatLuanan_VN_TranThanhDien.pdf
  • pdf3-TomtatLuanan_EN_TranThanhDien.pdf
  • docx4-ThongtinLuanan_VN_TranThanhDien.docx
  • docx5-ThongtinLuanan_EN_TranThanhDien.docx