Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập

Trong thời gian qua, cùng với sự phát triển rất nhanh của công nghệ thông tin và công

nghệ hỗ trợ giáo dục trực tuyến, nhu cầu học tập mở ngày càng gia tăng, trong đó có học

tập trực tuyến nhằm ứng phó với những thay đổi của thực tế, đặc biệt trong bối cảnh hạn

chế tiếp xúc trực tiếp giữa người dạy và người học do tình hình dịch bệnh và nhiều lý do

khác. Trong luận án này, các giải pháp mới được đề xuất nhằm cung cấp tài nguyên học

tập đáp ứng tốt hơn nhu cầu và năng lực của người học. Các nghiên cứu được thực hiện

với các đóng góp được trình bày sau đây.

Đầu tiên, cách tiếp cận dựa trên kỹ thuật học sâu với mạng nơ-ron truyền thẳng đa

tầng MLP được đề xuất đùng để phân loại tài nguyên học tập, phục vụ cho quá trình tìm

kiếm tài nguyên. Trong thực nghiệm, mô hình phân loại với kỹ thuật MLP cũng được so

sánh với các kỹ thuật học máy khác; kết quả cho thấy cách tiếp cận này cho kết quả phân

loại khả thi và hiệu quả hơn các kỹ thuật truyền thống trên cùng tập dữ liệu, đặc biệt là dữ

liệu mất cân bằng.

Thứ hai, hai cách tiếp cận tìm kiếm tài nguyên học tập có quan tâm vấn đề ngữ nghĩa

được đề xuất, đó là tìm kiếm dựa trên sự tương đồng về nội dung văn bản và dựa trên mạng

ngữ nghĩa ontology. Ở mỗi cách tiếp cận, truy vấn được phân loại để xác định lĩnh vực

nhằm thu hẹp không gian tìm kiếm trước khi tìm trên lĩnh vực tương ứng của tài nguyên

học tập được xây dựng sẵn. Kết quả thực nghiệm cho thấy, các cách tiếp cận này khả thi

để xây dựng mô hình tìm kiếm tài nguyên học tập, đặc biệt là tìm kiếm có quan tâm vấn

đề ngữ nghĩa.

Thứ ba, các mô hình dự đoán kết quả học tập đề xuất với ba cách tiếp cận dựa trên

các kỹ thuật học sâu, gồm xây dựng mô hình dự đoán cho toàn bộ sinh viên sử dụng mạng

nơ-ron tích chập CNN, mô hình dự đoán theo nhóm năng lực học tập sử dụng mạng nơ-

ron đa tầng MLP và kỹ thuật học máy rừng ngẫu nhiên RF, và mô hình dự đoán theo từng

sinh viên sử dụng bộ nhớ ngắn dài hạn LSTM. Các kết quả thực nghiệm cho thấy các mô

hình được đề xuất cho kết quả dự đoán khá tốt, đặc biệt khi sử dụng kỹ thuật tiền xử lý dữ

liệu trước khi đưa vào mô hình học dự đoán.

Cuối cùng, mô hình gợi ý tài nguyên học tập sử dụng kỹ thuật phân rã ma trận sâu

DMF, được mở rộng từ kỹ thuật phân rã ma trận chuẩn MF, được đề xuất. Mô hình được

kiểm chứng trên nhiều tập dữ liệu về tài nguyên học tập và kết quả học tập của sinh viên,

cũng như so sánh với các kỹ thuật khác của hệ thống gợi ý. Kết quả cho thấy mô hình DMF

có hiệu suất dự đoán xếp hạng khá tốt so với các kỹ thuật khác, từ đó có thể sử dụng để gợi

ý tài nguyên học tập phù hợp với năng lực người học.

148 trang chauphong 27221

Download

Bạn đang xem 20 trang mẫu của tài liệu "Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CẦN THƠ
TRẦN THANH ĐIỆN
XÂY DỰNG MÔ HÌNH TÌM KIẾM
VÀ GỢI Ý TÀI NGUYÊN HỌC TẬP
LUẬN ÁN TIẾN SĨ
CHUYÊN NGÀNH HỆ THỐNG THÔNG TIN
MÃ SỐ 62 48 01 04
2022
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CẦN THƠ
TRẦN THANH ĐIỆN
MÃ SỐ NCS: P1617001
XÂY DỰNG MÔ HÌNH TÌM KIẾM
VÀ GỢI Ý TÀI NGUYÊN HỌC TẬP
LUẬN ÁN TIẾN SĨ
CHUYÊN NGÀNH HỆ THỐNG THÔNG TIN
MÃ SỐ 62 48 01 04
NGƯỜI HƯỚNG DẪN
PGS.TS. NGUYỄN THÁI NGHE
2022
1
LỜI CẢM TẠ
Để hoàn thành được luận án này, tôi đã nhận được sự quan tâm, giúp đỡ và hướng
dẫn nhiệt tình từ quý Thầy Cô thuộc Khoa Công nghệ Thông tin và Truyền thông, Trường
Đại học Cần Thơ và sự hỗ trợ tích cực của đồng nghiệp.
Đặc biệt, tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến PGS.TS. Nguyễn Thái
Nghe đã tận tình chỉ dẫn, động viên và tạo mọi điều kiện thuận lợi nhất cho tôi trong suốt
quá trình học tập và nghiên cứu.
Tôi cũng xin gửi lời cảm ơn đến TS. Nguyễn Thanh Hải đã hỗ trợ tôi trong quá trình
triển khai các thực nghiệm của nghiên cứu.
Xin chân thành cảm ơn quý Thầy Cô đã truyền đạt thêm nhiều kiến thức, quan tâm,
hỗ trợ và tạo mọi điều kiện cho tôi trong quá trình học tập tại Khoa Công nghệ Thông tin
và Truyền thông thân yêu, nơi tôi theo học đại học giai đoạn 1993-1998.
Xin gửi lời cảm ơn chân thành đến Lãnh đạo Nhà trường, Ban Giám đốc Trung tâm
Thông tin và Quản trị mạng, Nhà xuất bản Đại học Cần Thơ và đồng nghiệp đã tạo điều
kiện để tôi được học tập nâng cao trình độ chuyên môn và giúp đỡ tôi trong suốt thời gian
học tập.
Sau cùng tôi xin chân thành cảm ơn đến gia đình và người thân đã chia sẻ, động viên
và tạo điều kiện tốt nhất để tôi có thể hoàn thành luận án này.
2
TÓM TẮT
Trong thời gian qua, cùng với sự phát triển rất nhanh của công nghệ thông tin và công
nghệ hỗ trợ giáo dục trực tuyến, nhu cầu học tập mở ngày càng gia tăng, trong đó có học
tập trực tuyến nhằm ứng phó với những thay đổi của thực tế, đặc biệt trong bối cảnh hạn
chế tiếp xúc trực tiếp giữa người dạy và người học do tình hình dịch bệnh và nhiều lý do
khác. Trong luận án này, các giải pháp mới được đề xuất nhằm cung cấp tài nguyên học
tập đáp ứng tốt hơn nhu cầu và năng lực của người học. Các nghiên cứu được thực hiện
với các đóng góp được trình bày sau đây.
Đầu tiên, cách tiếp cận dựa trên kỹ thuật học sâu với mạng nơ-ron truyền thẳng đa
tầng MLP được đề xuất đùng để phân loại tài nguyên học tập, phục vụ cho quá trình tìm
kiếm tài nguyên. Trong thực nghiệm, mô hình phân loại với kỹ thuật MLP cũng được so
sánh với các kỹ thuật học máy khác; kết quả cho thấy cách tiếp cận này cho kết quả phân
loại khả thi và hiệu quả hơn các kỹ thuật truyền thống trên cùng tập dữ liệu, đặc biệt là dữ
liệu mất cân bằng.
Thứ hai, hai cách tiếp cận tìm kiếm tài nguyên học tập có quan tâm vấn đề ngữ nghĩa
được đề xuất, đó là tìm kiếm dựa trên sự tương đồng về nội dung văn bản và dựa trên mạng
ngữ nghĩa ontology. Ở mỗi cách tiếp cận, truy vấn được phân loại để xác định lĩnh vực
nhằm thu hẹp không gian tìm kiếm trước khi tìm trên lĩnh vực tương ứng của tài nguyên
học tập được xây dựng sẵn. Kết quả thực nghiệm cho thấy, các cách tiếp cận này khả thi
để xây dựng mô hình tìm kiếm tài nguyên học tập, đặc biệt là tìm kiếm có quan tâm vấn
đề ngữ nghĩa.
Thứ ba, các mô hình dự đoán kết quả học tập đề xuất với ba cách tiếp cận dựa trên
các kỹ thuật học sâu, gồm xây dựng mô hình dự đoán cho toàn bộ sinh viên sử dụng mạng
nơ-ron tích chập CNN, mô hình dự đoán theo nhóm năng lực học tập sử dụng mạng nơ-
ron đa tầng MLP và kỹ thuật học máy rừng ngẫu nhiên RF, và mô hình dự đoán theo từng
sinh viên sử dụng bộ nhớ ngắn dài hạn LSTM. Các kết quả thực nghiệm cho thấy các mô
hình được đề xuất cho kết quả dự đoán khá tốt, đặc biệt khi sử dụng kỹ thuật tiền xử lý dữ
liệu trước khi đưa vào mô hình học dự đoán.
Cuối cùng, mô hình gợi ý tài nguyên học tập sử dụng kỹ thuật phân rã ma trận sâu
DMF, được mở rộng từ kỹ thuật phân rã ma trận chuẩn MF, được đề xuất. Mô hình được
kiểm chứng trên nhiều tập dữ liệu về tài nguyên học tập và kết quả học tập của sinh viên,
cũng như so sánh với các kỹ thuật khác của hệ thống gợi ý. Kết quả cho thấy mô hình DMF
có hiệu suất dự đoán xếp hạng khá tốt so với các kỹ thuật khác, từ đó có thể sử dụng để gợi
ý tài nguyên học tập phù hợp với năng lực người học.
Từ khóa: Tài nguyên học tập, phân loại tài nguyên học tập, tìm kiếm tài nguyên học
tập, dự đoán kết quả học tập, gợi ý tài nguyên học tập, kỹ thuật học máy và học sâu.
3
ABSTRACT
In recent years, along with the rapid development of information technology, there
are various technologies that support for online education to effectively exploit available
learning resources to meet the needs of online learning, especially in the context of limited
face-to-face classes due to the epidemic situation as well as many other reasons. With the
continuous increase of those resources, it is a challenge for learners to be able to search for
suitable learning resources. In this dissertation, we propose state-of-the-art approaches to
help learners search learning resources meeting their needs and capacities. The
contributions of the thesis are presented as follows.
Firstly, an approach to use deep learning with Multilayer Perceptron (MLP) for the
classification tasks of learning resources is proposed. The experimental results show that
by using this approach, the results get even better than using other traditional machine
learning algorithms, especially on imbalanced datasets.
Secondly, approaches for searching learning resources based on document similarity
and based on semantics are proposed. For similarity-based searching, cosine similarity and
word-order similarity of the documents are combined. For semantic-based searching,
searching learning resources using ontologies is proposed. In both of the approaches, the
query is classified to determine the topic to aim narrowing the search topics before
searching on the corresponding one of the built-in learning resources. The experimental
results show that these approaches are feasible to build models for searching learning
resources related semantics.
Thirdly, student performance prediction models which are proposed based on three
approaches using deep learning techniques include a prediction model for all students using
a convolutional neural network (CNN), a group-based prediction model for students who
have similar learning performance using multilayer perceptron (MLP) and machine
learning technique of RF, and a prediction model for each student using long short-term
memory (LSTM). The experimental results show that the proposed methods provides good
prediction results. The results are feasible for applying to practical cases, especially when
the data are preprocessed before fetching them into the predictive learning model.
Finally, a deep matrix factorization (DMF) model extended from the standard matrix
factorization (MF) is proposed for learning resources recommendation. Two dataset groups
including datasets of learning resources and datasets of learning performance are used to
validate the model, and the model is also compared with other techniques of the
recommender system. The experimental results show that the proposed DMF model can
perform well on various datasets, especially large-scale datasets. It can be used for
recommending suitable learning resources for students.
Keywords: Learning resources, topic classification, learning resources searching,
performance prediction, learning resources recommendation, deep learning and machine
learning.
4
LỜI CAM ĐOAN
Tôi tên Trần Thanh Điện, là nghiên cứu sinh ngành Hệ thống thông tin, khóa 2017.
Tôi xin cam đoan luận án này là công trình nghiên cứu khoa học thực sự của bản thân tôi
dưới sự hướng dẫn của PGS.TS. Nguyễn Thái Nghe.
Các thông tin được sử dụng tham khảo trong luận án được thu thập từ các nguồn đáng
tin cậy, đã được kiểm chứng, được công bố rộng rãi và được tôi trích dẫn nguồn gốc rõ
ràng ở phần danh mục tài liệu tham khảo. Các kết quả nghiên cứu được trình bày trong
luận án này là do chính tôi thực hiện một cách nghiêm túc, trung thực và không trùng lắp
với các đề tài khác đã được công bố trước đây.
Tôi xin lấy danh dự và uy tín của bản thân để đảm bảo cho lời cam đoan này.
Cần Thơ, ngày tháng 01 năm 2022
Người hướng dẫn Nghiên cứu sinh
Nguyễn Thái Nghe Trần Thanh Điện
5
MỤC LỤC
CHƯƠNG 1. GIỚI THIỆU ............................................................................................ 1
1.1. Tính cấp thiết của nghiên cứu ........................................................................... 1
1.2. Mục tiêu, đối tượng, phạm vi và phương pháp nghiên cứu .............................. 3
1.3. Nội dung nghiên cứu và hướng tiếp cận của luận án ........................................ 3
1.3.1. Xây dựng mô hình phân loại tài nguyên học tập ............................................ 5
1.3.2. Xây dựng mô hình tìm kiếm tài nguyên học tập ............................................. 5
1.3.3. Xây dựng mô hình dự đoán kết quả học tập ................................................... 6
1.3.4. Xây dựng mô hình gợi ý tài nguyên học tập ................................................... 6
1.4. Các đóng góp của luận án ................................................................................. 7
1.5. Bố cục của luận án ............................................................................................ 8
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN ......... 10
2.1. Khái quát về hệ thống quản lý tài nguyên học tập .......................................... 10
2.1.1. Tài nguyên học tập và hệ thống quản lý tài nguyên học tập ......................... 10
2.1.2. Hệ thống quản lý tài nguyên học tập có quan tâm ngữ nghĩa ....................... 10
2.1.3. Hệ thống gợi ý tài nguyên học tập ................................................................ 10
2.2. Một số kỹ thuật phân loại văn bản .................................................................. 11
2.2.1. Phân loại với máy véc-tơ hỗ trợ SVM .......................................................... 12
2.2.2. Phân loại sử dụng giải thuật cây quyết định và rừng ngẫu nhiên ................. 14
2.2.3. Phân loại với các kỹ thuật học sâu ................................................................ 14
2.3. Các kỹ thuật tính toán độ tương đồng văn bản ............................................... 15
2.3.1. Độ tương đồng ............................................................................................... 15
2.3.2. Một số phương pháp tính độ tương đồng văn bản ........................................ 15
2.4. Các kỹ thuật xây dựng mạng ngữ nghĩa phục vụ tìm kiếm ............................ 17
2.4.1. Khái quát về web ngữ nghĩa......... ... sources (OER. Available
from https://en.unesco.org/themes/building-knowledge-societies/oer
Versloot, C., 2019. Leaky ReLU: improving traditional ReLU, accessed on 2021.
Available from https://www.machinecurve.com/index.php/2019/10/15/leaky-
relu-improving-traditional-relu/
Vnexpress, 2020. accessed on 20/2/2020. Available from https://vnexpress.net/
W3C, 2006. DOME, accessed on 2019. Available from
https://www.w3.org/2001/sw/wiki/DOME.
W3C, 2009. OWL Web Ontology Language Overview, accessed on 2019. Available
from
W3C, 2012. Knoodl, accessed on 2019. Available from
https://www.w3.org/2001/sw/wiki/Knoodl
Wali, W., Gargouri, B. and Ben Hamadou, A., 2020. An Enhanced Plagiarism Detection
Based on Syntactico-Semantic Knowledge. Intelligent Systems Design and
Applications. Springer International Publishing, Cham, pp. 264-274.
Weiss, G. M., 2019. Sample Weka Data Sets, accessed on 18/1/2020. Available from
https://storm.cis.fordham.edu/gweiss/data-mining/datasets.html
Winkler, W. E., 1990. String Comparator Metrics and Enhanced Decision Rules in the
Fellegi-Sunter Model of Record Linkage.
Wu, B., 2018. The Semantic Retrieval System for Learning Resources Based on Subject
Knowledge Ontology. International Conference on Computer Science,
Electronics and Communication Engineering (CSECE 2018). Atlantis Press, pp.
467-469.
Xiao, J., Wang, M., Jiang, B. and Li, J., 2018. A personalized recommendation system
with combinational algorithm for online learning. Journal of Ambient
Intelligence and Humanized Computing. 9(3): 667-677.
Yang, Y. and Liu, X., 1999, A re-examination of text categorization methods. In.
Proceedings of the 22nd annual international ACM SIGIR conference on
128
Research and development in information retrieval, Berkeley, California, USA.
ACM. 312647, 42-49.
Yu, B., 2019. Research on information retrieval model based on ontology. EURASIP
Journal on Wireless Communications and Networking. 2019(1): 30.
Zhang, D. and Lee, W. S., 2003, Question classification using support vector machines.
In. Proceedings of the 26th annual international ACM SIGIR conference on
Research and development in informaion retrieval, Toronto, Canada. ACM.
860443, 26-32.
Zhang, F., Song, J. and Peng, S., 2018. Deep Matrix Factorization for Recommender
Systems with Missing Data not at Random. Journal of Physics: Conference
Series. 1060: 012001-012001.
Zhang, L., Luo, T., Zhang, F. and Wu, Y., 2018. A Recommendation Model Based on
Deep Neural Network. IEEE Access. 6: 9454-9463.
Zhang, S., Yao, L., Sun, A. and Tay, Y., 2019. Deep Learning Based Recommender
System: A Survey and New Perspectives. ACM Comput. Surv. 52(1): Article 5.
Zulqarnain Muhammad, Ghazali, R., Mazwin, Y. and Rehan, M., 2020. A comparative
review on deep learning models for text classification.
129
PHỤ LỤC 1. TĂNG TỐC XỬ LÝ DỮ LIỆU BẰNG KỸ THUẬT
XỬ LÝ DỮ LIỆU LỚN
1.1. Mô hình đề xuất
Nghiên cứu này đề xuất giải pháp nhằm tăng tốc độ xử lý dữ liệu phục vụ tìm kiếm
sử dụng kỹ thuật xử lý dữ liệu lớn dựa trên nền tảng Hadoop cùng với các kỹ thuật xử
lý văn bản như đề cập. Mô hình tổng quát hệ thống tìm kiếm tài liệu được mô tả như
Hình 1.1.
Hình 1.1: Mô hình tìm kiếm tài liệu sử dụng Hadoop MapReduce
Mô hình này gồm ba bộ phận chính là bộ phận phân tích văn bản, bộ phận lập chỉ
mục, bộ phận so khớp và sắp xếp các tài liệu trả về. Bộ phận phân tích văn bản có nhiệm
vụ phân tích văn bản thu thập được hoặc câu truy vấn thành các từ riêng biệt. Bộ phận
lập chỉ mục gồm các từ được thu thập từ bộ phận phân tích văn bản được lựa chọn để
làm chỉ mục. Giai đoạn phân tích văn bản, lập chỉ mục được thực hiện trên Hadoop
MapReduce nhằm tận dụng sức mạnh xử lý song song và phân tán trên cụm máy tính.
Đối với bộ phận so khớp và sắp xếp tài liệu trả về, các từ trích được từ câu truy
vấn và các từ trong chỉ mục của văn bản sẽ được so khớp với nhau để tìm ra các tài liệu
liên quan đến câu truy vấn. Mỗi tài liệu có độ tương quan với câu truy vấn, các tài liệu
này sẽ được sắp xếp theo độ tương quan giảm dần và trả về cho người dùng.
Để thực hiện tìm kiếm, tài liệu đầu vào gồm câu truy vấn và tài nguyên học tập
được tiền xử lý, tính trọng số TF-IDF, lập chỉ mục sử dụng mô hình không gian véc-tơ
trước khi tính độ tương đồng cosine để so khớp trả về kết quả tìm kiếm.
130
1.2. Mô tả dữ liệu
Mô hình tìm kiếm được đề xuất có thể sử dụng tìm kiếm nhiều dạng tài nguyên
học tập như sách, giáo trình, bài giảng, bài báo khoa học, Nghiên cứu này thử nghiệm
trên các đề cương môn môn học có sẵn. Tập dữ liệu gồm 2.829 tập tin đề cương môn
học của Trường Đại học Cần Thơ. Để thực hiện tìm kiếm, tài liệu đầu vào gồm câu truy
vấn và tài nguyên học tập được tiền xử lý như để lọc thông tin thừa (mục tiêu, nội dung
môn học), chuyển tài liệu về dạng thuần văn bản (text), tách từ, loại bỏ từ dừng, tính
trọng số TF-IDF, lập chỉ mục sử dụng mô hình không gian véc-tơ trước khi tính độ
tương đồng để so khớp trả về kết quả tìm kiếm. Trong nghiên cứu này góc giữa tài liệu
và câu truy vấn để đo độ tương đồng giữa hai tài liệu trong không gian véc-tơ được sử
dụng.
1.3. Kết quả thực nghiệm
Phần này không đề cập về hiệu quả của việc tìm kiếm dựa trên độ đo tương đồng
cosine giữa véc-tơ truy vấn với véc-tơ tài liệu do đã trình bày ở phần trước, mà chỉ đề
cập đến tốc độ tìm kiếm khi sử dụng nền tảng Hadoop MapReduce.
Để phục vụ cho quá trình thử nghiệm, nghiên cứu này đã sử dụng phần cứng và hệ
điều hành gồm: CPU Intel® Core™ i5-4460 3.20GHz, 8GB RAM, triển khai trên hệ
điều hành Ubuntu-20.04, bộ nhớ 20GB cho mỗi node máy chủ master và slave. Ngoài
ra, ngôn ngữ lập trình Python 3.6, tính toán dữ liệu phân tán với Hadoop 3.2.0, công cụ
tách từ tài liệu tiếng Việt Underthesea 1.1.17 cũng được sử dụng.
Kết quả thực nghiệm cho thấy, hệ thống dựa trên nền tảng Hadoop MapReduce có
kết quả xử lý dữ liệu tìm kiếm nhanh hơn nhiều so với hệ thống thông thường do sức
mạnh của xử lý song song và phân tán của một cụm máy tính. Thực nghiệm được thực
hiện trên tập dữ liệu với 2.829 tập tin đề cương môn học của Trường Đại học Cần Thơ
để kiểm tra tốc độ xử lý toàn bộ tài liệu với số lượng máy chủ tăng dần từ 1 đến 3 máy.
Kết quả đo lường thời gian được trình bày như Bảng 1.1:
Bảng 1.1: So sánh thời gian thực hiện xử lý dữ liệu
Stt Số lượng máy chủ Thời gian (%)
1 Xử lý trên 01 máy chủ 100,0%
2 Xử lý trên 02 máy chủ 73,6%
3 Xử lý trên 03 máy chủ 43,4%
Bảng 1.1 cho thấy với tập dữ liệu cố định, khi số lượng máy chủ tham gia tăng thì
thời gian xử lý giảm dần. Cụ thể, khi sử dụng hai máy chủ thì thời gian xử lý dữ liệu và
tìm kiếm thông tin giảm còn 73,6% so với một máy chủ; khi sử dụng ba máy chủ thì
thời gian giảm còn 43,4% so với một máy chủ. Điều đó cho thấy, việc áp dụng nền tảng
Hadoop MapReduce là một giải pháp tích cực giúp tăng tốc độ xử lý dữ liệu phân tán
trên nhiều máy chủ khác nhau, làm tăng tốc độ tìm kiếm thông tin.
131
PHỤ LỤC 2. MÔ HÌNH DỰ ĐOÁN KẾT QUẢ HỌC TẬP
2.1. Mô hình đề xuất
Mô hình đề xuất được thể hiện ở Hình 2.1. Quan sát mô hình có thể thấy mô hình
đề xuất dự đoán bao gồm 4 bước. Ở bước đầu tiên, toàn bộ tập dữ liệu được chia thành
các tập huấn luyện và kiểm tra dựa trên thời gian, trong đó tập huấn luyện từ năm 2007
đến 2017, tập kiểm tra từ năm 2018 đến 2020. Bước hai thực hiện tính điểm trung bình
cho toàn bộ sinh viên trên tập huấn luyện để huấn luyện bốn mô hình khác nhau dựa
trên các mức điểm xếp loại (bao gồm các mô hình: Excellent, Very Good, Good, Fairly).
Bước ba phân chia sinh viên theo nhóm điểm trung bình; đối với mỗi nhóm, lấy điểm
toàn bộ các môn của tất cả sinh viên trong nhóm đó. Ở bước cuối, sau khi xây dựng bốn
mô hình dựa trên các mức điểm xếp loại, thực hiện tải tập dữ liệu kiểm tra vào một trong
bốn mô hình dựa trên điểm trung bình của sinh viên để dự đoán điểm cho mỗi sinh viên.
Hình 2.1: Mô hình đề xuất dựa trên các mức xếp loại điểm
Kết quả sau khi dự đoán trả về là một trong 8 mức điểm theo quy định trong khoảng
từ 0 đến 4. Các bước trên được tóm tắt như Giải thuật 2.1.
Giải thuật 2.1: Các bước phân chia dữ liệu để xây dựng 4 mô hình dựa trên GPA 1 Begin 2 Bước 1: Chia toàn bộ tập dữ liệu thành tập train và test dựa vào thời gian. Tập
train từ 2007 đến 2017, tập test từ 2018 đến 2020 3 Bước 2: Trên tập train, tính điểm trung bình từng sinh viên trên toàn bộ sinh viên
4 Bước 3: Chia theo điểm trung bình tích lũy. Cụ thể: + Excellent model: GPA >= 3,6 + Very good model: 3,2 ≤ GPA < 3,6 + Good model: 2,5 ≤ GPA < 3,2 + Fairly model: GPA < 2,5
Với mỗi nhóm, chọn điểm của tất cả sinh viên vào nhóm đó 5 Bước 4: Huấn luyện riêng cho từng nhóm tương ứng dãy điểm như Bước 3. 6 End
132
2.2. Mô tả dữ liệu
Để đánh giá mô hình đề xuất, dữ liệu được thu thập tập thực tế từ hệ thống quản
lý sinh viên của một trường đại học. Dữ liệu thu thập liên quan đến sinh viên, khóa học,
điểm và các thông tin khác từ năm 2007 đến năm 2020 với hơn 4,5 triệu mẫu tin. Phân
bố dữ liệu về điểm của tập huấn luyện và tập kiểm tra của sinh viên được mô tả trong
Hình 2.2 và Hình 2.3.
Hình 2.2: Phân bố các mức điểm của tập huấn luyện
Hình 2.3: Phân bố các mức điểm của tập kiểm tra
Phương pháp tiền xử lý dữ liệu được thực hiện tương tự các nghiên cứu trước đó
được trình bày trong luận án này, như loại bỏ các thuộc tính dư thừa từ tập tập dữ liệu
gốc của hệ thống quản lý sinh viên và dữ liệu gây nhiễu trước khi chuyển các thuộc tính
từ chuỗi sang giá trị số.
2.3. Kết quả thực nghiệm
Nghiên cứu này cũng cài đặt các thông số kỹ thuật gồm server 72 core và 320 GB
RAM được cài đặt hệ điều hành Ubuntu 20.4; ngôn ngữ lập trình Python 3.7 cùng với
các thư viện của deep learning hỗ trợ các tiến trình triển khai các thực nghiệm.
133
Tập dữ liệu ban đầu được chia thành tập huấn luyện và tập kiểm tra dựa trên thời
gian. Tập dữ liệu tập huấn có khoảng 3,8 triệu mẫu tin về điểm trong khoảng thời gian
từ năm 2007 đến 2017, trong khi tập dữ liệu kiểm tra khoảng 656 ngàn mẫu tin về điểm
từ năm 2018 đến 2020.
Giải thuật hồi quy rừng ngẫu nhiên sử dụng 80 cây, số lượng mẫu tối thiểu cần
thiết để tách một nút là 30 và độ sâu tối đa của cây là 30. Hai độ đo lỗi MAE và RMSE
được sử dụng cho mô hình với tất cả sinh viên cũng như bốn mô hình đề xuất chia theo
4 mức xếp loại điểm, kết quả được biểu diễn như Hình 2.4.
Hình 2.4: So sánh MAE và RMSE giữa RF và bốn mô hình với RF
Thực nghiệm cho thấy, với một mô hình thì MAE cho kết quả là 0,5567, trong khi
độ lỗi của phương pháp đề xuất với bốn mô hình thì MAE giảm xuống còn 0,4525. Với
độ đo lỗi RMSE thì phương pháp đề xuất bốn mô hình có sự cải thiện đáng kể, khoảng
22% so với cách tiếp cận một mô hình. Như vậy, việc phân chia tập dữ liệu để huấn
luyện bốn mô hình dựa trên bốn mức điểm tích lũy được kỳ vọng cải thiện đáng kể dự
đoán kết quả học tập của sinh viên.

File đính kèm:

luan_an_xay_dung_mo_hinh_tim_kiem_va_goi_y_tai_nguyen_hoc_ta.pdf
2-TomtatLuanan_VN_TranThanhDien.pdf
3-TomtatLuanan_EN_TranThanhDien.pdf
4-ThongtinLuanan_VN_TranThanhDien.docx
5-ThongtinLuanan_EN_TranThanhDien.docx