Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập
Trong thời gian qua, cùng với sự phát triển rất nhanh của công nghệ thông tin và công
nghệ hỗ trợ giáo dục trực tuyến, nhu cầu học tập mở ngày càng gia tăng, trong đó có học
tập trực tuyến nhằm ứng phó với những thay đổi của thực tế, đặc biệt trong bối cảnh hạn
chế tiếp xúc trực tiếp giữa người dạy và người học do tình hình dịch bệnh và nhiều lý do
khác. Trong luận án này, các giải pháp mới được đề xuất nhằm cung cấp tài nguyên học
tập đáp ứng tốt hơn nhu cầu và năng lực của người học. Các nghiên cứu được thực hiện
với các đóng góp được trình bày sau đây.
Đầu tiên, cách tiếp cận dựa trên kỹ thuật học sâu với mạng nơ-ron truyền thẳng đa
tầng MLP được đề xuất đùng để phân loại tài nguyên học tập, phục vụ cho quá trình tìm
kiếm tài nguyên. Trong thực nghiệm, mô hình phân loại với kỹ thuật MLP cũng được so
sánh với các kỹ thuật học máy khác; kết quả cho thấy cách tiếp cận này cho kết quả phân
loại khả thi và hiệu quả hơn các kỹ thuật truyền thống trên cùng tập dữ liệu, đặc biệt là dữ
liệu mất cân bằng.
Thứ hai, hai cách tiếp cận tìm kiếm tài nguyên học tập có quan tâm vấn đề ngữ nghĩa
được đề xuất, đó là tìm kiếm dựa trên sự tương đồng về nội dung văn bản và dựa trên mạng
ngữ nghĩa ontology. Ở mỗi cách tiếp cận, truy vấn được phân loại để xác định lĩnh vực
nhằm thu hẹp không gian tìm kiếm trước khi tìm trên lĩnh vực tương ứng của tài nguyên
học tập được xây dựng sẵn. Kết quả thực nghiệm cho thấy, các cách tiếp cận này khả thi
để xây dựng mô hình tìm kiếm tài nguyên học tập, đặc biệt là tìm kiếm có quan tâm vấn
đề ngữ nghĩa.
Thứ ba, các mô hình dự đoán kết quả học tập đề xuất với ba cách tiếp cận dựa trên
các kỹ thuật học sâu, gồm xây dựng mô hình dự đoán cho toàn bộ sinh viên sử dụng mạng
nơ-ron tích chập CNN, mô hình dự đoán theo nhóm năng lực học tập sử dụng mạng nơ-
ron đa tầng MLP và kỹ thuật học máy rừng ngẫu nhiên RF, và mô hình dự đoán theo từng
sinh viên sử dụng bộ nhớ ngắn dài hạn LSTM. Các kết quả thực nghiệm cho thấy các mô
hình được đề xuất cho kết quả dự đoán khá tốt, đặc biệt khi sử dụng kỹ thuật tiền xử lý dữ
liệu trước khi đưa vào mô hình học dự đoán.
Cuối cùng, mô hình gợi ý tài nguyên học tập sử dụng kỹ thuật phân rã ma trận sâu
DMF, được mở rộng từ kỹ thuật phân rã ma trận chuẩn MF, được đề xuất. Mô hình được
kiểm chứng trên nhiều tập dữ liệu về tài nguyên học tập và kết quả học tập của sinh viên,
cũng như so sánh với các kỹ thuật khác của hệ thống gợi ý. Kết quả cho thấy mô hình DMF
có hiệu suất dự đoán xếp hạng khá tốt so với các kỹ thuật khác, từ đó có thể sử dụng để gợi
ý tài nguyên học tập phù hợp với năng lực người học.
Tóm tắt nội dung tài liệu: Luận án Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CẦN THƠ TRẦN THANH ĐIỆN XÂY DỰNG MÔ HÌNH TÌM KIẾM VÀ GỢI Ý TÀI NGUYÊN HỌC TẬP LUẬN ÁN TIẾN SĨ CHUYÊN NGÀNH HỆ THỐNG THÔNG TIN MÃ SỐ 62 48 01 04 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CẦN THƠ TRẦN THANH ĐIỆN MÃ SỐ NCS: P1617001 XÂY DỰNG MÔ HÌNH TÌM KIẾM VÀ GỢI Ý TÀI NGUYÊN HỌC TẬP LUẬN ÁN TIẾN SĨ CHUYÊN NGÀNH HỆ THỐNG THÔNG TIN MÃ SỐ 62 48 01 04 NGƯỜI HƯỚNG DẪN PGS.TS. NGUYỄN THÁI NGHE 2022 1 LỜI CẢM TẠ Để hoàn thành được luận án này, tôi đã nhận được sự quan tâm, giúp đỡ và hướng dẫn nhiệt tình từ quý Thầy Cô thuộc Khoa Công nghệ Thông tin và Truyền thông, Trường Đại học Cần Thơ và sự hỗ trợ tích cực của đồng nghiệp. Đặc biệt, tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến PGS.TS. Nguyễn Thái Nghe đã tận tình chỉ dẫn, động viên và tạo mọi điều kiện thuận lợi nhất cho tôi trong suốt quá trình học tập và nghiên cứu. Tôi cũng xin gửi lời cảm ơn đến TS. Nguyễn Thanh Hải đã hỗ trợ tôi trong quá trình triển khai các thực nghiệm của nghiên cứu. Xin chân thành cảm ơn quý Thầy Cô đã truyền đạt thêm nhiều kiến thức, quan tâm, hỗ trợ và tạo mọi điều kiện cho tôi trong quá trình học tập tại Khoa Công nghệ Thông tin và Truyền thông thân yêu, nơi tôi theo học đại học giai đoạn 1993-1998. Xin gửi lời cảm ơn chân thành đến Lãnh đạo Nhà trường, Ban Giám đốc Trung tâm Thông tin và Quản trị mạng, Nhà xuất bản Đại học Cần Thơ và đồng nghiệp đã tạo điều kiện để tôi được học tập nâng cao trình độ chuyên môn và giúp đỡ tôi trong suốt thời gian học tập. Sau cùng tôi xin chân thành cảm ơn đến gia đình và người thân đã chia sẻ, động viên và tạo điều kiện tốt nhất để tôi có thể hoàn thành luận án này. 2 TÓM TẮT Trong thời gian qua, cùng với sự phát triển rất nhanh của công nghệ thông tin và công nghệ hỗ trợ giáo dục trực tuyến, nhu cầu học tập mở ngày càng gia tăng, trong đó có học tập trực tuyến nhằm ứng phó với những thay đổi của thực tế, đặc biệt trong bối cảnh hạn chế tiếp xúc trực tiếp giữa người dạy và người học do tình hình dịch bệnh và nhiều lý do khác. Trong luận án này, các giải pháp mới được đề xuất nhằm cung cấp tài nguyên học tập đáp ứng tốt hơn nhu cầu và năng lực của người học. Các nghiên cứu được thực hiện với các đóng góp được trình bày sau đây. Đầu tiên, cách tiếp cận dựa trên kỹ thuật học sâu với mạng nơ-ron truyền thẳng đa tầng MLP được đề xuất đùng để phân loại tài nguyên học tập, phục vụ cho quá trình tìm kiếm tài nguyên. Trong thực nghiệm, mô hình phân loại với kỹ thuật MLP cũng được so sánh với các kỹ thuật học máy khác; kết quả cho thấy cách tiếp cận này cho kết quả phân loại khả thi và hiệu quả hơn các kỹ thuật truyền thống trên cùng tập dữ liệu, đặc biệt là dữ liệu mất cân bằng. Thứ hai, hai cách tiếp cận tìm kiếm tài nguyên học tập có quan tâm vấn đề ngữ nghĩa được đề xuất, đó là tìm kiếm dựa trên sự tương đồng về nội dung văn bản và dựa trên mạng ngữ nghĩa ontology. Ở mỗi cách tiếp cận, truy vấn được phân loại để xác định lĩnh vực nhằm thu hẹp không gian tìm kiếm trước khi tìm trên lĩnh vực tương ứng của tài nguyên học tập được xây dựng sẵn. Kết quả thực nghiệm cho thấy, các cách tiếp cận này khả thi để xây dựng mô hình tìm kiếm tài nguyên học tập, đặc biệt là tìm kiếm có quan tâm vấn đề ngữ nghĩa. Thứ ba, các mô hình dự đoán kết quả học tập đề xuất với ba cách tiếp cận dựa trên các kỹ thuật học sâu, gồm xây dựng mô hình dự đoán cho toàn bộ sinh viên sử dụng mạng nơ-ron tích chập CNN, mô hình dự đoán theo nhóm năng lực học tập sử dụng mạng nơ- ron đa tầng MLP và kỹ thuật học máy rừng ngẫu nhiên RF, và mô hình dự đoán theo từng sinh viên sử dụng bộ nhớ ngắn dài hạn LSTM. Các kết quả thực nghiệm cho thấy các mô hình được đề xuất cho kết quả dự đoán khá tốt, đặc biệt khi sử dụng kỹ thuật tiền xử lý dữ liệu trước khi đưa vào mô hình học dự đoán. Cuối cùng, mô hình gợi ý tài nguyên học tập sử dụng kỹ thuật phân rã ma trận sâu DMF, được mở rộng từ kỹ thuật phân rã ma trận chuẩn MF, được đề xuất. Mô hình được kiểm chứng trên nhiều tập dữ liệu về tài nguyên học tập và kết quả học tập của sinh viên, cũng như so sánh với các kỹ thuật khác của hệ thống gợi ý. Kết quả cho thấy mô hình DMF có hiệu suất dự đoán xếp hạng khá tốt so với các kỹ thuật khác, từ đó có thể sử dụng để gợi ý tài nguyên học tập phù hợp với năng lực người học. Từ khóa: Tài nguyên học tập, phân loại tài nguyên học tập, tìm kiếm tài nguyên học tập, dự đoán kết quả học tập, gợi ý tài nguyên học tập, kỹ thuật học máy và học sâu. 3 ABSTRACT In recent years, along with the rapid development of information technology, there are various technologies that support for online education to effectively exploit available learning resources to meet the needs of online learning, especially in the context of limited face-to-face classes due to the epidemic situation as well as many other reasons. With the continuous increase of those resources, it is a challenge for learners to be able to search for suitable learning resources. In this dissertation, we propose state-of-the-art approaches to help learners search learning resources meeting their needs and capacities. The contributions of the thesis are presented as follows. Firstly, an approach to use deep learning with Multilayer Perceptron (MLP) for the classification tasks of learning resources is proposed. The experimental results show that by using this approach, the results get even better than using other traditional machine learning algorithms, especially on imbalanced datasets. Secondly, approaches for searching learning resources based on document similarity and based on semantics are proposed. For similarity-based searching, cosine similarity and word-order similarity of the documents are combined. For semantic-based searching, searching learning resources using ontologies is proposed. In both of the approaches, the query is classified to determine the topic to aim narrowing the search topics before searching on the corresponding one of the built-in learning resources. The experimental results show that these approaches are feasible to build models for searching learning resources related semantics. Thirdly, student performance prediction models which are proposed based on three approaches using deep learning techniques include a prediction model for all students using a convolutional neural network (CNN), a group-based prediction model for students who have similar learning performance using multilayer perceptron (MLP) and machine learning technique of RF, and a prediction model for each student using long short-term memory (LSTM). The experimental results show that the proposed methods provides good prediction results. The results are feasible for applying to practical cases, especially when the data are preprocessed before fetching them into the predictive learning model. Finally, a deep matrix factorization (DMF) model extended from the standard matrix factorization (MF) is proposed for learning resources recommendation. Two dataset groups including datasets of learning resources and datasets of learning performance are used to validate the model, and the model is also compared with other techniques of the recommender system. The experimental results show that the proposed DMF model can perform well on various datasets, especially large-scale datasets. It can be used for recommending suitable learning resources for students. Keywords: Learning resources, topic classification, learning resources searching, performance prediction, learning resources recommendation, deep learning and machine learning. 4 LỜI CAM ĐOAN Tôi tên Trần Thanh Điện, là nghiên cứu sinh ngành Hệ thống thông tin, khóa 2017. Tôi xin cam đoan luận án này là công trình nghiên cứu khoa học thực sự của bản thân tôi dưới sự hướng dẫn của PGS.TS. Nguyễn Thái Nghe. Các thông tin được sử dụng tham khảo trong luận án được thu thập từ các nguồn đáng tin cậy, đã được kiểm chứng, được công bố rộng rãi và được tôi trích dẫn nguồn gốc rõ ràng ở phần danh mục tài liệu tham khảo. Các kết quả nghiên cứu được trình bày trong luận án này là do chính tôi thực hiện một cách nghiêm túc, trung thực và không trùng lắp với các đề tài khác đã được công bố trước đây. Tôi xin lấy danh dự và uy tín của bản thân để đảm bảo cho lời cam đoan này. Cần Thơ, ngày tháng 01 năm 2022 Người hướng dẫn Nghiên cứu sinh Nguyễn Thái Nghe Trần Thanh Điện 5 MỤC LỤC CHƯƠNG 1. GIỚI THIỆU ............................................................................................ 1 1.1. Tính cấp thiết của nghiên cứu ........................................................................... 1 1.2. Mục tiêu, đối tượng, phạm vi và phương pháp nghiên cứu .............................. 3 1.3. Nội dung nghiên cứu và hướng tiếp cận của luận án ........................................ 3 1.3.1. Xây dựng mô hình phân loại tài nguyên học tập ............................................ 5 1.3.2. Xây dựng mô hình tìm kiếm tài nguyên học tập ............................................. 5 1.3.3. Xây dựng mô hình dự đoán kết quả học tập ................................................... 6 1.3.4. Xây dựng mô hình gợi ý tài nguyên học tập ................................................... 6 1.4. Các đóng góp của luận án ................................................................................. 7 1.5. Bố cục của luận án ............................................................................................ 8 CHƯƠNG 2. CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN ......... 10 2.1. Khái quát về hệ thống quản lý tài nguyên học tập .......................................... 10 2.1.1. Tài nguyên học tập và hệ thống quản lý tài nguyên học tập ......................... 10 2.1.2. Hệ thống quản lý tài nguyên học tập có quan tâm ngữ nghĩa ....................... 10 2.1.3. Hệ thống gợi ý tài nguyên học tập ................................................................ 10 2.2. Một số kỹ thuật phân loại văn bản .................................................................. 11 2.2.1. Phân loại với máy véc-tơ hỗ trợ SVM .......................................................... 12 2.2.2. Phân loại sử dụng giải thuật cây quyết định và rừng ngẫu nhiên ................. 14 2.2.3. Phân loại với các kỹ thuật học sâu ................................................................ 14 2.3. Các kỹ thuật tính toán độ tương đồng văn bản ............................................... 15 2.3.1. Độ tương đồng ............................................................................................... 15 2.3.2. Một số phương pháp tính độ tương đồng văn bản ........................................ 15 2.4. Các kỹ thuật xây dựng mạng ngữ nghĩa phục vụ tìm kiếm ............................ 17 2.4.1. Khái quát về web ngữ nghĩa......... ... sources (OER. Available from https://en.unesco.org/themes/building-knowledge-societies/oer Versloot, C., 2019. Leaky ReLU: improving traditional ReLU, accessed on 2021. Available from https://www.machinecurve.com/index.php/2019/10/15/leaky- relu-improving-traditional-relu/ Vnexpress, 2020. accessed on 20/2/2020. Available from https://vnexpress.net/ W3C, 2006. DOME, accessed on 2019. Available from https://www.w3.org/2001/sw/wiki/DOME. W3C, 2009. OWL Web Ontology Language Overview, accessed on 2019. Available from W3C, 2012. Knoodl, accessed on 2019. Available from https://www.w3.org/2001/sw/wiki/Knoodl Wali, W., Gargouri, B. and Ben Hamadou, A., 2020. An Enhanced Plagiarism Detection Based on Syntactico-Semantic Knowledge. Intelligent Systems Design and Applications. Springer International Publishing, Cham, pp. 264-274. Weiss, G. M., 2019. Sample Weka Data Sets, accessed on 18/1/2020. Available from https://storm.cis.fordham.edu/gweiss/data-mining/datasets.html Winkler, W. E., 1990. String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage. Wu, B., 2018. The Semantic Retrieval System for Learning Resources Based on Subject Knowledge Ontology. International Conference on Computer Science, Electronics and Communication Engineering (CSECE 2018). Atlantis Press, pp. 467-469. Xiao, J., Wang, M., Jiang, B. and Li, J., 2018. A personalized recommendation system with combinational algorithm for online learning. Journal of Ambient Intelligence and Humanized Computing. 9(3): 667-677. Yang, Y. and Liu, X., 1999, A re-examination of text categorization methods. In. Proceedings of the 22nd annual international ACM SIGIR conference on 128 Research and development in information retrieval, Berkeley, California, USA. ACM. 312647, 42-49. Yu, B., 2019. Research on information retrieval model based on ontology. EURASIP Journal on Wireless Communications and Networking. 2019(1): 30. Zhang, D. and Lee, W. S., 2003, Question classification using support vector machines. In. Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval, Toronto, Canada. ACM. 860443, 26-32. Zhang, F., Song, J. and Peng, S., 2018. Deep Matrix Factorization for Recommender Systems with Missing Data not at Random. Journal of Physics: Conference Series. 1060: 012001-012001. Zhang, L., Luo, T., Zhang, F. and Wu, Y., 2018. A Recommendation Model Based on Deep Neural Network. IEEE Access. 6: 9454-9463. Zhang, S., Yao, L., Sun, A. and Tay, Y., 2019. Deep Learning Based Recommender System: A Survey and New Perspectives. ACM Comput. Surv. 52(1): Article 5. Zulqarnain Muhammad, Ghazali, R., Mazwin, Y. and Rehan, M., 2020. A comparative review on deep learning models for text classification. 129 PHỤ LỤC 1. TĂNG TỐC XỬ LÝ DỮ LIỆU BẰNG KỸ THUẬT XỬ LÝ DỮ LIỆU LỚN 1.1. Mô hình đề xuất Nghiên cứu này đề xuất giải pháp nhằm tăng tốc độ xử lý dữ liệu phục vụ tìm kiếm sử dụng kỹ thuật xử lý dữ liệu lớn dựa trên nền tảng Hadoop cùng với các kỹ thuật xử lý văn bản như đề cập. Mô hình tổng quát hệ thống tìm kiếm tài liệu được mô tả như Hình 1.1. Hình 1.1: Mô hình tìm kiếm tài liệu sử dụng Hadoop MapReduce Mô hình này gồm ba bộ phận chính là bộ phận phân tích văn bản, bộ phận lập chỉ mục, bộ phận so khớp và sắp xếp các tài liệu trả về. Bộ phận phân tích văn bản có nhiệm vụ phân tích văn bản thu thập được hoặc câu truy vấn thành các từ riêng biệt. Bộ phận lập chỉ mục gồm các từ được thu thập từ bộ phận phân tích văn bản được lựa chọn để làm chỉ mục. Giai đoạn phân tích văn bản, lập chỉ mục được thực hiện trên Hadoop MapReduce nhằm tận dụng sức mạnh xử lý song song và phân tán trên cụm máy tính. Đối với bộ phận so khớp và sắp xếp tài liệu trả về, các từ trích được từ câu truy vấn và các từ trong chỉ mục của văn bản sẽ được so khớp với nhau để tìm ra các tài liệu liên quan đến câu truy vấn. Mỗi tài liệu có độ tương quan với câu truy vấn, các tài liệu này sẽ được sắp xếp theo độ tương quan giảm dần và trả về cho người dùng. Để thực hiện tìm kiếm, tài liệu đầu vào gồm câu truy vấn và tài nguyên học tập được tiền xử lý, tính trọng số TF-IDF, lập chỉ mục sử dụng mô hình không gian véc-tơ trước khi tính độ tương đồng cosine để so khớp trả về kết quả tìm kiếm. 130 1.2. Mô tả dữ liệu Mô hình tìm kiếm được đề xuất có thể sử dụng tìm kiếm nhiều dạng tài nguyên học tập như sách, giáo trình, bài giảng, bài báo khoa học, Nghiên cứu này thử nghiệm trên các đề cương môn môn học có sẵn. Tập dữ liệu gồm 2.829 tập tin đề cương môn học của Trường Đại học Cần Thơ. Để thực hiện tìm kiếm, tài liệu đầu vào gồm câu truy vấn và tài nguyên học tập được tiền xử lý như để lọc thông tin thừa (mục tiêu, nội dung môn học), chuyển tài liệu về dạng thuần văn bản (text), tách từ, loại bỏ từ dừng, tính trọng số TF-IDF, lập chỉ mục sử dụng mô hình không gian véc-tơ trước khi tính độ tương đồng để so khớp trả về kết quả tìm kiếm. Trong nghiên cứu này góc giữa tài liệu và câu truy vấn để đo độ tương đồng giữa hai tài liệu trong không gian véc-tơ được sử dụng. 1.3. Kết quả thực nghiệm Phần này không đề cập về hiệu quả của việc tìm kiếm dựa trên độ đo tương đồng cosine giữa véc-tơ truy vấn với véc-tơ tài liệu do đã trình bày ở phần trước, mà chỉ đề cập đến tốc độ tìm kiếm khi sử dụng nền tảng Hadoop MapReduce. Để phục vụ cho quá trình thử nghiệm, nghiên cứu này đã sử dụng phần cứng và hệ điều hành gồm: CPU Intel® Core™ i5-4460 3.20GHz, 8GB RAM, triển khai trên hệ điều hành Ubuntu-20.04, bộ nhớ 20GB cho mỗi node máy chủ master và slave. Ngoài ra, ngôn ngữ lập trình Python 3.6, tính toán dữ liệu phân tán với Hadoop 3.2.0, công cụ tách từ tài liệu tiếng Việt Underthesea 1.1.17 cũng được sử dụng. Kết quả thực nghiệm cho thấy, hệ thống dựa trên nền tảng Hadoop MapReduce có kết quả xử lý dữ liệu tìm kiếm nhanh hơn nhiều so với hệ thống thông thường do sức mạnh của xử lý song song và phân tán của một cụm máy tính. Thực nghiệm được thực hiện trên tập dữ liệu với 2.829 tập tin đề cương môn học của Trường Đại học Cần Thơ để kiểm tra tốc độ xử lý toàn bộ tài liệu với số lượng máy chủ tăng dần từ 1 đến 3 máy. Kết quả đo lường thời gian được trình bày như Bảng 1.1: Bảng 1.1: So sánh thời gian thực hiện xử lý dữ liệu Stt Số lượng máy chủ Thời gian (%) 1 Xử lý trên 01 máy chủ 100,0% 2 Xử lý trên 02 máy chủ 73,6% 3 Xử lý trên 03 máy chủ 43,4% Bảng 1.1 cho thấy với tập dữ liệu cố định, khi số lượng máy chủ tham gia tăng thì thời gian xử lý giảm dần. Cụ thể, khi sử dụng hai máy chủ thì thời gian xử lý dữ liệu và tìm kiếm thông tin giảm còn 73,6% so với một máy chủ; khi sử dụng ba máy chủ thì thời gian giảm còn 43,4% so với một máy chủ. Điều đó cho thấy, việc áp dụng nền tảng Hadoop MapReduce là một giải pháp tích cực giúp tăng tốc độ xử lý dữ liệu phân tán trên nhiều máy chủ khác nhau, làm tăng tốc độ tìm kiếm thông tin. 131 PHỤ LỤC 2. MÔ HÌNH DỰ ĐOÁN KẾT QUẢ HỌC TẬP 2.1. Mô hình đề xuất Mô hình đề xuất được thể hiện ở Hình 2.1. Quan sát mô hình có thể thấy mô hình đề xuất dự đoán bao gồm 4 bước. Ở bước đầu tiên, toàn bộ tập dữ liệu được chia thành các tập huấn luyện và kiểm tra dựa trên thời gian, trong đó tập huấn luyện từ năm 2007 đến 2017, tập kiểm tra từ năm 2018 đến 2020. Bước hai thực hiện tính điểm trung bình cho toàn bộ sinh viên trên tập huấn luyện để huấn luyện bốn mô hình khác nhau dựa trên các mức điểm xếp loại (bao gồm các mô hình: Excellent, Very Good, Good, Fairly). Bước ba phân chia sinh viên theo nhóm điểm trung bình; đối với mỗi nhóm, lấy điểm toàn bộ các môn của tất cả sinh viên trong nhóm đó. Ở bước cuối, sau khi xây dựng bốn mô hình dựa trên các mức điểm xếp loại, thực hiện tải tập dữ liệu kiểm tra vào một trong bốn mô hình dựa trên điểm trung bình của sinh viên để dự đoán điểm cho mỗi sinh viên. Hình 2.1: Mô hình đề xuất dựa trên các mức xếp loại điểm Kết quả sau khi dự đoán trả về là một trong 8 mức điểm theo quy định trong khoảng từ 0 đến 4. Các bước trên được tóm tắt như Giải thuật 2.1. Giải thuật 2.1: Các bước phân chia dữ liệu để xây dựng 4 mô hình dựa trên GPA 1 Begin 2 Bước 1: Chia toàn bộ tập dữ liệu thành tập train và test dựa vào thời gian. Tập train từ 2007 đến 2017, tập test từ 2018 đến 2020 3 Bước 2: Trên tập train, tính điểm trung bình từng sinh viên trên toàn bộ sinh viên 4 Bước 3: Chia theo điểm trung bình tích lũy. Cụ thể: + Excellent model: GPA >= 3,6 + Very good model: 3,2 ≤ GPA < 3,6 + Good model: 2,5 ≤ GPA < 3,2 + Fairly model: GPA < 2,5 Với mỗi nhóm, chọn điểm của tất cả sinh viên vào nhóm đó 5 Bước 4: Huấn luyện riêng cho từng nhóm tương ứng dãy điểm như Bước 3. 6 End 132 2.2. Mô tả dữ liệu Để đánh giá mô hình đề xuất, dữ liệu được thu thập tập thực tế từ hệ thống quản lý sinh viên của một trường đại học. Dữ liệu thu thập liên quan đến sinh viên, khóa học, điểm và các thông tin khác từ năm 2007 đến năm 2020 với hơn 4,5 triệu mẫu tin. Phân bố dữ liệu về điểm của tập huấn luyện và tập kiểm tra của sinh viên được mô tả trong Hình 2.2 và Hình 2.3. Hình 2.2: Phân bố các mức điểm của tập huấn luyện Hình 2.3: Phân bố các mức điểm của tập kiểm tra Phương pháp tiền xử lý dữ liệu được thực hiện tương tự các nghiên cứu trước đó được trình bày trong luận án này, như loại bỏ các thuộc tính dư thừa từ tập tập dữ liệu gốc của hệ thống quản lý sinh viên và dữ liệu gây nhiễu trước khi chuyển các thuộc tính từ chuỗi sang giá trị số. 2.3. Kết quả thực nghiệm Nghiên cứu này cũng cài đặt các thông số kỹ thuật gồm server 72 core và 320 GB RAM được cài đặt hệ điều hành Ubuntu 20.4; ngôn ngữ lập trình Python 3.7 cùng với các thư viện của deep learning hỗ trợ các tiến trình triển khai các thực nghiệm. 133 Tập dữ liệu ban đầu được chia thành tập huấn luyện và tập kiểm tra dựa trên thời gian. Tập dữ liệu tập huấn có khoảng 3,8 triệu mẫu tin về điểm trong khoảng thời gian từ năm 2007 đến 2017, trong khi tập dữ liệu kiểm tra khoảng 656 ngàn mẫu tin về điểm từ năm 2018 đến 2020. Giải thuật hồi quy rừng ngẫu nhiên sử dụng 80 cây, số lượng mẫu tối thiểu cần thiết để tách một nút là 30 và độ sâu tối đa của cây là 30. Hai độ đo lỗi MAE và RMSE được sử dụng cho mô hình với tất cả sinh viên cũng như bốn mô hình đề xuất chia theo 4 mức xếp loại điểm, kết quả được biểu diễn như Hình 2.4. Hình 2.4: So sánh MAE và RMSE giữa RF và bốn mô hình với RF Thực nghiệm cho thấy, với một mô hình thì MAE cho kết quả là 0,5567, trong khi độ lỗi của phương pháp đề xuất với bốn mô hình thì MAE giảm xuống còn 0,4525. Với độ đo lỗi RMSE thì phương pháp đề xuất bốn mô hình có sự cải thiện đáng kể, khoảng 22% so với cách tiếp cận một mô hình. Như vậy, việc phân chia tập dữ liệu để huấn luyện bốn mô hình dựa trên bốn mức điểm tích lũy được kỳ vọng cải thiện đáng kể dự đoán kết quả học tập của sinh viên.
File đính kèm:
- luan_an_xay_dung_mo_hinh_tim_kiem_va_goi_y_tai_nguyen_hoc_ta.pdf
- 2-TomtatLuanan_VN_TranThanhDien.pdf
- 3-TomtatLuanan_EN_TranThanhDien.pdf
- 4-ThongtinLuanan_VN_TranThanhDien.docx
- 5-ThongtinLuanan_EN_TranThanhDien.docx