HIỆU NĂNG HỌC MÁY CHO PHÁT HIỆN TẤN CÔNG WEB

Các tác giả

  • Lê Anh Tuấn Trường Đại học Công Thương Thành phố Hồ Chí Minh Tác giả liên hệ

DOI:

https://doi.org/10.62985/j.huit_ojs.vol26.no1E.373

Từ khóa:

Học máy, hệ thống phát hiện, tấn công web.

Tóm tắt

Sự gia tăng nhanh chóng của các hệ thống web đã kéo theo nguy cơ gia tăng của nhiều dạng tấn công như SQL injection, XSS và CSRF với mức độ ngày càng tinh vi. Các cơ chế phòng thủ truyền thống bộc lộ hạn chế trong việc nhận diện các biến thể tấn công mới, do thiếu khả năng thích ứng linh hoạt. Bài báo này tập trung xây dựng một phương pháp phát hiện tấn công web dựa trên học máy, sử dụng bộ dữ liệu HTTP CSIC 2010 làm nền tảng thực nghiệm. Dữ liệu được xử lý và trích xuất đặc trưng từ các yêu cầu HTTP nhằm phục vụ huấn luyện các mô hình phân loại. Nhiều thuật toán học máy, bao gồm RF (Random Forest) và SVM (Support Vector Machine), được triển khai để nhận diện hành vi bất thường. Kết quả đánh giá cho thấy RF đạt hiệu năng cao nhất với chỉ số đánh giá: độ chính xác 96,03%, F1-score 96,00% và ROC-AUC 0,995. Các kết quả này cho thấy cách tiếp cận dựa trên học máy có khả năng nâng cao hiệu quả phát hiện các yêu cầu HTTP độc hại trong môi trường web hiện đại. 

Tài liệu tham khảo

[1] A. Salam, F. Ullah, F. Amin, and M. Abrar, “Deep learning techniques for web-based attack detection in industry 5.0: A novel approach,” Technologies, vol. 11, no. 4, p. 107, 2023, doi: https://doi.org/10.3390/technologies11040107

[2] P. V. Hau and D. T. T. Hien, “Enhancing Web Application Security: A Deep Learning and NLP-based Approach for Accurate Attack Detection,” doi: https://doi.org/10.54654/isj.v3i20.1008

[3] M. Al Lail, A. Garcia, and S. Olivo, “Machine learning for network intrusion detection—a comparative study,” Future Internet, vol. 15, no. 7, p. 243, 2023, doi: https://doi.org/10.3390/fi15070243

[4] J. Wen, S. Li, Z. Lin, Y. Hu, and C. Huang, “Systematic literature review of machine learning based software development effort estimation models,” Information and software technology, vol. 54, no. 1, pp. 41-59, 2012, doi: https://doi.org/10.1016/j.infsof.2011.09.002

[5] C. T. Giménez, A. P. Villegas, and G. Á. Marañón, “HTTP data set CSIC 2010,” Information Security Institute of CSIC (Spanish Research National Council), 2010, doi: https://impactcybertrust.org/dataset_view?idDataset=940

[6] J. C. Eunaicy and S. Suguna, “Web attack detection using deep learning models,” Materials Today: Proceedings, vol. 62, pp. 4806-4813, 2022, doi: https://doi.org/10.1016/j.matpr.2022.03.348

[7] M. K. Baklizi, I. Atoum, M. Alkhazaleh, H. Kanaker, N. Abdullah, O. A. Al-Wesabi, and A. A. Otoom, “Web Attack Intrusion Detection System Using Machine Learning Techniques,” International Journal of Online & Biomedical Engineering, vol. 20, no. 3, 2024, doi: https://doi.org/10.3991/ijoe.v20i03.45249

[8] Y. Pan, F. Sun, Z. Teng, J. White, D. C. Schmidt, J. Staples, and L. Krause, “Detecting web attacks with end-to-end deep learning,” Journal of Internet Services and Applications, vol. 10, no. 1, pp. 1-22, 2019, doi: https://doi.org/10.1186/s13174-019-0115-x

[9] M. Alghawazi, D. Alghazzawi, and S. Alarifi, “Detection of sql injection attack using machine learning techniques: a systematic literature review,” Journal of Cybersecurity and Privacy, vol. 2, no. 4, pp. 764-777, 2022, doi: https://doi.org/10.3390/jcp2040039

[10] L. Tang and Q. H. Mahmoud, “A survey of machine learning-based solutions for phishing website detection,” Machine Learning and Knowledge Extraction, vol. 3, no. 3, pp. 672-694, 2021, doi: https://doi.org/10.3390/make3030034

[11] V.-H. Pham, H. K. Nghi, and H. Q. Nguyen, “Deception and Continuous Training Approach for Web Attack Detection using Cyber Traps and MLOps,” VNUHCM Journal of Science and Technology Development, vol. 26, no. 2, pp. 2729-2740, 2023, doi: https://doi.org/10.32508/stdj.v26i2.4044

[12] C. Do Xuan and N. M. Son, “Enhancing web attack detection efficiency based on natural language processing techniques,” Journal of Computer Science and Cybernetics, vol. 42, no. 1, pp. 73-87, 2026, doi: https://doi.org/10.15625/1813-9663/23407

[13] L. Breiman, “Random forests,” Machine learning, vol. 45, no. 1, pp. 5-32, 2001, doi: https://doi.org/10.1023/A:1010933404324

[14] T. Hastie, R. Tibshirani, and J. Friedman, “The elements of statistical learning,” ed: Springer series in statistics New-York, 2009, doi: https://doi.org/10.1007/978-0-387-84858-7

[15] K. P. Murphy, Machine learning: A Probabilistic Perspective. MIT press, 2012, doi: https://mitpress.mit.edu/9780262018029/machine-learning-a-probabilistic-perspective/

[16] T. Cover and P. Hart, “Nearest neighbor pattern classification,” IEEE transactions on information theory, vol. 13, no. 1, pp. 21-27, 1967,

doi: https://doi.org/10.1109/TIT.1967.1053964

[17] C. Cortes and V. Vapnik, “Support-vector networks,” Machine learning, vol. 20, no. 3, pp. 273-297, 1995, doi: https://doi.org/10.1007/BF00994018.

[18] T. Chen and C. Guestrin, “Xgboost: A Scalable Tree Boosting System,” in Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining, 2016, pp. 785-794. doi: https://doi.org/10.1145/2939672.2939785

[19] R. Kohavi, “A study of cross-validation and bootstrap for accuracy estimation and model selection,” in Proceedings of the IJCAI, 1995, vol. 14, no. 2: Montreal, Canada, pp. 1137-1145. doi: https://www.ijcai.org/Proceedings/95-2/Papers/016.pdf

[20] J. Bergstra and Y. Bengio, “Random search for hyper-parameter optimization,” Journal of machine learning research, vol. 13, no. 2, 2012, doi: https://www.jmlr.org/papers/v13/bergstra12a.html.

Lượt tải xuống

Đã Xuất bản

2026-05-27

Số

Chuyên mục

Công nghệ thông tin