1. Tổng quan Nghiệp vụ#
Module Trích xuất URL thực hiện nhiệm vụ bóc tách sâu mã nguồn HTML của một trang web đích. Mục tiêu là thu thập toàn bộ mạng lưới đường dẫn nội bộ (Internal Links) và đường dẫn dẫn ra ngoài (External Links), phục vụ đắc lực cho việc kiểm toán kỹ thuật PBN On-Page.2. Luồng xử lý (Business Logic Flow)#
1.
Khởi tạo: Hệ thống nhận yêu cầu chứa URL đích và tạo một phiên làm việc trong bảng url_extracts.
2.
Trích xuất: Serverless Node truy cập URL, render DOM và bóc tách tất cả thẻ <a>.
3.
Lưu trữ lịch sử: Các URL thu thập được phân loại và lưu chi tiết vào bảng url_extract_histories.
4.
Báo cáo: Dữ liệu được trả về dưới dạng bảng lưới rành mạch hoặc nén thành file Excel/Zip cho người dùng.
3. Danh sách API Liên kết#
| Method | Endpoint | Chức năng |
|---|
POST | /api/url-extract/store | Tạo yêu cầu Extract URL (tìm internal/external links). |
GET | /api/url-extract/get-result | Lấy danh sách link đã Extract hiển thị lên Data Grid. |
POST | /url-extract/get-histories-by-url-extract/{id} | Lấy lịch sử trích xuất chi tiết theo ID. |
POST | /api/url-extract/download-file/{id?} | Tải file Excel kết quả Extract Link. |
GET | /api/url-extract/cancel | Hủy tiến trình Extract URL đang chạy ngầm. |
Ngày cập nhật 2026-03-25 10:13:15