7 Cách ngăn chặn đánh cắp nội dung website thành công 

Nội dung được ví như là xương sống của website khi cung cấp những giá trị và tạo dựng sự uy tín với người đọc. Tuy nhiên, tình trạng nội dung trên trang web bị đánh cắp, có một vài thay đổi nhỏ và xuất hiện trên trang web khác là vi phạm bản quyền và ảnh hưởng lớn đến thứ hạng của website. Do đó, việc phát hiện và biết cách ngăn chặn đánh cắp nội dung website cùng có những biện pháp bảo mật hiệu quả là điều rất quan trọng. Trong bài viết dưới đây, Optimal Agency sẽ chia sẻ tới bạn những thông tin hữu ích về vấn đề này!

Đánh cắp nội dung trang web là gì?

Đánh cắp nội dung trang web là gì?

Là hành vi trộm cắp nội dung đã xuất bản từ trang web nhằm mục đích sử dụng lại hoặc tạo lưu lượng truy cập hay vì lợi ích riêng. Cách dễ nhất để sao chép khối lượng lớn nội dung trực tuyến là sử dụng bot thu thập dữ liệu còn được gọi là trình thu thập dữ liệu web. 

Việc sử dụng tác phẩm của ai đó mà không có sự cho phép đều là hành vi trộm cắp nội dung. Nó bao gồm các loại nội dung kỹ thuật số gồm văn bản, hình ảnh, video, âm thanh,… không được cung cấp cho công chúng sử dụng.

Hình thức trộm cắp nội dung phổ biến nhất là đạo văn tức là sao chép và dán nội dung từ trang web này sang trang web khác mà không được phép hoặc không trích dẫn nguồn. Nó được thực hiện trên quy mô lớn, sử dụng phần mềm tự động quét các trang web và sao chép nội dung.

Nếu như việc tạo ra nội dung chất lượng là công việc khó khăn và tốn kém thời gian cùng chất xám thì việc đánh cắp nội dung lại rất dễ dàng. Kẻ trộm nội dung sao chép nội dung đa phương tiện để tăng lưu lượng truy cập và doanh thu quảng cáo trên trang web của chính họ bằng cách thu lợi nhuận từ công việc mà người khác đã làm. 

Do đó việc phát hiện sớm và biết cách ngăn chặn đánh cắp nội dung website có thể làm giảm các rủi ro và nâng cao doanh thu trực tuyến cho doanh nghiệp của bạn. 

Làm thế nào để xác định nội dung trên web bị đánh cắp? 

Nếu bạn xây dựng nội dung độc đáo cho trang web của mình và không muốn người khác đăng lại nội dung đó trên trang web của họ, thì đã đến lúc kiểm tra xem nội dung của bạn có bị sao chép hay không. Trường hợp bạn nghi ngờ nội dung trực tuyến trên website của mình đang bị đánh cắp thì có nhiều công cụ hỗ trợ bạn phát hiện nội dung trùng lặp mà bạn có sử dụng ngay: 

Copyscape

Đây là công cụ miễn phí giúp quét nội dung trùng lặp trên website. Bằng cách nhập địa chỉ website của mình và tìm kiếm, Copyscape sẽ tự động tìm thấy nó trên các tên miền khác. Nếu nội dung xuất hiện trên các trang web khác, nó sẽ hiển thị cho bạn những URL vi phạm.

Grammarly

Không còn quá xa lạ đối với những người sáng tạo nội dung. Ngoài việc kiểm tra ngữ pháp, công cụ này có thể giúp bạn phát hiện các nội dung của mình trên website có bị sao chép không. Bằng cách copy và dán nội dung vào hộp yêu cầu thì Grammarly sẽ so sánh văn bản của bạn với 8 tỷ trang web và cung cấp cho bạn báo cáo về các trang web chứa nội dung trùng lặp.

Ngoài ra, bạn có thể sử dụng các công cụ phát hiện trùng lặp nội dung phổ biến khác trên thị trường như Unicheck hoặc Plagiarism Checker hay công cụ nhận dạng và tìm kiếm hình ảnh như Tineye. Tuy nhiên những công cụ này có những hạn chế nhất định như nếu có nhiều nội dung thì việc kiểm tra sẽ mất nhiều thời gian và công sức. 

Mặc dù chúng có thể tốt cho nội dung biên tập nhưng không thể giúp bạn xác định việc thu thập và đánh cắp nội dung như giá cả. Hơn hết, việc phát hiện hành vi trộm cắp nội dung trên trang web chỉ là bước đầu tiên và không có công cụ nào trong số này có thể giúp bạn ngăn chặn những kẻ đánh cắp nội dung trực tuyến của bạn. 

7 Cách ngăn chặn đánh cắp nội dung website hiệu quả

7 Cách ngăn chặn đánh cắp nội dung website hiệu quả

Chặn IP của web scraping bot

Một trong những công cụ được các kẻ trộm nội dung website sử dụng để đánh cắp nội dung trên trang web khác đó là Web scraping bot. Những web đánh cắp nội dung này hoạt động từng ngày, từng giờ để phát hiện các nội dung mới nhất một cách nhanh chóng và mang về cho người sử dụng. 

Phương pháp đầu tiên để ngăn chặn đánh cắp nội dung trên trang web đó là chặn IP của web scraping bot. Để làm được điều đó thì bạn cần sử dụng Wordfence Premium ghi chép lại lịch sử IP, Hostname và User-agent đã truy cập vào website của bạn. Từ đó lọc ra các web scraping bot để chặn chúng.

Bước 1: Cài đặt chế độ Live Traffic

Trước tiên bạn cần cài đặt chế độ Live Traffic bằng cách vào Wordfence rồi chọn vào Tools và tiến hành cài đặt như sau: 

  • Amount of Live Traffic data to store (Số lượng nhật ký truy cập): 500-5000 tùy traffic website của bạn, có thể chọn một số bằng 1/4 traffic của bạn.
  • Maximum days to keep Live Traffic data (Thời gian lưu trữ nhật ký): 7-14 ngày.
  • Traffic logging mode (Chế độ nhật ký traffic): All Traffic (Tất cả traffic).

Bên cạnh đó, bạn đọc có thể tham khảo thêm bài viết liên quan khác như Cách tăng tỷ lệ chuyển đổi cho website.

Bước 2: Lọc ra các web scraping bot để chặn

Kế tiếp bạn cần lọc ra các web scraping bot để chặn chúng bằng cách nhấp vào Show Advanced Filters rồi chọn URL. Tiếp đó bạn hãy chọn Contains rồi nhấp vào Feed để xem các web scraping bot nào đã truy cập vào RSS của bạn.

Đặc điểm nhận dạng các web scraping bot đó là có User-agent thường là Bot hoặc Human. Thường xuyên truy cập vào website của bạn với thời lượng đều đặn từ 5-10-15-20-25 phút 1 lần. Trong Hostname và User-agent có chứa các từ: feed, content, newspaper…

Bạn cần biết cách phân biệt để tránh nhầm lẫn với các web scraping bot thân thiện. Bot của Google sẽ có Hostname chứa phần đuôi là googlebot.com, google.com. Bot của các trang mà bạn đã tạo bookmark hoặc backlink thì tên bot sẽ thường chứa luôn tên website hoặc tên miền website đó. 

Sau đó bạn chỉ việc nhấp vào nút Block IP để chặn các web scraping bot này.

Bước 3: Tiến hành chặn web scraping bot 

Ở bước này bạn hãy thêm lệnh chặn các web scraping bot khi có đặc điểm nhận dạng như trên. Bằng cách truy cập vào Wordfence rồi chọn Blocking và chọn Custom Pattern vào cấu hình. 

Lưu ý: Bạn chỉ điền IP Address Range hoặc Hostname hoặc User-agent cho mỗi lệnh chặn. Còn nếu điền hết cả 3 thì có nghĩa là phải đúng cả 3 đặc điểm này thì mới bị chặn.

  • Block Reason: Đặt một cái tên chung cho bạn dễ nhớ là được
  • IP Address Range: Các công cụ đánh cắp nội dung website thường đổi IP. Bạn hãy chặn nó bằng cách thay số cuối thành 0/24 nhé.
  • Hostname và User-agent: Bạn điền *từ khóa* để chặn.

Đối với các web scraping bot có Hostname và User-agent như người bình thường thì bạn cần tìm IP của các website đó và chặn cả dải IP. Đồng thời thỉnh thoảng bạn kiểm tra lại các website này có đổi sang máy chủ mới hay không để tiếp tục thêm dải IP mới vào lệnh chặn. Ngoài ra, bạn có thể căn cứ và tần suất truy cập và các đặc điểm nhận dạng web scraping bot. Nếu bạn phát hiện được IP nào có tần suất truy cập như vậy thì hãy chặn dải IP đó. 

Thêm file functions.php

Là một trong những cách ngăn chặn đánh cắp nội dung website hiệu quả đó là thông qua RSS. Mục tiêu là để cho kẻ trộm index sau bạn, mà index sau thì Google biết là sao chép. Bằng cách chèn đoạn code này vào trong file functions.php của giao diện. Sửa đổi số và đơn vị tính thành khoản thời gian trì hoãn cập nhật RSS mà bạn muốn.

Thêm nhiều liên kết nội bộ trong nội dung

Khi viết nội dung trên trang web thì bạn hãy chèn thêm nhiều liên kết nội bộ có liên quan đến nội dung chính. Điều này để người đọc tham khảo thêm thông tin từ bài viết khác hỗ trợ cho bài viết chính. Đồng thời làm giảm chất lượng nội dung sau khi đánh cắp trên website. 

Thường thì kẻ trộm sẽ xóa liên kết nội bộ của bạn trong khi bài viết gốc chỉ dẫn cho người đọc xem thêm một bài viết khác để có thêm thông tin. Điều này sẽ khiến người đọc cảm thấy khó chịu và sẽ nhận ra đây là nội dung bị đánh cắp. Về tổng thể thì sức mạnh của link nội bộ trong bài viết bị đánh cắp không bằng bài viết gốc, nên không hỗ trợ SEO bằng bài viết gốc được.

Thêm watermark (logo) vào hình ảnh

Nếu bạn để ý thì hầu hết những các hình ảnh trong bài viết trên trang web gốc đều có watermark. Khi kẻ trộm sử dụng ảnh gốc của bạn thì chẳng khác nào đang quảng bá website giùm bạn. 

Do đó cách ngăn chặn hành vi trộm cắp nội dung trên website tiếp theo đó là bạn hãy sử dụng công cụ thiết kế chèn logo vào ảnh hàng loạt trước khi đăng tải. Bạn cần chèn làm sao mà không ảnh hưởng nhiều đến người dùng nhưng làm cho kẻ trộm không thể nào che dấu được logo của bạn. 

Sử dụng DMCA và tố cáo các trang web vi phạm

Gửi thông báo DMCA cho phép bạn báo cáo hành vi vi phạm trực tuyến. Yêu cầu gỡ bỏ có thể được thực hiện đối với từng vi phạm khi không thể gỡ bỏ toàn bộ trang web. Khi yêu cầu gỡ bỏ một trang web độc lập đang sử dụng nội dung của bạn. Trước hết, bạn hãy liên hệ ngay với người hoặc trang web đó và yêu cầu gỡ bỏ trang web đó.

Nếu yêu cầu bị bỏ qua thì bạn có thể ngừng và gửi thông báo DMCA chính thức, tới người đăng ký tên miền của trang web vi phạm. Trong thông báo nên bao gồm thông tin về nội dung đã bị vi phạm. Trường hợp điều này bị bỏ qua thì bạn có thể gửi thư C&D đến máy chủ web nơi trang web được đăng ký. Nếu bạn gặp khó khăn trong việc tìm kiếm máy chủ web thì hãy sử dụng công cụ tra cứu dữ liệu đăng ký ICANN.

Yêu cầu Google Index nội dung mới ngay khi đăng

Bạn phải khai báo cho Google biết bài viết mới của mình ngay khi vừa đăng nó. Bằng cách truy cập vào Google Search Console rồi dán Url bài viết mới vào ô tìm kiếm rồi chọn Kiểm tra URL rồi Yêu cầu index. Nếu bạn đang dùng WordPress, hãy sử dụng thêm plugin Instant Indexing for Google để gửi index ngay khi vừa đăng bài. 

Sử dụng tên riêng trong nội dung

Hãy sử dụng tên thương hiệu website hoặc tên doanh nghiệp của bạn nhiều hơn thay vì chỉ sử dụng các đại từ nhân xưng “tôi” hoặc “mình”. Điều này sẽ giúp cho người người đọc nhận ra đây là nội dung lấy từ website của bạn nếu như kẻ trộm quên sửa lại nội dung.

Với những cách ngăn chặn đánh cắp nội dung website mà chúng tôi đã chia sẻ ở trên thì mong rằng bạn có thể áp dụng thành công để bảo vệ nội dung trên trang web của mình. Hãy tạo ra những nội dung sáng tạo mang đến nhiều giá trị cho người đọc và áp dụng các phương pháp bảo vệ sẽ giúp nâng cao thứ hạng cho website của bạn trên Google. 

Mời bạn xem thêm:

Câu hỏi thường gặp 

Điều gì xảy ra khi sao chép nội dung trang web khác? 

Trường hợp bạn sao chép nội dung trên website của người khác thì có thể tác động xấu đến SEO. Điều này sẽ làm giảm thứ hạng xếp hạng trên website của bạn và ảnh hưởng đến khả năng thu thập dữ liệu trang web của bạn cùng nhiều vấn đề khác. 

Làm cách nào để ngăn mọi người sao chép nội dung trên website? 

Một trong những cách để ngăn chặn việc sao chép nội dung trên trang web của bạn đó là tắt chức năng nhấp chuột phải vào trang web. Điều này sẽ ngăn chặn mọi người có thể sao chép và dán nội dung của bạn. Ngoài ra, bạn có thể tạo hình mờ cho hình ảnh của bạn. Điều này gây cản trở cho mọi người trong việc lấy cắp nội dung trên website của bạn và sử dụng nội dung đó mà không được có sự cho phép. 

Có thể sử dụng nội dung từ trang web khác không? 

Nếu bạn muốn sử dụng hợp pháp nội dung từ một trang web khác thì hãy yêu cầu sự cho phép của chủ sở hữu. Kế tiếp bạn hãy lưu một bản sao của quyền đó ở nơi bạn có thể dễ dàng truy cập nếu có bất kỳ thay đổi nào về nó sau này. 

5/5 - (1 vote)