Cách sử dụng file robots.txt chuẩn xác nhất 2024

Với mỗi website đều có file robots.txt hỗ trợ các công cụ tìm kiếm trong việc thu thập dữ liệu để lập chỉ mục. Nó là yếu tố đầu tiên mà các Seoer cần kiểm tra và tối ưu để nâng cao thứ hạng của website trên trang kết quả tìm kiếm. Đồng thời file robots.txt có vai trò quyết định đến việc các trang web có được index hay không được trên Google. Vậy File robots.txt là gì? Nó có tầm quan trọng ra sao và cách sử dụng file robots.txt chuẩn như thế nào? Tất cả sẽ được Optimal Agency giải đáp chi tiết trong bài viết dưới đây. Theo dõi ngay!

File robots.txt là gì?

Là tệp tin chuyên dụng được sử dụng trong quản trị website với phần mở rộng .txt. Nó là một phần của Robots Exclusion Protocol (REP) chứa một nhóm các tiêu chuẩn Web quy định của Robot web thu thập dữ liệu, truy cập, index và cung cấp nội dung cho người dùng. Công dụng của file robots.txt đó là giúp các nhà quản trị web có được sự linh hoạt và chủ động khi kiểm soát robot của Google. File robots.txt được sử dụng để cấp quyền chỉ mục cho những con bot của công cụ tìm kiếm. 

Robots.txt có vai trò quan trọng trong việc quản lý sự truy cập của các bot tìm kiếm đến nội dung của website. Bằng việc chỉ định các liên kết mà bot không truy cập để đảm bảo sự riêng tư và tối ưu hóa quá trình thu thập dữ liệu. Từ đó giúp nâng cao hiệu quả SEO và đảm bảo các trang quan trọng được ưu tiên. File robots.txt giúp kiểm soát lưu lượng bot công cụ tìm kiếm truy cập, bảo vệ thông tin và tăng tốc độ lập chỉ mục cho các trang quan trọng. 

Khi trình thu thập dữ liệu truy cập website của bạn thì nó sẽ tìm kiếm file robots.txt. Nếu file này tồn tại thì trình thu thập dữ liệu sẽ đọc hướng dẫn trong tệp tin này để xác định các trang web hoặc thư mục có thể truy cập và thu thập dữ liệu. Lúc này thì trình thu thập dữ liệu sẽ thực hiện theo hướng dẫn trong file robots.txt để thu thập dữ liệu trên website của bạn. Nếu biết cách sử dụng file robots.txt thì bạn có thể kiểm soát quá trình truy cập của các bot đến các vị trí trên trang web. Điều này giúp cải thiện hiệu suất của trang web, tối ưu hóa trải nghiệm của người dùng và tăng thứ hạng tìm kiếm của website. 

File robots.txt là gì?

Vai trò của file robots.txt đối với website

Bằng cách tạo sử dụng file robots.txt giúp nhà quản trị kiểm soát việc truy cập của bot công cụ tìm kiếm đến website. Đồng thời nó ngăn chặn các nội dung trùng lặp xuất hiện website, bảo vệ sự riêng tư của thông tin trên trang cũng như mang đến những lợi ích như sau: 

Kiểm soát truy cập 

Với khả năng cho phép nhà quản trị trang web kiểm soát quyền truy cập của các robot và công cụ tìm kiếm vào các phần của trang web. Bạn có thể chỉ định các phần muốn bot truy cập và bảo vệ sự riêng riêng tư cho các phần quan trọng của trang web. Trường hợp bạn phát hiện một robot hoặc công cụ tìm kiếm không đáng tin thì có thể sử dụng file robots.txt để từ chối quyền truy cập từ chúng. 

Tiết kiệm tài nguyên 

Khi bot công cụ tìm kiếm truy cập vào trang web sẽ gây tiêu tốn tài nguyên của máy chủ và thời gian tải trang. Với việc sử dụng file robots.txt thì bạn có thể chỉ định các robot không nên truy cập vào các phần không cần thiết hoặc các phần gây tiêu tốn nhiều tài nguyên. Từ đó giảm tải cho máy chủ để tăng tốc độ tải trang web. 

Bảo vệ nội dung nhạy cảm

Nhờ khả năng kiểm soát tối đa nên file robots.txt giúp ngăn chặn trình thu thập dữ liệu truy cập và thu thập các nội dung nhạy cảm như thông tin đăng nhập, thông tin cá nhân. Từ đó nhà quản trị có thể bảo vệ thông tin cá nhân của mình khỏi bị đánh cắp hoặc sử dụng sai mục đích. File robots.txt giúp bảo vệ nội dung quan trọng và giữ cho các trang web chuyên dụng không bị chỉ mục. 

Cải thiện thứ hạng SEO

Thông qua việc tạo và sử dụng file robots.txt trong website thì Google có thể hiểu rõ hơn cấu trúc website và nội dung quan trọng. Khi được sử dụng đúng cách thì nó sẽ giúp tối ưu hóa quá trình tìm kiếm và hiển thị nội dung quan trọng trên trang web. Bằng việc chỉ định rõ các phần được phép truy cập và lập chỉ mục thì bạn có thể đảm bảo rằng các robot truy cập vào nội dung quan trọng giúp tiết kiệm tài nguyên. Qua quá trình chỉ định bot Google thu thập dữ liệu tại trang mong muốn. Khi đó bạn có thể đảm bảo rằng Google lập chỉ mục website của bạn một cách hiệu quả và chính xác nhất, cải thiện thứ hạng SEO. 

Hướng dẫn cách tạo file robots.txt trên WordPress chuẩn

Việc tạo và quản lý file robots.txt là điều quan trọng để tối ưu hóa SEO cho trang web WordPress. Trước khi tìm hiểu về cách sử dụng file robots.txt thì hãy cùng khám phá về cách file robots.txt chuẩn xác theo hướng dẫn sau: 

Sử dụng Yoast SEO

Bạn có thể tạo và chỉnh sửa file robots.txt cho WordPress trên bảng điều khiển. Để thực hiện việc này thì bạn hãy đăng nhập vào website của mình. Tại giao diện trang Dashboard ở phía bên trái màn hình thì bạn chọn vào SEO rồi chọn Tools chọn tiếp File editor. Khi đó bạn sẽ thấy mục robots.txt và bạn có thể tạo hoặc chỉnh sửa file robots.txt tại các vị trí này. Sau khi bạn chỉnh sửa file theo yêu cầu thì hãy nhấp vào Lưu thay đổi là hoàn tất. 

Sử dụng plugin All in One SEO Pack

Ngoài việc sử dụng Yoast SEO thì bạn có thể dụng plugin All in One SEO để tạo file robots.txt cho website của mình. Về cách thức thực hiện như sau: 

Truy cập giao diện chính của All in One SEO Pack rồi bạn chọn vào All in One SEO và chọn tiếp Features Manager. Ở trong mục Robots.txt thì bạn chọn vào Active để All in One SEO Pack sẽ tự động tạo file robots.txt với các cài đặt cơ bản. Lựa chọn này cho phép bạn chỉnh sửa file robots.txt theo nhu cầu của mình. Sau cùng bạn nhấp vào Lưu thay đổi là xong. 

Tạo rồi upload file robots.txt qua FTP

Trường hợp bạn không muốn dùng plugin để tạo file robots.txt WordPress thì bạn có thể tự tạo file robots.txt thủ công cho WordPress của mình. Khi đó bạn hãy tạo file robots.txt WordPress thủ công rồi upload file qua FTP. Bạn mở Notepad hoặc Textedit để tạo mẫu file robots.txt WordPress. Kế tiếp bạn hãy mở FTP rồi chọn thư mục public_html sau đó chọn file robots.txt và chọn Upload là xong. 

Cách sử dụng file robots.txt đúng cách 

Khi đã có file robots.txt thì bạn có thể bắt đầu sử dụng tệp này để kiểm soát quyền truy cập của bot công cụ tìm kiếm tại các khu vực cụ thể trên trang như sau: 

Cách sử dụng file robots.txt đúng cách 

Không cho phép bot truy cập vào thư mục nào mà mình không muốn

Nếu bạn muốn chặn quyền truy cập vào một tệp hoặc thư mục cụ thể bao gồm cả các thư mục con trong thư mục đó. Để áp dụng điều này cho WordPress bạn có thể chặn toàn bộ thư mục wp-admin hoặc wp-login.php. Lúc này bạn có thể sử dụng các lệnh như sau: 

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-login.php

Sử dụng Robots.txt để chặn truy cập vào trang web toàn bộ 

Trong trường hợp bạn muốn tất cả quyền truy cập trình thu thập thông tin vào trang web của mình. Cách này thường áp dụng một trang web mới phát triển hoặc bạn không muốn bot của công cụ tìm kiếm index các nội dung tạm thời. Khi đó bạn hãy thêm mã này vào tệp robots.txt của WordPress:

User-agent: *

Disallow: /

Sử dụng Robots.txt để chặn truy cập của một bot

Bạn không muốn con bot của công cụ tìm kiếm thu thập dữ liệu các trang của mình. Cụ thể là bạn không muốn Bing thu thập dữ liệu các trang của bạn. Thay vào đó bạn muốn Google index càng nhiều càng tốt và thậm chí không muốn Bing nhìn vào trang web của bạn. Để chặn Bing thu thập dữ liệu trang web của mình thì bạn hãy sử dụng lệnh sau: 

User-agent: Bingbot

Disallow: /

Dùng Robots.txt để cho phép truy cập đến một file trong folder đã disallow

Giả sử bạn đã chặn một Folder tuy nhiên vẫn muốn cho phép truy cập đến một file cụ thể trong Folder thì bạn hãy sử dụng lệnh Allow như sau: 

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Đoạn này chặn truy cập vào toàn bộ / wp-admin / thư mục trừ các /wp-admin/admin-ajax.php tập tin.

Cách chặn bot thu thập dữ liệu kết quả tìm kiếm WordPress

Nếu bạn muốn ngăn các trình thu thập tìm kiếm thu thập dữ liệu các trang kết quả tìm kiếm của bạn. Theo mặc định, WordPress sử dụng tham số truy vấn “?s=”. Để chặn các truy cập thì bạn hãy sử dụng quy tắc sau: 

User-agent: *

Disallow: /?s=

Disallow: /search/

Cách tạo các quy tắc khác nhau cho các Bots khác nhau trong Robots.txt

Trường hợp bạn muốn áp dụng các quy tắc khác nhau cho các bot khác nhau thì hãy thêm từng bộ quy tắc trong phần khai báo User-agent cho mỗi bot. Cụ thể là nếu bạn muốn tạo một quy tắc áp dụng cho tất cả các bot và quy tắc khác áp dụng cho chỉ Bingbot thì hãy thực hiện lệnh sau: 

User-agent: *

Disallow: /wp-admin/

User-agent: Bingbot

Disallow: /

Khi đó, tất cả các bot sẽ bị chặn truy cập / wp-admin / và Bingbot sẽ bị chặn truy cập toàn bộ trang web của bạn.

Đến đây thì bạn đã hiểu được tầm quan trọng của file robots.txt cũng như biết cách sử dụng file robots.txt hiệu quả. Nếu sử dụng sai cách cũng như không biết cách quản lý, cấu hình tệp dữ liệu này sẽ ảnh hưởng rất lớn đến thứ hạng SEO của website. Bạn hãy tìm hiểu thật kỹ về file robots.txt trước khi sử dụng nhé. Ngoài ra, tại website của chúng tôi còn có vô vàn những thông tin hữu dụng khác như cách tối ưu nguồn cấp dữ liệu Google Shopping.

See more articles:

Câu hỏi thường gặp

File Robots.txt dùng chung cho nhiều website được không?

Bạn không nên sử dụng file Robots.txt cho nhiều website bởi mỗi trang có cấu trúc và nội dung khác nhau. Vì vậy đối với mỗi website thì cần có một File Robots.txt để tối ưu hóa hiệu quả thu thập dữ liệu cho từng website. Việc sử dụng File Robots.txt có thể dẫn đến các vấn đề như gây lãng phí tài nguyên thu thập. Robots có thể bỏ lỡ các trang web quan trọng ảnh hưởng đến thứ hạng website. Hơn nữa, bạn sẽ gặp khó khăn trong việc quản lý, theo dõi hiệu quả thu thập dữ liệu. 

Có nên sử dụng file Robots.txt có thể chặn bot thu thập dữ liệu được không? 

Bạn có thể sử dụng file Robots.txt để ngăn chặn bot thu thập dữ liệu truy cập vào các thư mục và trang web cụ thể. Nó hữu ích khi bot truy cập vào khu vực quản trị website hoặc các trang web chưa hoàn thiện hay trang web nhạy cảm. Bên cạnh lợi ích thì việc chặn bot thu thập dữ liệu có thể ảnh hưởng đến thứ hạng tìm kiếm của website. Do đó bạn chỉ nên chặn bot truy cập vào các thư mục hoặc trang web thực sự cần thiết. 

5/5 - (1 vote)