Bạn đang xem bài viết File robots.txt là gì? Chi tiết 3 cách tạo file robots.txt cho WordPress đơn giản tại casiofx.vn  bạn có thể truy cập nhanh thông tin cần thiết tại phần mục lục bài viết phía dưới.

Robots.txt là một tệp tin trên website giúp trình thu thập dữ liệu của các công cụ tìm kiếm. Bạn có thể cập nhật file bằng PC hoặc laptop. Tham khảo cách tạo file robots.txt cho WordPress của casiofx.vn trong bài viết sau đây nhé!

File robots.txt là gì?

Robots.txt là tập tin văn bản đơn giản với đuôi mở rộng là .txt. Tệp tin là một phần của Robots Exclusion Protocol (REP), quy định cách Robot Web (hoặc Robot của các công cụ tìm kiếm) thu thập dữ liệu trên web, truy cập, index nội dung và cung cấp nội dung đó cho người dùng.

Robots.txt là một phần của Robots Exclusion Protocol

Robots.txt là một phần của Robots Exclusion Protocol

Cú pháp file robots.txt

Robots.txt có các cú pháp đặc biệt được xem là ngôn ngữ riêng bao gồm:

  • User-agent: Đây là tên của các trình thu thập, truy cập dữ liệu web (ví dụ: Googlebot, Bingbot, …).
  • Disallow: Được sử dụng để thông báo cho các User-agent không được phép thu thập bất kỳ dữ liệu URL cụ thể nào. Mỗi URL chỉ được sử dụng một dòng Disallow.
  • Allow (chỉ áp dụng cho bộ tìm kiếm Googlebot): Lệnh thông báo cho Googlebot rằng nó có thể truy cập một trang hoặc thư mục con, mặc dù các trang hoặc thư mục con có thể không được phép.
  • Crawl-delay: Thông báo cho các Web Crawler biết rằng phải đợi bao lâu trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng bộ tìm kiếm Googlebot không thừa nhận lệnh này và bạn phải cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
  • Sitemap: Được sử dụng để cung cấp các vị trí của bất kỳ Sitemap XML nào được liên kết với URL này. Lưu ý rằng chỉ có các công cụ tìm kiếm Google, Ask, Bing và Yahoo hỗ trợ lệnh này.
File robots.txt bao gồm nhiều cú pháp khác nhau

File robots.txt bao gồm nhiều cú pháp khác nhau

Tạo file robots.txt để làm gì?

Robots.txt là một file được đặt trên máy chủ web để hướng dẫn các robot của công cụ tìm kiếm về cách truy cập vào trang web. Việc tạo file robots.txt có thể giúp cải thiện việc tìm kiếm và xếp hạng của trang web bởi công cụ tìm kiếm.

File robots.txt cho phép bạn chỉ định các phần của trang web mà các robot của công cụ tìm kiếm được phép truy cập hoặc bị cấm truy cập. Ví dụ, nếu bạn có một trang web chứa các trang đăng nhập hoặc dữ liệu nhạy cảm, bạn có thể sử dụng robots.txt để ngăn các robot của công cụ tìm kiếm truy cập vào các trang này.

Việc tạo file robots.txt không phải là bắt buộc, tuy nhiên, nó là một trong những cách tốt nhất để giúp công cụ tìm kiếm hiểu rõ hơn về trang web của bạn và cải thiện việc hiển thị kết quả tìm kiếm của nó.

File robots.txt giúp công cụ tìm kiếm hiểu rõ hơn về Website của bạn

File robots.txt giúp công cụ tìm kiếm hiểu rõ hơn về Website của bạn

Cách hoạt động của file robots.txt

Quá trình sử dụng file robots.txt để kiểm soát việc crawl dữ liệu của các công cụ tìm kiếm diễn ra như sau:

  • Bước 1: Công cụ tìm kiếm sẽ sử dụng phương pháp crawl (cào/phân tích) để thu thập dữ liệu từ các trang web khác nhau bằng cách theo dõi các liên kết. Quá trình crawl này còn được gọi là “Spidering” và nó giúp khám phá nội dung của trang web.
  • Bước 2: Sau khi thu thập được dữ liệu, công cụ tìm kiếm sẽ index nội dung đó để trả lời các yêu cầu tìm kiếm của người dùng. File robots.txt được sử dụng để cung cấp thông tin về cách các công cụ tìm kiếm thu thập dữ liệu từ trang web. Bằng cách sử dụng file robots.txt, các bot có thể được hướng dẫn để thu thập dữ liệu một cách chính xác và hiệu quả.
Bot công cụ tìm kiếm sẽ crawl để thu thập dữ liệu

Bot công cụ tìm kiếm sẽ crawl để thu thập dữ liệu

File robots.txt nằm ở đâu trên website?

Khi tạo một trang web WordPress, hệ thống sẽ tự động tạo ra một file robots.txt và đặt nó trong thư mục gốc của server. Ví dụ, nếu trang web của bạn được đặt tại địa chỉ abcdef.com, bạn có thể truy cập file robots.txt tại đường dẫn abcdef.com/robots.txt.

File robots.txt sẽ bao gồm các quy tắc để chỉ định cách các công cụ tìm kiếm truy cập trang web của bạn. Thông thường, file này sẽ cấm bots truy cập vào các thư mục quan trọng như wp-admin hoặc wp-includes.

Cụ thể, quy tắc “User-agent: *” được áp dụng cho tất cả các loại bots trên trang web và “Disallow: /wp-admin/” và “Disallow: /wp-includes/” cho biết bots không được phép truy cập vào hai thư mục này.

File robots.txt nằm trong thư mục gốc

File robots.txt nằm trong thư mục gốc

Kiểm tra website có file robots.txt hay không

Để xác nhận sự tồn tại của file robots.txt trên website, bạn có thể thực hiện theo các bước sau:

  • Bước 1: Nhập Root Domain của website vào thanh địa chỉ trên trình duyệt (ví dụ: abcdef.com).
  • Bước 2: Chèn /robots.txt vào cuối địa chỉ (ví dụ: abcdef.com/robots.txt).
  • Bước 3: Nhấn Enter để truy cập vào file robots.txt của website.

Nếu website có file robots.txt, bạn sẽ thấy nội dung của file được hiển thị trên trình duyệt. Ngược lại, nếu không có file này, bạn sẽ nhận được thông báo lỗi từ trình duyệt.

Cấu trúc kiểm tra file robots.txt của website

Cấu trúc kiểm tra file robots.txt của website

Quy tắc nào cần được bổ sung vào file robots.txt WordPress

File robots.txt trên WordPress thường chỉ xử lý một quy tắc tại một thời điểm. Tuy nhiên, nếu bạn muốn áp dụng các quy tắc khác nhau cho các bot khác nhau, bạn có thể thêm từng bộ quy tắc trong phần khai báo User-agent cho mỗi bot. Ví dụ, để tạo một quy tắc áp dụng cho tất cả các bot và một quy tắc khác chỉ áp dụng cho Bingbot, bạn có thể sử dụng cú pháp sau:

User-agent: *

Disallow: /wp-admin/

User-agent: Bingbot

Disallow: /

Sau đó, tất cả các Bingbot sẽ bị chặn truy cập /wp-admin/ nhưng bot của các công cụ tìm kiếm khác vẫn có thể truy cập.

Các quy tắc trong file robots.txt

Các quy tắc trong file robots.txt

3 cách tạo file robots.txt WordPress

Cách 1: Dùng Yoast SEO

Bước 1: Để bắt đầu tạo file robots.txt trên trang web WordPress của bạn, hãy truy cập vào WordPress Dashboard bằng cách đăng nhập vào trang web của bạn. Khi đăng nhập thành công, bạn sẽ thấy giao diện WordPress Dashboard.

Bước 2: Hãy chọn mục SEO trong danh sách menu bên trái và sau đó chọn Tools. Bằng cách làm như vậy, bạn sẽ được chuyển đến màn hình quản lý công cụ SEO trên WordPress.

Chọn Tools trong mục SEO ở giao diện WordPress Dashboard

Chọn Tools trong mục SEO ở giao diện WordPress Dashboard

Bước 3: Chọn File editor để chuyển đến trang chỉnh sửa các tệp liên quan đến SEO, bao gồm cả file robots.txt. Ở đây, bạn có thể tạo, chỉnh sửa và lưu file robots.txt cho trang web của mình.

Chọn File editor để chuyển đến trang chỉnh sửa file robots.txt

Chọn File editor để chuyển đến trang chỉnh sửa file robots.txt

Bạn có thể chỉnh sửa file robots.txt tại các vị trí như trên hình

Bạn có thể chỉnh sửa file robots.txt tại các vị trí như trên hình

Cách 2: Qua bộ Plugin All in One SEO

Một giải pháp khác để tạo file robots.txt cho WordPress nhanh chóng là sử dụng plugin All in One SEO. Đây là một plugin đơn giản và dễ sử dụng cho WordPress. Bạn có thể tạo file robots.txt trên WordPress bằng cách thực hiện các bước sau:

Bước 1: Truy cập vào giao diện chính của plugin All in One SEO Pack. Nếu bạn chưa cài đặt plugin này, hãy tải về TẠI ĐÂY.

Bước 2: Chọn All in One SEO > Chọn Feature Manager > Nhấp Activate cho tính năng Robots.txt.

Chọn Feature Manager trong plugin All in One SEO

Chọn Feature Manager trong plugin All in One SEO

Bước 3: Tạo và tinh chỉnh file robots.txt cho WordPress của bạn.

Vị trí tạo và chỉnh sửa file robots.txt

Vị trí tạo và chỉnh sửa file robots.txt

Cách 3: Tạo rồi upload file robots.txt qua FTP

Việc tự tạo file robots.txt cho WordPress bằng cách tạo và tải lên file qua FTP là một phương pháp đơn giản và tiện lợi. Bạn có thể làm theo các bước sau để thực hiện:

  • Bước 1: Sử dụng Notepad hoặc TextEdit để tạo mẫu file robots.txt WordPress.
  • Bước 2: Sử dụng FTP để truy cập thư mục public_html và tìm file robots.txt.
  • Bước 3: Tải lên file robots.txt mới tạo lên đó.
Tải file robots.txt lên FTP

Tải file robots.txt lên FTP

Một số quy tắc khi tạo file robots.txt

Việc tạo file robots.txt cho WordPress cần tuân thủ các quy tắc sau để tránh gặp lỗi:

  • Đặt tệp robots.txt WordPress ở thư mục cấp cao nhất của trang web để các bot có thể tìm thấy.
  • Tên file phải đúng định dạng và không phân biệt chữ hoa chữ thường, vì vậy đặt tên file là robots.txt thay vì “Robots.txt” hoặc “robots.TXT”.
  • Không nên sử dụng các mục Disallow để chặn /wp-content/themes/ hoặc /wp-content/plugins/ để tránh làm ảnh hưởng đến việc đánh giá giao diện blog hoặc website.
  • Một số User-agent sử dụng các file robots.txt không chuẩn để truy cập trang web, ví dụ như các bot độc hại hay trình Scraping địa chỉ Email.
  • Các file robots.txt thường được công khai trên web, người dùng chỉ cần thêm /robots.txt vào cuối của Root Domain để xem các chỉ thị của trang web. Vì vậy, không nên sử dụng file này để giấu thông tin cá nhân.
  • Mỗi Subdomain trên một Root Domain sẽ có các file robots.txt riêng, giúp chỉ ra vị trí của các sitemaps liên quan đến domain ở cuối tệp robots.txt.
Mỗi subdomain sở hữu một file robots.txt riêng

Mỗi subdomain sở hữu một file robots.txt riêng

Một số lưu ý khi sử dụng file robots.txt

Trong việc sử dụng file robots.txt, cần lưu ý các điểm sau:

  • Các liên kết trên trang bị chặn bởi robots.txt sẽ không được các bots theo dõi trừ khi các liên kết này có liên kết với các trang khác. Do đó, các tài nguyên được liên kết có thể sẽ không được thu thập và lập chỉ mục.
  • Không nên sử dụng file robots.txt để ngăn dữ liệu nhạy cảm xuất hiện trong kết quả SERP vì các bots có thể bỏ qua các chỉ thị của tệp robots.txt trên Root Domain hay trang chủ của bạn.
  • Hầu hết các User-agent từ cùng một công cụ đều tuân theo một quy tắc, do đó không cần chỉ định các lệnh cho từng User-agent. Tuy nhiên, việc làm này vẫn có thể giúp điều chỉnh được cách Index nội dung trang web.
  • Các công cụ tìm kiếm sẽ lưu trữ nội dung file robots.txt WordPress, nhưng vẫn thường cập nhật nội dung trong bộ nhớ cache ít nhất một lần một ngày. Nếu muốn cập nhật nhanh hơn, có thể sử dụng chức năng Gửi của Trình kiểm tra tệp robots.txt.
  • Nếu muốn chặn trang web khỏi các kết quả tìm kiếm, hãy sử dụng một phương pháp khác thay vì tạo file robots.txt cho WordPress, ví dụ như dùng mật khẩu bảo vệ hay Noindex Meta Directive.
Noindex Meta Directive có thể chặn công cụ tìm kiếm đến trang web của bạn

Noindex Meta Directive có thể chặn công cụ tìm kiếm đến trang web của bạn

Xem thêm:

  • Máy tính bàn (PC) có Bluetooth không? Cách thiết lập và kết nối Bluetooth cho PC
  • Tìm hiểu về USB wifi và cách chọn mua USB wifi cho PC chi tiết
  • Cách nâng cấp RAM cho PC, laptop đơn giản nhất. Những lưu ý khi nâng cấp RAM

Trên đây là tổng quan và cách tạo file robots.txt cho WordPress. Nếu còn bất kỳ thắc mắc nào về tệp robots, bạn vui lòng để lại bình luận để được chuyên gia hỗ trợ giải đáp.

Cảm ơn bạn đã xem bài viết File robots.txt là gì? Chi tiết 3 cách tạo file robots.txt cho WordPress đơn giản tại casiofx.vn  bạn có thể bình luận, xem thêm các bài viết liên quan ở phía dưới và mong rằng sẽ giúp ích cho bạn những thông tin thú vị.