Thực chất, file robots.txt là một tập tin văn bản đơn giản (không chứa mã HTML) được đặt trong thư mục gốc của website
ví dụ :   http://seotopvn.com/robots.txt
Để tạo một file robots.txt rất đơn giản. Việc đầu tiên các bạn mở file notepad và lưu file với tên robots.txt rồi sau đó ghi các dòng lệnh với cấu trúc như sau :
Nếu bạn muốn tất cả các search engine có thể index website của bạn, nhưng không được index các trang trong thư mục “cgi-bin” thì sử dụng lệnh sau:
User-agent: *
Disallow: /cgi-bin/

Những điều nên tránh:

  • Không sử dụng các chú thích trong file robots.txt, nó có thể làm cho các spider của search engine bị lầm lẫn.
Ví dụ:
“Disallow: support # Don’t index the support directory”
  • Không được để khoảng trắng ở đầu dòng lệnh
Ví dụ:
User-agent: *
Disallow: /cgi-bin/

  • Không thay đổi trật tự của các dòng lệnh.
Ví dụ:
Disallow: /support
User-agent: *

  • Không sử dụng quá một thư mục trong dòng lệnh Disallow.
Ví dụ:
User-agent: *
Disallow: /support /cgi-bin/ images/

  • Các search engine không hiểu định dạng trên. bạn nên viết thế này:
User-agent: *
Disallow: /support
Disallow: /cgi-bin/
Disallow: /images/

  • Phải chắc chắn các mệnh đề, từ sử dụng trong lệnh là đúng.
Ví dụ:
Thư mục của bạn là “cgi-bin” (viết thường, không viết hoa), nhưng khí vào lệnh, bạn lại viết là “Cgi-Bin” thì các search engine không hiểu được.
  • Không nên dùng lệnh Allow trong file robots.txt
Bởi vì trong website của bạn chắc chắn sẽ có một số trang hoặc một số thành phần bạn không muốn bị người khác “nhòm ngó”. nếu bạn sử dụng lệnh Allow, tất cả mọi ngóc ngách trong website của bạn sẽ bị index.