Một trong những thứ nhàm chán nhất khi chúng ta làm technical SEO chính là robots.txt. Nhưng đôi khi cũng sẽ phải có những lỗi nhỏ phát sinh trong file này và bạn cần phải hiểu về nó để sửa chữa. Về cơ bản thì robots.txt đơn giản là một file để chỉ dẫn cho bọ nơi nào nó có thể đi và nơi nào không.

Những phần cơ bản của robots.txt

  • User-agent – loại robot
  • Disallow – chặn không cho bọ vào
  • Allow – cho phép bọ vào những trang này
  • Crawl-delay – cho bọ đợi một khoảng thời gian rồi mới bắt đầu crawl tiếp
  • Sitemap – xác định khu vực để sitemap
  • Noindex – nói với Google xóa các trang này khỏi danh sách index
  • # – ghi chú và sẽ không được đọc bởi bọ
  • * – phần chữ
  • $ – kết thúc URL

Những thứ khác bạn cần biết về robots.txt

  • File robots.txt nên ở trong thư mục gốc, ví dụ như domain.com/robots.txt
  • Mỗi subdomain đều cần có file robots.txt, điều đó có nghĩa là domain.com/robots.txt không giống với www.domain.com/robots.txt
  • Bọ có thể bỏ qua file robots.txt của bạn
  • Disallow đơn giản là không cho bọ vào một khu vực nào đó. Nhiều người thường sử dụng de-index nhưng nó sẽ không hiệu quả và trang của bạn vẫn được hiển thị nếu có internal link tới nó.
  • Bạn có thể chỉnh được crawl-delay trong Search Console
  • Bạn phải allow CSS và cả JS nữa, ví dụ như sau:
  • Bạn cần xác nhận file robots.txt trong Search Console
  • Đừng chặn bọ và crawl content trùng lặp của bạn vì Google không khuyến khích bạn làm vậy, họ sẽ tự xử lý được chuyện đó.
  • Đừng disallow các trang đã được redirect, bọ sẽ không đi theo các trang này
  • Disallow trang sẽ khiến nó không thể xuất hiện trong archive.org được
  • Bạn có thể search trong archive.org phiên bản robots.txt cũ của mình chỉ cần gõ vào domain.com/robots.txt
  • Dung lượng tối đa cho file robots.txt là 500KB

Còn đây là những thứ thú vị dành cho bạn

Nhiều công ty đã làm những thứ thú vị trong file robots.txt của họ, bạn hãy xem nhé.

Tác phẩm ASCII

Nike.com đã để slogan của họ vào robots.txt một cách hài hước, với dòng chữ “just crawl it” và thêm vào cả logo nữa.

file mới robots.txt

SEOer còn thêm cả thông điệp tuyển dụng vào nữa

TripAdvisor cũng có thông điệp tuyển dụng của họ trong robots.txt

TripAdvisor cũng có thông điệp tuyển dụng của họ trong robots.txt

thông điệp tuyển dụng của họ trong robots.txt

Robot hài hước

Yelp nhắc nhở robot về 3 luật về robot nổi tiếng của Asimov

Robot hài hước

Và last.fm cũng vậy

Và last.fm cũng vậy

Theo YouTube thì chúng ta đã thua trong cuộc chiến với robot

Theo YouTube thì chúng ta đã thua trong cuộc chiến với robot

One Power thì đưa câu nói trong Star Wars vào robots.txt của mình

One Power thì đưa câu nói trong Star Wars vào robots.txt

Google thì muốn Larry Page và Sergey Brin được an toàn, tránh khỏi tầm mắt của Kẻ hủy diệt (trong bộ phim Terminators) khi ghi trong file robots.txt của họ.

Google thì muốn Larry Page và Sergey Brin được an toàn

Sử dụng robots.txt để trò chuyện với người khác

Một trong những ví dụ ưa thích của tôi là của Oliver Mason, người đã disallow mọi thứ trong robots.txt. Bạn hãy vào xem trang của anh ấy nhé, đọc dòng cuối để thấy anh ấy cũng hối hận một chút về quyết định của mình.

Trong website của tôi cũng có thông điệp với những người vào đọc robots.txt của mình. Thoạt nhìn qua thì giống như tôi disallow mọi thứ nhưng không phải vậy. Trong file viết thế này:

Sử dụng robots.txt để trò chuyện với người khác

hưng tôi save nó lại với một dấu BOM ở trước dòng đầu tiên, vì vậy dòng này sẽ sai về mặt cấu trúc. Nhưng do dòng thứ nhất xác định tất cả mọi robot thực hiện lệnh disallow ở dưới sai cấu trúc nên lệnh này cũng sai luôn.

thực hiện lệnh disallowCả một website ở trong file robots.txt

Đây là một công trình của Alec Bertram và anh ấy có cả mã nguồn của mình cũng như hướng dẫn bạn cách làm. File robots.txt này được dùng cho vinna.cc. Nó được nhúng vào cả một trò game. Bạn có thể vào https://vinna.cc/robots.txt để chơi trò Robots Robots Evolution ngay bây giờ.
Trích MXH