18:16 +07 Thứ bảy, 22/09/2018

Bài viết theo chủ đề

Trang nhất » Bài viết » Phương pháp » Cách

Cách cấu hình file robots.txt tốt cho SEO

Chủ nhật - 18/12/2011 08:08
Khi một search engine tìm đến web site nào đó trước tiên nó phải kiếm tập tin robots.txt. Vậy tập tin robots.txt là gì ?
Cách cấu hình file robots.txt tốt cho SEO

Cách cấu hình file robots.txt tốt cho SEO

Tập tin robots.txt là một file dạng text bình thường (có thể dùng trình soạn thảo Notepad để tạo ra) nó chứa nội dung quy định các seach engine được phép hay không được phép truy cập vào một file hay một thư mục của một web site.

                   

Các User Agent của Google

Google có vài user-agent chính. Bạn có thể ngăn chúng bằng cách thêm tên của bọ tìm kiếm tương ứng và trong dòng User-agent tương ứng trong bảng ghi robots.txt. Nếu bạn chặn Googlebot thì có nghĩa là bạn chặn tất cả các bọ tìm kiếm với từ khóa “Googlebot”.

Googlebot
Đánh chỉ số từ các chỉ mục cũ và mới của Google.
Googlebot-Mobile
Đánh chỉ số cho các thiết bị cầm tay hoặc di động.
Googlebot-Image
Đánh chỉ số các tệp tin ảnh.
Mediapartners-Google
Xuất hiện trong các trang dăng quảng cáo của Google Adsense.
Adsbot-Google
Đánh chỉ số các trang được nhà quảng cáo sử dụng giới thiệu sản phẩm hay dịch vụ thông qua Google Adwords. Nó cho phép đánh giá chất lượng của trang dùng dịch vụ Adwords.

 

Chặn Googlebot

Để chặn toàn bộ Googlebot thì bạn thêm cú pháp sau vào file robots loại trừ :

User-agent: Googlebot Disallow: /

Cho phép Googlebot

Trong trường hợp bạn muốn chặn tất cả các bọ tìm kiếm khác trừ một robot, Googlebot chẳng hạn, thì bạn có thể sử dụng cú pháp sau. Tuy nhiên nếu bạn không muốn trang liên quan biến mất khỏi kết quả tìm kiếm của các máy tìm kiếm như Yahoo, MSN Live hay Ask thì bạn không nên làm như thế.

User-agent: * Disallow: / User-agent: Googlebot Disallow:

Cho phép mở rộng

Google hỗ trợ cú pháp mở rộng “Allow” trong tệp tin robots.txt. Có nhiều máy tìm kiếm không hỗ trợ phần mở rộng này, vì thế bạn nên tham khảo kỹ. Dòng lệnh “Allow” hoạt động cũng giống như “Disallow” chỉ khác là nó liệt kê các thư mục hay trang bạn cho phép đánh chỉ số.

Bạn có thể sử dụng đồng thời “Allow” và “Disallow” cùng nhau. Chẳng hạn để cấm tất cả các trang trong một thư mục “seotips” chẳng hạn, trừ tệp tin “toi-uu-hoa.html”, bạn hãy làm như sau :

User-agent: Googlebot Disallow: /seotips/ Allow: /seotips/toi-uu-hoa.html

Còn trong trường hợp bạn muốn chặn Googlebot và sau đó lại vẫn muốn cho các bot khác của Google (Googlebot-Mobile) chẳng hạn, bạn có thể sử dụng lệnh Allow như sau :

User-agent: Googlebot Disallow: / User-agent: Googlebot-Mobile Allow: /

Sử dụng mẫu tổ hợp

Đặc biệt hữu ích trong trường hợp bạn không muốn phải liệt kê tất cả các trang mà bạn muốn chặn. Đây là phần đuôi mở rộng mà GoogleBot hỗ trợ. Chú ý là các máy tìm kiếm khác chưa chắc đã hỗ trợ tính năng này.

Mẫu tổ hợp chuỗi các ký tự sử dụng dấu sao (*)

Bạn có thể sử dụng dấu sao (*) để liệt kê tổ hợp chuỗi các lkys tự. Ví dụ bạn có thể chặn một loạt các thư mục con bắt đầu bằng chữ wp (ví dụ wp-admin, wp-content cho blog WordPress) như sau :

User-agent: Googlebot Disallow: /wp*/

Để chặn tất cả đường dẫn URL mà chứa ký tự (?) chứa tham biến (trong ngôn ngữ PHP), bạn hãy làm như sau :

User-agent: * Disallow: /*?

Kiểm tra phần kết của chuỗi ký tự URL bằng $

Bạn cũng có thể sử dụng dấu dollard ($) để liệt kê các URL có phần kết tương ứng. Ví dụ để chặn tất cả các đường dẫn URL kết thúc với pdf (phiên bản pdf trên website để tránh trùng nội dung chẳng hạn) :

User-agent: Googlebot Disallow: /*.pdf$

Bạn cũng có thể sử dụng tổ hợp kết này với lệnh Allow. Ví dụ nếu như có dấu hỏi ? tương ứng với một session ID, bạn có thể loại trừ chúng để tránh cho GoogleBot phải đánh chỉ số một nội dung trùng lặp. Thế nhưng các URLs kết thúc bởi dấu hỏi ? lại là một phiên bản trang mà bạn muốn thêm vào. Trong trường hợp này, hãy đặt tệp tin robots.txt của bạn như sau :

User-agent: * Allow: /*?$ Disallow: /*?

Dòng lệnh Disallow:/ *? sẽ chặn tất cả các URL có chứa ký tự ? (Cụ thể là nó sẽ chặn tất cả các URL bắt đầu bằng tên miền, tiếp theo các ký tự, tiếp theo là dấu hỏi ?, tiếp theo bởi bất kể ký tự nào khác)

Dòng lệnh Allow: /*?$ sẽ cho phép bất kể đường dẫn nào kết thúc bởi dấu hỏi ? (Cụ thể là với bất kể URL nào bắt đầu bằng tên miên, theo bởi chuỗi ký tự, theo tiêp bởi dấu hỏi ?, không có ký tự nào nằm sau dấu hỏi này).

 

Robots.txt được lưu ở thư mục gốc của web site.

Ví dụ như : http://sitename.com/robots.txt
 

Những điều nên tránh:
+ Không sử dụng các chú thích trong file robots.txt, nó có thể làm cho các spider của search engine bị lầm lẫn. Ví dụ:

“Disallow: support # Don’t index the support directory”

+ Không được để khoảng trắng ở đầu dòng lệnh, ví dụ:

   User-agent: *Disallow: /cgi-bin/

+Không thay đổi trật tự của các dòng lệnh. Ví dụ:

Disallow: /supportUser-agent: *

+ Không sử dụng quá một thư mục trong dòng lệnh Disallow. Ví dụ:

User-agent: *Disallow: /support /cgi-bin/ images/

các search engine không hiểu định dạng trên. bạn nên viết thế này:

User-agent: *Disallow: /supportDisallow: /cgi-bin/Disallow: /images/

+Phải chắc chắn các mệnh đề, từ sử dụng trong lệnh là đúng. Ví dụ, thư mục của bạn là “cgi-bin” (viết thường, không viết hoa), nhưng khí vào lệnh, bạn lại viết là “Cgi-Bin” thì các search engine không hiểu được.

+ Không nên dùng lệnh Allow trong file robots.txt, bởi vì trong web site của bạn chắc chắn sẽ có một số trang hoặc một số thành phần bạn không muốn bị người khác “nhòm ngó”. nếu bạn sử dụng lệnh Allow, tất cả mọi ngóc ngách trong web site của bạn sẽ bị index!

Bạn có thể kiểm tra file robots.txt của site bằng cách vào Webmaster Tools của google (phải đăng nhập tài khoản) vào Site configuration->Crawler access.
Copy nội dung file robots.txt dán vào ô đâu tiên. Nhấn vào nút Test. Kết quả sẽ hiển thị ở dưới cùng.
Tổng số điểm của bài viết là: 10 trong 2 đánh giá
Click để đánh giá bài viết
Từ khóa: SEo, robots, seach engine, Googlebot
Sang Koi - 01/04/2013 18:40
Cảm ơn bạn đã chia sẽ. Mình đang sử dụng mã nguồn mở Opencart và có 2 sitemap: 1 cái cho sản phẩm (feed/google_sitemap), 1 cái cho tin tức (feed/news), mình cấu hình file robots.txt như thế này có được ko? Cảm ơn.


User-agent: *
Disallow: /cgi-bin/
Disallow: /bin/
Sitemap: http://kenhphanphoi.co/index.php?route=feed/google_sitemap
Sitemap: http://kenhphanphoi.co/index.php?route=feed/news
Comment addGửi bình luận của bạn
Mã chống spamThay mới

Những tin mới hơn

Những tin cũ hơn