Robot.txt là gì?
Một trong những điều cần chú ý để website của bạn có thể đạt thứ hạng cao trong các cỗ máy tìm kiếm là bạn phải xây dựng cho mình một file Robots.txt theo đúng tiêu chuẩn .
Vậy file Robots.txt là gì? Khi một search engine tìm đến (nguyên văn Crawler) website nào đó, nó sẽ tìm một file đặc biệt trước tiên, đó là file robots.txt. File robots.txt cho search engine đó biết rằng, website này có thể index hoặc không (tùy theo lệnh được viết trong file robots.txt).
Thực chất, file robots.txt là một tập tin văn bản đơn giản (không chứa mã HTML) được đặt trong thư mục gốc của web site, ví dụ *http://www.tapkiemtien.com/robots.txt.
làm thế nào để tạo ra một file robots.txt?
Rất đơn giản, bạn có thể mở chương trình Notepad hay bất cứ chương trình soạn thảo văn bản nào, lưu file với tên robots.txt là xong.
Các dòng lệnh trong file này có cấu trúc như sau:
User-agent: googlebot
Disallow: /cgi-bin/
Trong đó User-agent: là đại diện của một search engine, Googlebot là spider của Google. Trong ví dụ này, chỉ các spider của Google là được phép index web site.Disallow: là không cho phép thực hiện điều gì đó. ở ví dụ trên là không cho phép các spider index thư mục "cgi-bin" trong web site.
Một ví dụ nữa:
User-agent: googlebot
Disallow: /support
Tất cả các trang nằm trong thư mục support, hay support-desk sẽ không được index.
Nếu bạn muốn tất cả các search engine có thể index web site của bạn, nhưng không được index các trang trong thư mục "cgi-bin" thì sử dụng lệnh sau:
User-agent: *
Disallow: /cgi-bin/
Những điều nên tránh:
Không sử dụng các chú thích trong file robots.txt, nó có thể làm cho các spider của search engine bị lầm lẫn. Ví dụ:
"Disallow: support # Don't index the support directory" might be misinterepreted as
"Disallow: support#Don't index the support directory".
Không được để khoảng trắng ở đầu dòng lệnh, ví dụ:
User-agent: *
Disallow: /cgi-bin/
Không thay đổi trật tự của các dòng lệnh. Ví dụ:
Disallow: /support
User-agent: *
Không sử dụng quá một thư mục trong dòng lệnh Disallow. Ví dụ:
User-agent: *
Disallow: /support /cgi-bin/ /images/
các search engine không hiểu định dạng trên. bạn nên viết thế này:
User-agent: *
Disallow: /support
Disallow: /cgi-bin/
Disallow: /images/
Phải chắc chắn các mệnh đề, từ sử dụng trong lệnh là đúng.
Ví dụ, thư mục của bạn là "cgi-bin" (viết thường, không viết hoa), nhưng khí vào lệnh, bạn lại viết là "Cgi-Bin" thì các spider sẽ "bó tay".
Không nên dùng lệnh Allow trong file robots.txt
Bởi vì trong web site của bạn chắc chắn sẽ có một số trang hoặc một số thành phần bạn không muốn bị người khác "nhòm ngó". nếu bạn sử dụng lệnh Allow, tất cả mọi ngóc ngách trong web site của bạn sẽ bị index!
theo tapkiemtien
- 28/02/2010 03:15 - Sau đây là danh sách 50 mẹo nhỏ giúp bạn tự cải thiện thứ hạng rank của mình.
- 28/02/2010 03:14 - 9 yếu tố ảnh hưởng thứ hạng, SEO và tính khả dụng
- 28/02/2010 03:12 - Hướng dẫn quảng bá website
- 28/02/2010 03:11 - Trao đổi liên kết là gì?
- 28/02/2010 01:40 - SEO là gì?
- 28/02/2010 01:22 - 6 thủ thuật SEO bất chính khiến website bị cấm
- 28/02/2010 01:19 - Thủ thuật SEO Copywriting
- 27/02/2010 19:17 - Virtuemart SEO 1 : Duplicate, SEF url và Sitemaps
- 27/02/2010 19:16 - Virtuamart SEO 2 : Google Analytics & Meta Tag
- 27/02/2010 19:15 - Thủ thuật SEO - Thay đổi tên miền nhưng không ảnh hưởng đến traffic và ranking
- 27/02/2010 19:11 - Liệu google pagerank có ảnh hưởng đến việc làm SEO ?
- 27/02/2010 19:10 - SEO cho website về khách sạn và du lịch
- 27/02/2010 18:49 - SEO, Marketing & những yêu tố tác động đến giá trị chuyển đổi
- 27/02/2010 18:46 - Canonical - Khắc phục lỗi trùng lặp nội dung trong SEO
- 27/02/2010 18:41 - SEO là nghệ thuật hay khoa học ?
- 27/02/2010 18:40 - Cách phát hiện & xử lý những phần trong website không được google crawl
- 27/02/2010 18:38 - Sức mạnh & Cách sử dụng Anchor Text trong SEO
- 27/02/2010 18:37 - Sự thật đằng sau những lời đồn về công việc SEO
- 27/02/2010 18:35 - Tối ưu hóa keyword cho SEO tốt hơn
- 27/02/2010 18:33 - 7 bước làm tăng tốc độ index webiste của Google
- 27/02/2010 18:28 - Tỷ lệ nhắp chọn CRT & Google Ranking
- 27/02/2010 18:26 - Robots.txt & Googlebot : Allow & Disallow
- 27/02/2010 18:24 - Hướng dẫn làm sitemap cho website
- 27/02/2010 18:23 - Làm thế nào để quảng bá website thành công trên Internet
- 27/02/2010 18:20 - Tối ưu hóa cấu trúc nội liên kết trong website
- 27/02/2010 18:14 - Thủ thuật tối ưu hóa Meta Title
- 25/02/2010 18:43 - Sử dụng web 2.0 để tăng traffic cho website
- 25/02/2010 18:38 - Lấy lại pagerank cho website trên google
- 25/02/2010 18:34 - Tối ưu hóa snippets với meta description
- 25/02/2010 18:31 - Trao đổi liên kết - Reciprocal linking - Interlinking
- 25/02/2010 18:30 - Những sai lầm khi xây dựng liên kết cho Website
- 25/02/2010 18:29 - Giá trị của Link
- 25/02/2010 18:15 - .htaccess và redirect 301
- 25/02/2010 18:14 - 15 thủ thuật xây dựng liên kết cho những Website mới
- 25/02/2010 18:12 - Ảnh hường của liên kết đến kết quả xếp hạng website
Kiến Thức Thiết Kế Web 

