Cách tối ưu Robots.txt chuẩn SEO cho Blogspot

Hí ae, cũng đã lâu rồi hôm nay mình mới ngồi lại để tối ưu SEO cho blog mình. Ngoài việc phân bổ từ khóa trong bài viết, thì cũng phải cần nhiều yếu tố khác, điển hình như là robots.txt - Tệp robots.txt giúp cho trình thu thập dữ liệu của các công cụ tìm kiếm biết được là có thể hay không thể yêu cầu thu thập dữ liệu từ những trang hoặc tệp nào trên trang web của bạn. Hôm nay mình sẽ hướng dẫn Cách tối ưu Robots.txt chuẩn SEO cho Blogspot

Tối ưu Robots.txt chuẩn SEO cho Blogspot

Robots.txt là gì

Robots.txt là một tệp bao gồm các lệnh điều hướng quá trình thu thập dữ liệu của các công cụ tìm kiếm. Nó giúp cho trình thu thập dữ liệu và lập chỉ mục (index) của các công cụ tìm kiếm biết được là có thể hay không thể yêu cầu thu thập dữ liệu từ những trang hoặc tệp nào trên trang web của bạn.

Như đã viết ở trên thì robots.txt sẽ rất tốt cho SEO khi bạn ngăn chặn được một số liên kết không mong muốn index trên công cụ tìm kiếm.

Lợi ích khi sử dụng robots.txt

Thêm robots.txt là tùy chọn không bắt buộc, thế nhưng nó lại khá cần thiết là vì:

  • Chặn index các tài nguyên không cần thiết (ví dụ: video, file PDF,...)
  • Chặn index trang không cần thiết.
  • Chèn Sitemap
  • Tối ưu quá trình crawl: Google luôn có một mức thu thập dữ liệu tối đa cho một website trong một khoảng thời gian nhất định. Vì thế, chúng ta cần index trang cần thiết và loại bỏ các trang cần thiết để tiết kiệm cho quá trình crawl này.

Các lệnh cơ bản của robots.txt

Câu lệnh Chức năng
User-agent: [Bắt buộc, ít nhất một lệnh trong mỗi nhóm] Đây là tên của trình thu thập dữ liệu của công cụ tìm kiếm. Ví dụ như Googlebot
Allow: Cú pháp cho phép các robot của công cụ tìm kiếm thu thập dữ liệu.
Disallow: Cú pháp không cho phép các robot của công cụ tìm kiếm thu thập dữ liệu.
Crawl-delay: Thông số này xác định thời gian (tính bằng giây) bots phải đợi trước khi chuyển sang phần tiếp theo (cú pháp này ít được sử dụng)
Sitemap: Khai báo vị trí sitemap của website.

Chỉnh sửa robots.txt cho Blogsopt

Bước 1: Vào trang quản lí blog > Cài đặt.

Chỉnh sửa robots.txt cho Blogsopt

Bước 2: Kéo xuống dưới và tìm đến Trình thu thập thông tin và lập chỉ mục.

Bật robots.txt tùy chỉnh và nhấp bên dưới để chỉnh sửa.

Cấu hình robots.txt chuẩn cho Blogspot

Dưới đây là một cấu hình robots.txt chuẩn dành cho những bạn đang dùng Blogspot


User-agent: *
Allow: /
User-agent: Googlebot
Allow: /
Allow: /search/label
Disallow: /search
Allow: /search(/)?$
Disallow: *archive.html$
Sitemap: https://www.fayedark.com/atom.xml?redirect=false&start-index=1&max-results=500

Lưu ýThay www.fayedark.com thành tên miền của bạn và nếu blog của bạn có hơn 500 bài viết thì đổi 500 thành số lớn hơn nha

Giải thích sương sương về cấu hình này

Đầu tiên là User-agent: *, Cú pháp này cho phép mọi bot vào thu thập dữ liệu như bot của Google, Bing, ... và xác định các quy tắc được áp dụng bên dưới.

Allow: /, Dòng này nghĩa là cho phép index tất cả các tiền tố url

Mình muốn Google không thu thập vào các trang không cần thiết mà các bot khác vẫn thu thập được, nên mình viết lệnh riêng cho Googlebot bằng cách thêm dòng User-agent: Googlebot

Cho phép Thu thập dữ liệu của trang nhãn: Allow: /search/label/.

Chặn thu thập những trang tìm kiếm có thể không có nội dung (Disallow: /search) nhưng vẫn cho phép thu thập trang bài viết (Allow: /search(/)?$)

Disallow: archive.html$ là chặn thu thập dữ liệu trang web có đuôi archive.html. Mình dùng kí tự ($) để url khớp ở cuối.

Cuối cùng là Sitemap: https... đánh dấu địa chỉ sơ đồ trang web của blog.

Lời kết

Vậy là bạn đã có thể tạo và chỉnh sửa file robots.txt để tối ưu SEO cho Blogspot rồi, nếu có thắc mắc gì hãy để lại bình luận dưới bài viết nhé. Hi vọng bài viết sẽ giúp ích cho bạn.