File robots.txt là gì? Tất tần tật những điều bạn nên biết

File robots.txt là gì? Tất tần tật những điều bạn nên biết

Trên thực tế, bạn có nhiều quyền kiểm soát các công cụ tìm kiếm hơn bạn nghĩ.

Bạn có thể điều khiển những người thu thập dữ liệu và lập chỉ mục trang web của bạn, thậm chí cả các trang riêng lẻ. Để kiểm soát điều này, bạn sẽ cần sử dụng file robots.txt. Robots.txt là một tệp văn bản đơn giản nằm trong thư mục gốc của trang web của bạn. Nó thông báo cho các robot được điều động bởi các công cụ tìm kiếm những trang nào cần thu thập thông tin và những trang nào cần bỏ qua.

Mặc dù không chính xác từ đầu đến cuối, nhưng nó là một công cụ khá mạnh mẽ và sẽ cho phép bạn trình bày trang web của mình với Google theo cách mà bạn muốn nó đọc được. Các công cụ tìm kiếm mang những yêu cầu, đánh giá “khắc nghiệt”, vì vậy điều cần thiết là phải tạo được ấn tượng tuyệt vời. File robots.txt, khi được sử dụng đúng cách, có thể cải thiện tần suất thu thập thông tin, điều này có thể cải thiện đến nỗ lực SEO của bạn.

Vậy, chi tiết file robots.txt là gì? Nó hoạt động như thế nào? Cách tạo robots.txt và nhiều điều khác,... Hãy đi tìm câu trả lời trong bài viết này nhé.

File robots.txt là gì?

Robots.txt là một tệp văn bản mà quản trị viên web tạo ra để hướng dẫn các robot web (thường là robot công cụ tìm kiếm) cách thu thập dữ liệu các trang trên trang web của họ. File robots.txt là một phần của giao thức loại trừ robot (REP), một nhóm các tiêu chuẩn web quy định cách robot thu thập dữ liệu web, truy cập và lập chỉ mục nội dung cũng như phân phát nội dung đó cho người dùng. REP cũng bao gồm các chỉ thị như meta robot , cũng như các hướng dẫn trên toàn trang, thư mục con hoặc trên toàn trang về cách các công cụ tìm kiếm xử lý các liên kết (chẳng hạn như “dofollow” hoặc “nofollow”).

Trên thực tế, file robots.txt cho biết liệu một số tác nhân người dùng (phần mềm thu thập thông tin web) có thể hay không thể thu thập thông tin các phần của trang web. Các hướng dẫn thu thập thông tin này được chỉ định bằng cách "disallowing" hoặc "allowing" hành vi của một số tác nhân người dùng (hoặc tất cả).

Định dạng cơ bản:

User-agent: [user-agent name]

Disallow: [URL string not to be crawled]

Cùng với nhau, hai dòng này được coi là một tệp robots.txt hoàn chỉnh - mặc dù một tệp robot có thể chứa nhiều dòng tác nhân người dùng và chỉ thị (ví dụ: disallows, allows, crawl-delays, v.v.).

Trong tệp robots.txt, mỗi bộ chỉ thị tác nhân người dùng xuất hiện dưới dạng một bộ rời rạc, được phân tách bằng dấu ngắt dòng:

File robots.txt

Trong tệp robots.txt có nhiều lệnh tác nhân người dùng, mỗi quy tắc không cho phép hoặc cho phép chỉ áp dụng cho (các) phương pháp sử dụng được chỉ định trong tập hợp được phân tách bằng dấu ngắt dòng cụ thể đó. Nếu tệp chứa quy tắc áp dụng cho nhiều tác nhân người dùng (User-agent), trình thu thập thông tin sẽ chỉ chú ý đến (và thực hiện theo các hướng dẫn trong) nhóm hướng dẫn cụ thể nhất.

Ví dụ về robots.txt:

Dưới đây là một số ví dụ về robots.txt đang hoạt động cho trang web www.example.com:

  • Chặn tất cả các trình thu thập dữ liệu web khỏi tất cả nội dung

User-agent: * Disallow: /

Việc sử dụng cú pháp này trong tệp robots.txt sẽ yêu cầu tất cả trình thu thập thông tin web không thu thập thông tin bất kỳ trang nào trên www.example.com, bao gồm cả trang chủ.

  • Cho phép tất cả các trình thu thập thông tin web truy cập vào tất cả nội dung

User-agent: * Disallow:

Việc sử dụng cú pháp này trong tệp robots.txt yêu cầu trình thu thập thông tin web thu thập thông tin tất cả các trang trên www.example.com, bao gồm cả trang chủ.

  • Chặn một trình thu thập thông tin web cụ thể khỏi một thư mục cụ thể

User-agent: Googlebot Disallow: /example-subfolder/

Cú pháp này chỉ cho trình thu thập thông tin của Google (tên tác nhân người dùng Googlebot) không thu thập thông tin bất kỳ trang nào có chứa chuỗi URL www.example.com/example-subfolder/.

  • Chặn một trình thu thập thông tin web cụ thể khỏi một trang web cụ thể

User-agent: Bingbot Disallow: /example-subfolder/blocked-page.html

Cú pháp này chỉ cho trình thu thập thông tin của Bing (tên tác nhân người dùng Bing) tránh thu thập thông tin trang cụ thể tại www.example.com/example-subfolder/blocked-page.html.

Robots.txt hoạt động như thế nào?

Công cụ tìm kiếm có hai công việc chính:

  • Thu thập thông tin trên web để khám phá nội dung;
  • Lập chỉ mục nội dung đó để nó có thể được cung cấp cho những người tìm kiếm đang tìm kiếm thông tin.

Để thu thập dữ liệu các trang web, các công cụ tìm kiếm đi theo các liên kết để đi từ trang này sang trang khác - cuối cùng là thu thập thông tin trên nhiều tỷ liên kết và trang web. Hành vi thu thập thông tin này đôi khi được gọi là "spidering".

Sau khi đến một trang web, trước khi xem xét nó, trình thu thập thông tin tìm kiếm sẽ tìm kiếm file robots.txt. Nếu nó tìm thấy một tệp, trình thu thập thông tin sẽ đọc tệp đó trước khi tiếp tục qua trang. Bởi vì file robots.txt chứa thông tin về cách công cụ tìm kiếm sẽ thu thập thông tin, thông tin tìm thấy ở đó sẽ hướng dẫn hành động tiếp theo của trình thu thập thông tin trên trang web cụ thể này. Nếu file robots.txt không chứa bất kỳ lệnh nào không cho phép hoạt động của tác nhân người dùng (hoặc nếu trang web không có tệp robots.txt), nó sẽ tiến hành thu thập thông tin khác trên trang web.

Các file robots.txt nhanh chóng khác phải biết:

(được thảo luận chi tiết hơn bên dưới)

  • Để được tìm thấy, tệp robots.txt phải được đặt trong thư mục cấp cao nhất của trang web.
  • Robots.txt phân biệt chữ hoa chữ thường: tệp phải được đặt tên là “robots.txt” (không phải Robots.txt, robots.TXT, hoặc các tên khác).
  • Một số tác nhân người dùng (robot) có thể chọn bỏ qua tệp robots.txt của bạn. Điều này đặc biệt phổ biến với nhiều trình thu thập thông tin bất chính hơn như robot phần mềm độc hại hoặc trình thu thập địa chỉ email.
  • Tệp /robots.txt có sẵn công khai: chỉ cần thêm /robots.txt vào cuối miền gốc bất kỳ để xem các chỉ thị của trang web đó (nếu trang web đó có tệp robots.txt). Điều này có nghĩa là bất kỳ ai cũng có thể xem những trang bạn làm hoặc không muốn được thu thập thông tin, vì vậy đừng sử dụng chúng để ẩn thông tin người dùng riêng tư.
  • Mỗi miền phụ trên miền gốc sử dụng các tệp robots.txt riêng biệt. Điều này có nghĩa là cả blog.example.com và example.com đều phải có tệp robots.txt của riêng chúng (tại blog.example.com/robots.txt và example.com/robots.txt).

Cú pháp robots.txt kỹ thuật

Cú pháp robots.txt có thể được coi là "ngôn ngữ" của tệp robots.txt. Có năm thuật ngữ phổ biến mà bạn có thể gặp trong tệp rô bốt. Chúng bao gồm:

  • User-agent: Trình thu thập thông tin web cụ thể mà bạn đang cung cấp hướng dẫn thu thập thông tin (thường là công cụ tìm kiếm). Danh sách của hầu hết các tác nhân người dùng có thể được tìm thấy ở đây.
  • Disallow: Lệnh được sử dụng để yêu cầu tác nhân người dùng không thu thập dữ liệu URL cụ thể. Chỉ cho phép một dòng "Disallow:" cho mỗi URL.
  • Allow (Chỉ áp dụng cho Googlebot): Lệnh cho Googlebot biết nó có thể truy cập một trang hoặc thư mục con mặc dù trang mẹ hoặc thư mục con của nó có thể không được phép.
  • Crawl-delay: Trình thu thập thông tin phải đợi bao nhiêu giây trước khi tải và thu thập thông tin nội dung trang. Lưu ý rằng Googlebot không thừa nhận lệnh này, nhưng tốc độ thu thập dữ liệu có thể được đặt trong Google Search Console.
  • Sitemap (Sơ đồ trang web): Được sử dụng để gọi ra vị trí của bất kỳ (các) sơ đồ trang web XML nào được liên kết với URL này. Lưu ý rằng lệnh này chỉ được hỗ trợ bởi Google, Ask, Bing và Yahoo.

Pattern-matching (Khớp mẫu)

Khi nói đến các URL thực tế để chặn hoặc cho phép, các file robots.txt có thể khá phức tạp vì chúng cho phép sử dụng đối sánh mẫu để bao gồm một loạt các tùy chọn URL có thể có. Cả Google và Bing đều tôn trọng hai cụm từ thông dụng có thể được sử dụng để xác định các trang hoặc thư mục con mà SEO muốn loại trừ. Hai ký tự này là dấu hoa thị (*) và dấu đô la ($).

  • * là một ký tự đại diện đại diện cho bất kỳ chuỗi ký tự nào
  • $ khớp với phần cuối của URL

Google cung cấp một danh sách tuyệt vời về các ví dụ và cú pháp đối sánh mẫu có thể có tại đây.

Robots.txt đi đâu trên một trang web?

Bất cứ khi nào họ truy cập một trang web, các công cụ tìm kiếm và các robot thu thập thông tin web khác (như trình thu thập thông tin của Facebook, Facebot) đều biết tìm kiếm tệp robots.txt. Tuy nhiên, họ sẽ chỉ tìm kiếm tệp đó ở một nơi cụ thể: thư mục chính (thường là tên miền gốc hoặc trang chủ của bạn). Nếu tác nhân người dùng truy cập www.example.com/robots.txt và không tìm thấy tệp robot ở đó, nó sẽ cho rằng trang web không có tệp đó và tiến hành thu thập thông tin mọi thứ trên trang (và thậm chí có thể trên toàn bộ trang web). Ngay cả khi trang robots.txt đã tồn tại, chẳng hạn như example.com/index/robots.txt hoặc www.example.com/homepage/robots.txt, nó sẽ không bị tác nhân người dùng phát hiện và do đó trang web sẽ được xử lý như thể nó không có tệp robot nào cả.

Để đảm bảo tìm thấy tệp robots.txt của bạn, hãy luôn đưa tệp đó vào thư mục chính hoặc miền gốc của bạn.

Tại sao bạn cần robots.txt?

Tệp robots.txt kiểm soát quyền truy cập của trình thu thập thông tin vào một số khu vực nhất định trên trang web của bạn. Mặc dù điều này có thể rất nguy hiểm nếu bạn vô tình không cho phép Googlebot thu thập dữ liệu toàn bộ trang web của bạn (!!), nhưng có một số trường hợp mà tệp robots.txt có thể rất hữu ích.

Một số trường hợp sử dụng phổ biến bao gồm:

  • Ngăn nội dung trùng lặp xuất hiện trong SERPs (lưu ý rằng meta robot thường là lựa chọn tốt hơn cho việc này)
  • Giữ toàn bộ các phần của trang web ở chế độ riêng tư (ví dụ: trang web dàn dựng của nhóm kỹ sư)
  • Giữ các trang kết quả tìm kiếm nội bộ không hiển thị trên SERPs công khai
  • Chỉ định vị trí của (các) sơ đồ trang web
  • Ngăn các công cụ tìm kiếm lập chỉ mục các tệp nhất định trên trang web của bạn (hình ảnh, PDF, v.v.)
  • Chỉ định độ trễ thu thập thông tin để ngăn máy chủ của bạn bị quá tải khi trình thu thập thông tin tải nhiều phần nội dung cùng một lúc

Nếu không có khu vực nào trên trang web của bạn mà bạn muốn kiểm soát quyền truy cập của tác nhân người dùng, bạn có thể không cần tệp robots.txt.

Cách kiểm tra xem trang web có file robots.txt không

Bạn không chắc trang web mình có file robots.txt không? Chỉ cần nhập tên miền gốc của bạn, sau đó thêm /robots.txt vào cuối URL. Ví dụ: file robots.txt của HTH được đặt tại hthdigital.vn/robots.txt.

Nếu không có trang .txt nào xuất hiện, bạn hiện không có trang robots.txt.

Cách tạo file robots.txt

Nếu bạn nhận thấy mình không có file robots.txt hoặc muốn thay đổi tệp của bạn, việc tạo một tệp là một quá trình đơn giản. Bài viết này của Google hướng dẫn về quy trình tạo tệp robots.txt và công cụ này cho phép bạn kiểm tra xem tệp của mình có được thiết lập chính xác hay không.

Tìm kiếm một số thực hành tạo tệp rô bốt? Bài đăng trên blog này đi qua một số ví dụ tương tác.

Những lưu ý khi sử dụng file robots.txt

Đảm bảo rằng bạn không chặn bất kỳ nội dung hoặc phần nào của trang web mà bạn muốn thu thập thông tin.

Các liên kết trên các trang bị robots.txt chặn sẽ không được theo dõi. Điều này có nghĩa là:

  • Trừ khi chúng cũng được liên kết từ các trang khác mà công cụ tìm kiếm có thể truy cập (tức là các trang không bị chặn qua robots.txt, meta robot hoặc cách khác), các tài nguyên được liên kết sẽ không được thu thập thông tin và có thể không được lập chỉ mục.
  • Không có liên kết nào có thể được chuyển từ trang bị chặn đến đích liên kết. Nếu bạn có các trang mà bạn muốn chuyển quyền sở hữu, hãy sử dụng một cơ chế chặn khác ngoài robots.txt.

Không sử dụng robots.txt để ngăn dữ liệu nhạy cảm (như thông tin người dùng riêng tư) xuất hiện trong kết quả SERPs. Vì các trang khác có thể liên kết trực tiếp đến trang chứa thông tin cá nhân (do đó bỏ qua chỉ thị robots.txt trên miền gốc hoặc trang chủ của bạn), trang đó vẫn có thể được lập chỉ mục. Nếu bạn muốn chặn trang của mình khỏi kết quả tìm kiếm, hãy sử dụng một phương pháp khác như bảo vệ bằng mật khẩu hoặc chỉ thị meta ngăn lập chỉ mục .

Một số công cụ tìm kiếm có nhiều tác nhân người dùng. Ví dụ: Google sử dụng Googlebot cho tìm kiếm không phải trả tiền và Googlebot-Image để tìm kiếm hình ảnh. Hầu hết các tác nhân người dùng từ cùng một công cụ tìm kiếm tuân theo các quy tắc giống nhau, do đó không cần phải chỉ định chỉ thị cho mỗi trình thu thập thông tin của một công cụ tìm kiếm, nhưng khả năng làm như vậy cho phép bạn tinh chỉnh cách thu thập thông tin nội dung trang web của bạn.

Công cụ tìm kiếm sẽ lưu nội dung robots.txt vào bộ nhớ cache, nhưng thường cập nhật nội dung được lưu trong bộ nhớ cache ít nhất một lần mỗi ngày. Nếu bạn thay đổi tệp và muốn cập nhật tệp nhanh hơn so với thời gian diễn ra, bạn có thể gửi url robots.txt của mình cho Google .

Robots.txt so với meta robot và x-robot

Sự khác biệt giữa ba loại hướng dẫn robot này là gì? Trước hết, robots.txt là một tệp văn bản thực, trong khi meta và x-robot là các lệnh meta. Ngoài ra, cả ba đều phục vụ các chức năng khác nhau. Robots.txt ra lệnh cho hành vi thu thập dữ liệu trên toàn bộ trang web hoặc thư mục, trong khi meta và x-robot có thể ra lệnh cho hành vi lập chỉ mục ở cấp độ trang riêng lẻ (hoặc phần tử trang).

Kết luận

Bằng cách thiết lập tệp robots.txt đúng cách, bạn không chỉ nâng cao SEO của riêng mình. Bạn cũng đang giúp đỡ khách truy cập của mình.

Trong vấn đề quảng cáo, nếu các bot của công cụ tìm kiếm có thể chi tiêu ngân sách thu thập thông tin một cách khôn ngoan, chúng sẽ tổ chức và hiển thị nội dung của bạn trong SERPs theo cách tốt nhất, có nghĩa là bạn sẽ được hiển thị nhiều hơn.
Bạn cũng không mất nhiều công sức để thiết lập tệp robots.txt của mình. Đây chủ yếu là thiết lập một lần và bạn có thể thực hiện một số thay đổi nhỏ nếu cần.

Cho dù bạn đang bắt đầu trang web đầu tiên hay thứ bao nhiêu của mình, việc sử dụng robots.txt có thể tạo ra sự khác biệt đáng kể.

Nếu bạn gặp khó khăn về các vấn đề kỹ thuật như vậy, HTH có thể hỗ trợ bạn, không chỉ về file robots.txt mà toàn bộ vấn đề kiểm tra SEO kỹ thuật trên trang web của bạn nữa. Thử ngay tại đây!


Bài viết xem thêm

Liên hệ

Bạn có thể liên hệ với chúng tôi bởi những địa chỉ sau hoặc điền vào mẫu bên dưới

Địa chỉ

103 Đường Số 7, KDC CityLand Center Hills, P.7, Q.Gò Vấp, TP.HCM

Email

huutien@hthdigital.com

 

 

Điện thoại

0935.711.971 

 

 

Liên hệ chúng tôi

Hãy để lại câu hỏi hoặc yêu cầu liên hệ của bạn ở khung bên cạnh