Chia sẻ kiến thức cho người làm SEO tại Việt Nam

Hiểu biết đúng về file Robots.txt trong SEO: Hướng dẫn toàn tập

file-robots.txt-kienthucseo-training-cover

Các bạn làm SEO và Webmaster có biết:

Chúng ta hoàn toàn có thể kiểm soát được việc kéo dữ liệu (crawl) và đánh chỉ mục (index) của toàn bộ một Website hay một Webpage cụ thể nào đó thông qua tập tin Robots.txt.

Về cấu trúc, Robots.txt là một tập tin văn bản đơn giản có dạng .txt. File này nằm ở thư mục root của mỗi Website. Nhiệm vụ của nó là xác định quyền hạn cho các “robot” (của các Công cụ tìm kiếm chẳng hạn) biết được rằng chúng có thể làm gì và không làm gì trên Website của bạn.

Mặc dù không nhất thiết phải có file Robots.txt, song có thêm File này sẽ giúp Website tối ưu hơn với Google và các Công cụ tìm kiếm khác. Khi triển khai Onpage SEO thì bổ sung thêm tập tin Robots.txt là một việc làm vô cùng quan trọng.

Khi hiểu đúng và đủ về Robots.txt thì việc tối ưu SEO cho trang Web bất kỳ sẽ trở lên hiệu quả hơn rất nhiều.

Nhưng…

Làm thế nào để bạn có thể tạo ra những file Robots.txt hiệu quả nhất?

Sau khi tạo thì bạn sẽ điều hướng Robots như thế nào?

Và khi sử dụng Robots.txt, bạn phải lưu ý những điều gì?

Trong bài viết này, tôi sẽ chia-sẻ-tất-cả-mọi-thứ về Robots.txt và cách dúng đắn để bạn sử dụng nó trên Website của mình.

Đây là một kiến thức Audit Website quan trọng được Khánh truyền tải đến các bạn học viên trong các khóa học SEO của mình.

Đừng rời mắt khỏi màn hình, bạn nhé…

Robots.txt là gì?

Từ thuở sơ khai của Internet, những lập trình viên và kỹ sư tin học đã tạo ra các “con robot” (hoặc spider) để crawl và index các trang Web trong Website. Những “robots/spiders” này được biết đến với tên gọi “User-Agent” (tam dịch là Đại diện Người dùng).

Đôi khi, những “con” robot này còn được thiết lập cho những quyền hạn nhất định mà chủ nhân Website mong muốn. Ví dụ như không index các Website đang xây dựng hoặc Website có nội dung riêng tư.

Bạn có biết?

Ngày nay, các robot hoạt động dưới một quy chuẩn chung, gọi là “Robots Exclusion Protocol ” (REP).

File Robots.txt cũng được triển khai giao thức này.

Chuẩn REP đưa ra một loạt các lệnh và yêu cầu tất cả các loại robot chính thống phải tuân theo.

Song, vẫn có trường hợp ngoại lệ:

Một số loại robot “độc” như malware, spyware, spammer…có thể hoạt động không tuân theo giao thức REP này. Điều này lý giải tại sao mà bạn vẫn thấy được các traffic do Bot tạo ra trên các Webpage đã được chặn trong Robots.txt.

Ngoài Google Bot, Bing Bot…thì bạn đọc nên xem thêm các loại robot chính thống tại Website này.

Bạn có thể thấy được file Robots.txt của bất kỳ một trang Web nào, bằng cách truy cập vào địa chỉ sau:

http://domain/robots.txt

Ví dụ:

Đây là Robots.txt của Facebook.

file-robots.txt-kienthucseo-training-facebook

hoặc Robots.txt của Google.

file-robots.txt-kienthucseo-training-google

hay của VnExpress.

file-robots.txt-kienthucseo-training-vnexpress

Tác dụng của Robots.txt

Tập tin Robots.txt không bắt buộc phải có với một Website. Thứ hạng từ khóa trên Website vẫn lên và trang Web vẫn lớn mạnh về traffic cho dù không có file này.

Tuy nhiên, Robots.txt mang lại những lợi ích to lớn sau cho Website:

  1. Hạn chế robots trong việc crawl những dữ liệu mà bạn muốn che giấu: Mặc dù không thực sự hoàn hảo, song cách này cũng phần nào giúp bạn bảo vệ được dữ liệu có trong Website.
  2. Kiếm soát việc sử dụng tài nguyên: Khi robot crawl đến Website của bạn thì nó sẽ “ăn” bandwidth và các nguồn tài nguyên server. Những tài nguyên bị mất này sẽ trở lên hữu ích hơn nếu đó là người truy cập. Đối với các trang Web có nhiều nội dung, điều này một mặt có thể đẩy chi phí duy trì mạng, mặt khác sẽ mang lại cho khách truy cập sự trải nghiệm “không được đã cho lắm” nếu thiếu đi sự nâng cấp. Các Webmaster hoặc người làm SEO có thể chặn quyền truy cập của robots tới các tập tin mã nguồn, hình ảnh…không cần thiết để bảo toàn tài nguyên.
  3.  Ưu tiên các trang quan trọng trong Website: Hiển nhiên là chúng ta muốn robot index những Webpage quan trọng có trên Website và không index những Webpage ít được quan tâm hơn. Bằng cách chặn những trang “vô bổ” đó, bạn đã làm tốt việc “thu hút sự chú ý” của robot vào những trang có ích.

Làm thế nào để tôi có thể thấy file Robots.txt trên Website?

Như đã trình bày ở trên, Robots.txt là một file văn bản đơn giản.

Tập tin này được lưu trữ ở folder gốc của mỗi Website. Để tìm ta nó, bạn hãy sử dụng một công cụ FTP nào đó và truy cập vào thư mục public_html.

file-robots.txt-kienthucseo-training-root-folder

Dung lượng của file Robots.txt này rất rất nhỏ.

Để mở được file .txt thì bạn có thể dùng bất kỳ trình soạn thảo văn bản nào. Đơn giản nhất là Notepad.

Bạn sẽ thấy như sau:

file-robots.txt-kienthucseo-training-vi-du

Nếu trong trường hợp không thấy file Robots.txt trên Website thì bạn phải tạo mới nó.

Cách tạo được trình bày ngay sau đây.

Làm thế nào để tạo được tập tin Robots.txt?

Bởi Robots.txt là một file văn bản đơn giản nên việc tạo nó vô cùng dễ dàng.

Bạn sử dụng Notepad và lưu một file văn bản mới với tên gọi robots.txt là xong.

file-robots.txt-kienthucseo-training-tao-robots

Để upload lên Hosting thì bạn hãy dùng một phần mêm FTP bất kỳ. “Đích đến” là thư mục public_html hoặc folder chứa Website của bạn (trong trường hợp bạn cài nhiều Website trên cùng một Hosting).

Khi upload xong, bạn sẽ thấy như sau:

file-robots.txt-kienthucseo-training-upload

Cuối cùng, bạn sẽ phải phân quyền (permission) để Webmaster (chính bạn) có thể đọc và ghi tập tin Robots.txt.

Để làm được thì bạn click chuột phải vào file Robots.txt / Chọn “File permissions…

file-robots.txt-kienthucseo-training-phan-quyen-robots-hosting

Thế là Website của bạn đã có dược file Robots.txt rồi!

Vậy nhưng, chúng ta sẽ sử dụng file này như thế nào?

Trong phần tiếp theo, các bạn làm SEO sẽ được chia sẻ cách điều hướng robots qua Robots.txt.

Làm thế nào để sử dụng Robots.txt?

Ở trên, tôi đã nói với bạn rằng chúng ta hoàn toàn có thể kiểm soát được việc kéo dữ liệu (crawl) và đánh chỉ mục (index) của toàn bộ Website thông qua Robots.txt.

Thật vậy! Bạn hoàn toàn có thể ngăn không cho robot truy cập vào toàn bộ một Website bằng cách phân quyền cho nó.

Về cơ bản, Robots.txt không có tác dụng trong việc đẩy thứ hạng từ khóa, tuy nhiên, bạn có thể sử dụng file này để điều hướng các Công cụ tìm kiếm.

Dưới đây là những lệnh cơ bản mà bạn có thể dùng trong Robots.txt

1. Chặn tất cả robots tới Website của bạn

Bạn không muốn các loại robots có thể crawl được trang Web của mình?

Hãy thêm Code sau vào Robots.txt:

User-agent: *

Disallow: /

Nó trông cụ thể như sau:

file-robots.txt-kienthucseo-training-su-dung-disallow-toan-bo

Hiểu đơn giản thì lệnh này không cho phép tất cả các User-Agent truy cập vào các file và folder có trong Website.

Về chi tiết thì:

  • User-agent: * : Dấu hoa thị (*) áp dụng cho mọi đối tượng. Ở đây, dấu hoa thị có nghĩa là lệnh này áp dụng cho mọi loại robot.
  • Disallow: /: “Disallow” có nghĩa là không cho phép robot được crawl một thư mục (folder). Dấu sổ nghiêng (/) có nghĩa là bạn đang áp dụng lệnh này cho tất cả các thư mục trên Website.

2. Chặn tất cả robots trong việc crawl một thư mục cụ thể

Làm thế nào để bảo vệ một folder cụ thể nào đó trước sự “dòm ngó” của các loại robot?

Ví dụ: Thư mục /images chẳng hạn.

Hãy sử dụng lệnh sau đây:

User-agent: *

Disallow: /[tên_folder]/

Nếu bạn muốn ngăn không cho robot truy cập được vào folder /images, lệnh này thực tế sẽ như sau:

file-robots.txt-kienthucseo-training-su-dung-disallow-folder

Tùy vào mục đích và thực tế sử dụng mà bạn sẽ quyets định được mình nên chặn không cho robot crawl thư mục nào.

3. Chặn một loại robot cụ thể

Làm thế nào để có thể ngăn không cho một loại robot cụ thể nào đó – như GoogleBot chẳng hạn – crawl được Website?

Câu lệnh sẽ như sau:

User-agent: [Tên loại Robot muốn chặn]

Disallow: /

Với ví dụ trên thì câu lệnh sẽ là:

file-robots.txt-kienthucseo-training-su-dung-chan-bot-cu-the

Mỗi một loại robot đều có một tên gọi khác nhau và riêng biệt. Ví dụ, Google thì có GoogleBot; Microsoft thì có “msnbot” và “bingbot”. Bot của Yahoo được gọi là “Yahoo! Slurp”.

Website sau đây là vô cùng hữu ích khi cho phép bạn biết được những loại robot phổ biến và tên gọi của chúng.

4. Chặn không cho robot crawl một file cụ thể nào đó

Tương tự như các thư mục, bạn cũng có thể ngăn robot để không cho phép chúng crawl một tập tin cụ thể nào đó.

Câu lệnh này như sau:

User-agent: *

Disallow: /[tên thư mục]/[tên file.đuôi mở rộng]

Ví dụ, nếu bạn muốn chặn file có tên gọi “custom.php” trong folder “tool” thì file Robots.txt trông như sau:

file-robots.txt-kienthucseo-training-su-dung-disallow-file

5. Chặn quyền crawl một folder, nhưng vẫn cho phép index một file cụ thể trong đó

Lệnh “Disallow” ngăn không cho robot có quyền truy cập vào một folde hay file nào đó (do bạn chọn).

Ngược lại, lệnh “Allow” co phép robot được quyền truy cập.

Bạn có thể chặn quyền crawl của robot tới một thư mục, song vẫn có thể cho phép User-Agent truy cập tới một tập tin riêng biệt.

Cấu trúc lệnh của file Robots.txt lúc này như sau:

User-agent: *

Disallow: /[tên thư mục]/

Allow: /[tên thư mục]/[tên file.đuôi mở rộng ]/

Ví dụ:

Nếu bạn muốn ngăn robot của các công cụ tìm kiếm crawl folder có tên là “images”, nhưng vẫn muốn chúng truy cập vào tập tin “file-robots.png”, câu lệnh sẽ như sau:

file-robots.txt-kienthucseo-training-su-dung-disallow-allow

6. Chặn quyền truy cập đến tất cả các file có cùng định dạng

Bạn phải làm như thế nào nếu muốn chặn index của tất cả các tập tin có cùng định dạng mở rộng trên Website (Ví dụ: .png; .php; .aspx…).

Hãy dùng lệnh sau:

User-agent: *

Disallow: /*.đuôi mở rộng$

Ví dụ:

Nếu bạn muốn chặn tất cả các file là mã nguồn JavaScript (.js) trên Website, hãy làm như sau:

file-robots.txt-kienthucseo-training-su-dung-disallow-mot-loai-file

7. Thiết lập thời gian (mức độ thường xuyên) trong việc crawl Website của robot

Trong các ví dụ trên, bạn đều nhận thấy có dòng lệnh sau:

User-agent: *
Crawl-Delay: 20

Ý nghĩa của nó là thông báo cho các loại robot rằng chúng phải đợi ít nhất là 20 giây giữa các lần yêu cầu crawl (crawl request).

Lệnh Crawl-Delay thường được dùng trong các Website quy mô lớn, với tần suát cập nhật nội dung số lượng lớn và liên tục (ví dụ như Twitter chả hạn). Lệnh này cho biết các robot phải đợi một khoảng thời gian tối thiểu giữa các yêu cầu tiếp theo → Giúp cho máy chủ không bị quá tải bởi có quá nhiều yêu cầu được gửi đi từ các loại robot trong cùng một thời điểm.

Ví dụ:

File Robots.txt của Twitter đã chỉ ra rằng robot phải đợi tối thiểu 1 giây giữa các lần yêu cầu.

file-robots.txt-kienthucseo-training-twitter

Bạn hoàn toàn có thể kiểm soát được thời gian này với từng loại robot cụ thể. Điều này có nghĩa là sẽ không có nhiều robot có thể crawl Website của bạn cùng lúc.

Ví du, bạn có thể cấu hình như sau:

file-robots.txt-kienthucseo-training-su-dung-delay

Bạn không cần bổ sung thêm lệnh này trong file Robots.txt hiện có, trừ khi bạn đang vận hành một Website “khủng” với hàng ngàn trang nội dung được xuất bản từng phút.

Những sai lầm mà nhiều Webmaster/SEO vẫn lầm tưởng về Robots.txt

Tập tin Robots.txt là một công cụ cực mạnh giúp bạn điều hướng robot trên Website.

Tuy nhiên, nếu sử dụng sai và không thực sự hiểu về nó thì đây được xem là một thảm họa.

Xuyên suốt thời gian tư vấn SEO cho nhiều khách hàng, dưới đây là những sai lầm mà Khánh đúc kết lai và muốn-bạn-sửa-sai-ngay-sau-khi-đọc-xong bài viết này:

Nội dung bị khóa!image/svg+xml

Hãy LIKE để mở khóa và chia sẻ kiến thức bổ ích này cho Cộng đồng SEO nhé!

LỜI KẾT,

Vậy là qua bài viết này, Khánh SEO đã đi cùng bạn qua nhiều phạm trù kiến thức như Robots.txt là gì? Chúng hoạt động như thế nào? Cách cài đặt và một số lệnh phổ biến để có thể điều hướng được Robot. Và quan trọng không kém là bạn biết thêm được những sai lầm cần tránh khi sử dụng Robots.txt trong SEO.

Tóm lại, đây là một công cụ hữu ích giúp các bạn làm SEO và Webmaster hiểu và kiểm soát được sự tương tác của Robot với trang Web của mình.

Khi được sử dụng đúng, chúng có thể có tác động tích cực lên việc tối ưu Technical SEO và làm cho trang Web của bạn dễ dàng thu thập dữ liệu hơn.

Hẹn gặp lại các bạn trong những bài chia sẻ kiến thức SEO sau của mình,

Đừng quên Like – Share và Comment để hiểu hơn về bài học hôm nay nhé!

banner ad

Comments are closed.

Copyright (C) 2014 By Khánh Hoàng | Designed by Elegant Themes