Robots.txt là gì? Cách tạo file Robots.txt bằng Yoast SEO

Có bao giờ bạn nghe nói về file robots.txt có thể tối ưu SEO chưa? Bạn không biết nó có hiệu quả hay không? Nó thực sự là một file quan trọng có tác dụng dẫn đường và chỉ lối cho bộ máy tìm kiếm. Bài viết này sẽ hướng dẫn bạn cách cài đặt file robots.txt để tối ưu SEO một cách hiệu quả.

Robots.txt là gì?

Robots.txt là gì?
Robots.txt là gì?

Robots.txt là một file dạng text mà khi xây dựng website bạn có thể tạo ra để nói cho những con bọ của bộ máy tìm kiếm rằng l àm thế nào để thu thập thông tin và index các trang trên website đó.

Bạn có thể tìm thấy file robots.txt ở thư mực gốc của website hay còn gọi là folder chính của website đó.

Về cơ bản một file robots.txt sẽ có dạng như này:

tập tin robots.txt

Nội dung của tập tin robots.txt

Bạn có thêm nhiều dòng khác trong cấu trúc trên để allow hoặc disallow một đường dẫn cụ thể nào đó và thêm nhiều sitemap khác. Click vào đây nếu bạn chưa biết cách tạo sitemal.xml: https://wifim.vn/sitemap-la-gi-cach-tao-sitemap-bang-yoast-seo/

Nếu bạn không muốn disallow một URL nào cả, thì các con bọ của công cụ tìm kiếm sẽ được phép thu thập tất cả mọi thứ trên website đó.

Cách hoạt động của robots.txt
Cách hoạt động của robots.txt

  • Khi bạn tạo mới một website, search engine sẽ gửi những con bọ máy tính (bots) tới để ‘quét’ qua nó và tạo ra một bản đồ chứa các trang web trong nó. Bằng cách này, chúng biết được trang nào cần thể hiện kết quả khi ai đó tìm từ khóa liên quan.

bọ tiến hành quét nội dung robots.txt
Những con bot máy tính của Google sẽ quét nội dung được cho phép

  • Nhưng vấn đề nảy sinh khi các website hiện chứa nhiều thành phần hơn là trang web. WordPress cho phép bạn tạo plugins,thường thì nó có thư mục riêng của chúng. Bạn không muốn những trang này hiện lên kết quả tìm kiếm, vì nó không có nội dung giá trị.

  • File robots.txt tạo ra một bộ chỉ dẫn cho search engine bots. Nó nói với chúng: “Hey, mày có thể xem ở đây, nhưng không đi vào những phòng khác ở kia!”. File này có thể rất chi tiết tùy theo mức độ bạn muốn. Nó cũng dễ tạo và không đòi hỏi kiến thức kỹ thuật gì nhiều.

  • Trên thực tế, trình tìm kiếm sẽ quét site của bạn kể cả khi bạn không có cài file robots.txt. Nhưng sẽ không đạt hiểu quả cao, do bot sẽ index toàn bộ nội dung của bạn. Quét sâu đến độ có thể nó sẽ hiển thị những nơi bạn không muốn người khác truy cập vào.

  • Hơn nữa, nếu không có file robots.txt, bạn sẽ có nhiều nhiều loại bots quét tới quét lui toàn bộ site của bạn. Vì vậy sẽ gây ảnh hưởng tiêu cực đến hiệu năng hoạt động của site. Tốc độ trang là yếu tố quan trọng để được tính xếp hạng. Vì vậy, tạo một file robots.txt chuẩn cho WordPress là cách đơn giản nhưng đạt hiệu quả cao cho website của bạn.

Tạo file robots.txt bằng Yoast SEO

Tạo file robots.txt bằng Yoast SEO
Tạo file robots.txt bằng Yoast SEO

Đầu tiên bạn phải tải plugin Yoast SEO và cấu hình.

Sau đó đăng nhập vào trang quản trị và có thể tạo nó bằng cách:

  • Chọn vào menu SEO » Công cụ và chọn Trình chỉnh sửa tập tin

chọn trình chỉnh sửa tập tin của Yoast SEO

  • Ngay sau đó Yoast SEO sẽ hiển thị file robots.txt bạn đã có:

nội dung của file robots.txt

  • Nếu không có file robots.txt. Yoast SEO sẽ tạo giúp bạn bằng bấm vào nút dưới đây.

nút tạo file robots.txt

  • Mặc định thì file robots.txt được Yoast SEO tạo có cấu trúc như sau:

tập tin robots.txt


Chúc các bạn thành công!

Tại sao cần sử dụng file robots.txt?

Tại sao cần sử dụng file robots.txt?
Tại sao cần sử dụng file robots.txt?

File robots.txt đóng vai trò như “người gác cổng” cho website. Nó hướng dẫn các công cụ tìm kiếm (như Googlebot) nên thu thập phần nào, tránh phần nào trong cấu trúc trang. Sử dụng đúng cách sẽ giúp website vận hành hiệu quả hơn trên nền tảng tìm kiếm.

Giúp kiểm soát hành vi của bot tìm kiếm

Khi bot của Google (hoặc các công cụ tìm kiếm khác) truy cập vào website của bạn, chúng sẽ đọc file robots.txt đầu tiên nếu có. Thông qua đó, bạn có thể hướng dẫn bot nên thu thập phần nào, và không nên thu thập phần nào trên site. Điều này rất hữu ích với các website lớn hoặc có nhiều trang tạm, trang trùng lặp, hoặc dữ liệu không cần index. Chẳng hạn như, trang lọc tìm kiếm, trang admin, thư viện ảnh,… Nếu không kiểm soát, bot có thể “lang thang” và tiêu tốn tài nguyên vào những khu vực không mang lại giá trị SEO.

Bảo vệ nội dung nội bộ, thư mục nhạy cảm

Mặc dù robots.txt không phải là một công cụ bảo mật thực sự, nó vẫn giúp bạn “giấu” bớt các khu vực nội bộ khỏi các công cụ tìm kiếm. Ví dụ: bạn không muốn Google index trang đăng nhập admin, thư mục chứa file cấu hình, plugin kỹ thuật, hoặc nội dung thử nghiệm chưa hoàn thiện. Thay vì xóa tạm hay cài thêm bảo vệ, bạn có thể dùng robots.txt để yêu cầu bot không truy cập những thư mục đó. Điều này giúp website gọn gàng hơn trên kết quả tìm kiếm và tránh rò rỉ các trang không cần thiết ra công khai.

Tối ưu hóa crawl budget – giới hạn tài nguyên thu thập dữ liệu

Google có giới hạn crawl budget cho mỗi website, tức là số lượng trang mà bot Google có thể và muốn thu thập trong một khoảng thời gian nhất định. Nếu website của bạn có hàng nghìn trang, việc để bot “thu thập lung tung” sẽ khiến những trang quan trọng bị bỏ sót. Sử dụng robots.txt để chặn các khu vực không cần thiết giúp Google tập trung crawl đúng những nội dung có giá trị SEO. Từ đó, cải thiện khả năng index và thứ hạng của các trang chính.

Cấu trúc cơ bản của file robots.txt

Cấu trúc cơ bản của file robots.txt
Cấu trúc cơ bản của file robots.txt

File robots.txt có thể chỉ là một tệp văn bản vài dòng, nhưng đóng vai trò vô cùng quan trọng. Cụ thể hơn, là trong việc điều phối cách công cụ tìm kiếm truy cập và thu thập dữ liệu trên website của bạn. Cú pháp sử dụng trong file này tương đối đơn giản, dễ chỉnh sửa, không yêu cầu kiến thức lập trình. Tuy nhiên, chỉ cần viết sai một dòng, website của bạn có thể bị ảnh hưởng lớn về SEO. Từ việc chặn nhầm các trang quan trọng, đến việc khiến Googlebot không thể truy cập toàn bộ website. Dưới đây là các thành phần cơ bản nhất cấu thành nên một file robots.txt hiệu quả, bạn nên nắm rõ để sử dụng đúng mục đích:

User-agent – xác định bot cụ thể

User-agent là thành phần bắt buộc mở đầu trong mỗi khối lệnh của file robots.txt. Dòng này dùng để chỉ định bạn đang áp dụng các quy tắc bên dưới cho loại bot tìm kiếm nào.

Ví dụ:

  • User-agent: * → áp dụng cho tất cả các bot (Google, Bing, Yahoo, Yandex…)
  • User-agent: Googlebot → chỉ áp dụng cho bot tìm kiếm của Google

Bạn có thể viết nhiều nhóm lệnh khác nhau cho từng loại bot, giúp kiểm soát hành vi thu thập dữ liệu một cách linh hoạt. Trong thực tế, hầu hết website chỉ cần một nhóm User-agent: *, trừ khi bạn có lý do cụ thể để phân loại bot.

Disallow – chặn bot truy cập một đường dẫn

Disallow là lệnh để chỉ định thư mục hoặc đường dẫn mà bạn không muốn bot thu thập. Đây là thành phần được dùng phổ biến nhất trong file robots.txt.

Cú pháp đơn giản:

  • Disallow: / → cấm bot truy cập toàn bộ website (cẩn thận khi dùng lệnh này!)
  • Disallow: /admin/ → chặn bot truy cập thư mục quản trị
  • Disallow: /search? → chặn các URL có chứa chuỗi “search?”

Khi bot gặp lệnh Disallow, nó sẽ bỏ qua không thu thập dữ liệu ở đường dẫn đó. Mặc dù đường dẫn đó vẫn có thể xuất hiện trên kết quả tìm kiếm nếu được liên kết từ trang khác. Vì vậy, nếu bạn muốn ẩn hoàn toàn khỏi Google, bạn cần kết hợp thêm thẻ noindex hoặc xác thực trong Google Search Console.

Allow – cho phép bot truy cập

Lệnh Allow có tác dụng mở quyền truy cập cho một URL cụ thể, ngay cả khi thư mục chứa nó đang bị Disallow. Điều này cực kỳ hữu ích khi bạn muốn tinh chỉnh hành vi bot: chặn chung một thư mục, nhưng vẫn cho phép truy cập một vài trang quan trọng bên trong.

Ví dụ:

  • User-agent: Googlebot
  • Disallow: /wp-admin/
  • Allow: /wp-admin/admin-ajax.php

Trong ví dụ trên, Googlebot sẽ không truy cập thư mục /wp-admin/, nhưng vẫn được phép thu thập nội dung của file admin-ajax.php. Bởi nó vốn là file quan trọng cho các chức năng động của website WordPress.

Sitemap – khai báo đường dẫn sitemap để Google dễ index

Lệnh Sitemap không phải là quy tắc kiểm soát bot, mà là chỉ dẫn bổ sung để bot biết chính xác website của bạn đang có sitemap ở đâu. Sitemap là bản đồ website, liệt kê đầy đủ các trang bạn muốn index, giúp Google hiểu cấu trúc và thu thập dữ liệu nhanh hơn.

Cú pháp đơn giản:

Sitemap: https://wifim.vn/sitemap.xml

Bạn có thể đặt dòng này ở bất kỳ đâu trong file robots.txt, thường là cuối cùng. Với các website có nhiều sitemap (chẳng hạn chia theo danh mục, loại nội dung…), bạn có thể khai báo nhiều dòng Sitemap liên tiếp.

Lưu ý: Dù bạn không khai báo sitemap trong robots.txt, Google vẫn có thể tìm thấy nó nếu bạn gửi trực tiếp qua Google Search Console. Tuy nhiên, việc thêm dòng này sẽ giúp bot phát hiện sớm hơn – đặc biệt hữu ích với website mới hoặc ít backlink.

Kiểm tra file robots.txt bằng Google Search Console

Kiểm tra file robots.txt bằng Google Search Console
Kiểm tra file robots.txt bằng Google Search Console

Viết đúng file robots.txt mới chỉ là một nửa công việc. Để chắc chắn rằng Google hiểu đúng các chỉ dẫn của bạn và không chặn nhầm các trang quan trọng, việc kiểm tra định kỳ là vô cùng cần thiết. Google Search Console cung cấp công cụ giúp bạn xem nhanh tệp robots.txt đang hoạt động ra sao, đồng thời hỗ trợ xử lý các sự cố kịp thời.

Truy cập công cụ “Kiểm tra robots.txt”

Trong giao diện quản lý trang web đã xác minh, bạn có thể tìm đến phần “Cài đặt” (Settings). Hoặc sử dụng trực tiếp “Công cụ kiểm tra URL” (URL Inspection Tool) để kiểm tra trạng thái crawl và chặn robots.txt của một URL cụ thể.

Lưu ý rằng công cụ “Robots.txt Tester” cũ của Google hiện đã ngừng hoạt động độc lập, nên bạn sẽ kiểm tra bằng cách nhập URL vào thanh kiểm tra. Sau đó, xem liệu Googlebot có bị chặn truy cập bởi file robots.txt không.

Kết quả hiển thị sẽ thông báo rõ:

  • URL có được phép thu thập dữ liệu hay không
  • Nếu không, nguyên nhân có phải do bị chặn từ robots.txt

Công cụ này rất hữu ích để xác minh sau mỗi lần cập nhật file.

Gửi file mới nếu cập nhật nội dung

Sau khi bạn chỉnh sửa hoặc thay đổi nội dung file robots.txt (ví dụ: gỡ bỏ lệnh chặn /blog/, hoặc thêm sitemap mới), hãy đảm bảo upload file mới lên thư mục gốc của website, cụ thể là tại đường dẫn:

https://yourdomain.com/robots.txt

Google sẽ tự động crawl lại file này sau một thời gian, nhưng nếu bạn muốn cập nhật nhanh hơn, có thể dùng Search Console để “Yêu cầu Google cập nhật”. Dù không có nút gửi trực tiếp như sitemap, bạn vẫn có thể kiểm tra trạng thái crawl sau 1–2 ngày để đảm bảo file mới đã được áp dụng.

Ngoài ra, đừng quên dùng các công cụ như robots.txt Checker để test cú pháp và cấu trúc file mới trước khi upload lên.

Theo dõi các lỗi bị chặn nhầm (cảnh báo)

Một trong những lý do phổ biến khiến thứ hạng website sụt giảm bất thường là file robots.txt chặn nhầm các trang quan trọng. Điều này thường xảy ra khi bạn:

  • Sử dụng Disallow: / mà không nhận ra hệ quả
  • Chặn thư mục chứa sitemap hoặc hình ảnh
  • Ngăn bot truy cập JavaScript hoặc CSS cần thiết cho việc render trang

Google Search Console sẽ gửi cảnh báo nếu phát hiện các trang đang có lưu lượng truy cập tốt nhưng lại bị robots.txt chặn truy cập. Đây là dấu hiệu bạn cần kiểm tra lại tệp ngay.

Tốt nhất, bạn nên kiểm tra robots.txt định kỳ mỗi tháng một lần (hoặc sau bất kỳ thay đổi kỹ thuật nào trên site). Một tệp robots.txt tối ưu không chỉ ngăn được bot “đi lạc”, mà còn giúp Google hiểu rõ đâu là những nội dung đáng ưu tiên thu thập nhất.

Kết luận

Robots.txt có thể là một file nhỏ bé, nhưng vai trò của nó trong chiến lược SEO và vận hành website là không thể xem nhẹ. Khi được cấu hình đúng, nó giúp bạn kiểm soát quá trình thu thập dữ liệu, bảo vệ những khu vực nhạy cảm. Đồng thời, hướng bot tìm kiếm tập trung vào các nội dung quan trọng. Ngược lại, nếu cấu hình sai, robots.txt có thể khiến những trang giá trị bị “tàng hình” khỏi kết quả tìm kiếm. Gây ảnh hưởng trực tiếp đến traffic và hiệu quả kinh doanh.

Vì vậy, hãy dành thời gian để hiểu rõ cấu trúc của file robots.txt, kiểm tra định kỳ bằng Google Search Console, và luôn cẩn trọng khi thay đổi nội dung. Một vài dòng lệnh đúng lúc, đúng chỗ có thể giúp bạn tránh được những rủi ro lớn và góp phần xây dựng nền tảng SEO vững chắc cho toàn bộ website.

DỊCH VỤ ĐỒNG HÀNH CÙNG DOANH NGHIỆP

zoom

Thiết kế website gói chuẩn

Thời đại chuyển đổi số, Website là nơi để doanh nghiệp phát triển kinh doanh, khẳng định uy tín thương hiệu với khách hàng. WIFIM giúp bạn sở hữu Website đẹp, chuyên nghiệp, chuẩn SEO.
9.000.000 VNĐĐặt lịch tư vấn
  • Sáng tạo giao diện mang đậm phong cách doanh nghiệp
  • Kiểm thử, chuẩn hóa tiêu chí SEO và Responsive trên đa thiết bị
  • Tối ưu hóa trải nghiệm On-site Experience trong từng chi tiết
  • Mở rộng website với Web App / App và Marketing
zoom

SEO thuê ngoài gói cơ bản

Dịch vụ SEO Thuê Ngoài của WIFIM đã thành công lên top và duy trì Top 1-3 nhiều từ khóa khó như: Bồn Nhựa đại Thành, Bồn Nước Đại Thành, Giá Xây Nhà Trọn Gói, Xe Máy Điện, Bảo vệ,…
7.000.000 VNĐĐặt lịch tư vấn
  • Tăng độ nhận diện thương hiệu với dịch vụ SEO
  • Tăng thứ hạng trên bảng xếp hạng tìm kiếm Google
  • Tăng lượng truy cập cho website
  • Website tiếp cận được khách hàng tiềm năng
zoom

Phòng marketing thuê ngoài cơ bản

Dịch vụ Phòng Marketing Thuê Ngoài WIFIM JSC đã thành công giúp xây dựng hệ thống, tăng doanh thu và duy trì phát triển cho các đối tác của chúng tôi với chi phí phù hợp với đối tác.
13.000.000 VNĐĐặt lịch tư vấn
  • Tiết kiệm chi phí doanh nghiệp
  • Sở hữu đội ngũ thuê ngoài chuyên nghiệp
  • Tăng doanh thu cho doanh nghiệp
  • Lộ trình kế hoạch triển khai rõ ràng, Báo cáo đầy đủ
zoom

Social Marketing gói cơ bản

Phòng Media Thuê Ngoài WIFIM đã thành công triển khai nhiều dự án Social Marketing, đem lại lượng lớn đơn hàng đến với doanh nghiệp và Starup. Giúp đỡ khách hàng vượt qua giai đoạn khó khăn.
6.500.000 VNĐĐặt Lịch Tư Vấn
  • Xây dựng thương hiệu, Phủ sóng khách hàng tiềm năng
  • Quảng bá sản phẩm dịch vụ
  • Tìm kiếm khách hàng tiềm năng
  • Thúc đẩy hành vi mua hàng hiệu quả
// Câu 2 // Câu 3 // Câu 4 // Câu 5 // Câu 6