Duplicate Content là gi? Nguyên nhân và cách khắc phục.

Duplicate Content là gì?

Duplicate content (có nghĩa là Nội dung trùng lặp) là những bản sao tương tự hoặc chính xác của nội dung trên các trang web khác hoặc trên các trang khác nhau trên cùng một trang web. Với một lượng lớn nội dung trùng lặp trên một trang web có thể tác động tiêu cực đến thứ hạng của Google.

Duplicate Content là gì?
Duplicate Content là gì?

Để nói cách khác:

Nội dung trùng lặp là nội dung từng chữ giống với nội dung xuất hiện trên một trang khác.

Nhưng “Nội dung trùng lặp” cũng áp dụng cho nội dung tương tự với nội dung khác… ngay cả khi nó đã được viết lại một chút.

Ví dụ: Bạn đăng một bài giới thiệu dịch vụ mới trên danh mục sản phẩm, sau đó lại đăng trên Page tin tức. Đây sẽ được xem là nội dung trùng lặp. Kể cả khi bạn đăng lại bài viết trên một Website khác thì đó vẫn tính là Duplicate Content.

Duplicate ảnh hưởng đến website như thế nào khi SEO?

Không ít trường hợp một Page với nội dung như nhau lại xuất hiện trên ba URL khác nhau. Ví dụ như bên dưới:

  • URL số 1 thân thiện với người dùng, là URL gốc của bài viết và có dạng như sau: domain.com/page/.
  • URL số 2: domain.com/page/?utm_content=buffer&utm_medium=social.
  • URL số 3: domain.com/category/page/.

Link số 1 sẽ hiển thị trong kết quả tìm kiếm, nhưng Google có thể hiện không chọn Link này để đưa lên Top mà lại chọn một trong số hai Link bên dưới. Nếu điều đó xảy ra, một URL không mong muốn có thể thay thế Link ban đầu. 

URL thay thế này có thể không thân thiện vì tên dài, không có từ khóa rõ ràng. Đa phần người dùng sẽ e ngại và không muốn nhấp vào một Link không thân thiện. Do đó, gây ảnh hưởng đến việc bạn có thể nhận được ít lưu lượng truy cập tự nhiên hơn.

Giảm hiệu quả của Backlink

Nếu một nội dung được đăng trên nhiều trang với nhiều URL khác nhau, mỗi URL đó có thể thu hút các Backlink cho riêng mình. Điều đó dẫn đến sự phân chia giá trị liên kết (Link Equity) giữa các URL.

Làm chậm quá trình thu thập thông tin

Nội dung trùng lặp có thể làm việc Index trang bị chậm trễ.
Nội dung trùng lặp có thể làm việc Index trang bị chậm trễ.

Google quét và hiểu nội dung mới trên trang Web của bạn thông qua việc thu thập thông tin. Có nghĩa là chúng đi theo các liên kết từ các trang hiện có đến các trang mới. Google cũng thu thập lại dữ liệu các trang cũ để xem có  gì thay đổi hay không.

Vậy mức độ ảnh hưởng quá trình này gặp phải khi có Duplicate Content là gì? Các nội dung trùng lặp sẽ tạo thêm công việc cho Google. Điều đó có thể ảnh hưởng đến tốc độ và tần suất thu thập dữ liệu của họ với các trang mới hoặc các cập nhật của bạn.

Hậu quả gây ra có thể là làm chậm trễ việc lập chỉ mục các trang mới, hay Index lại các trang đã được cập nhật.

Nội dung được phân phối trên nhiều nền tảng gây hại tới Ranking

Bạn có thể cho phép một trang Web khác xuất bản lại nội dung của bạn, đó được gọi là phân phối nội dung. Hoặc các trang Web có thể lấy nội dung của bạn và xuất bản lại mà không được cho phép.

Cả hai trường hợp này đều dẫn đến nội dung bị trùng lặp trên nhiều tên miền, nhưng chúng lại thường không gây ra vấn đề. Chỉ khi nội dung xuất bản lại có thứ hạng cao hơn nội dung gốc trên trang Web của bạn thì vấn đề mới bị phát sinh. Bạn nên xem xét lại việc phân phối nội dung này. Nếu nó không mang lại lợi ích cho bạn thì có thể dừng lại, yêu cầu các trang đánh cắp thông tin tiến hành gỡ bài viết.

Các lý do gây nên Duplicate Content

Các SEOer đa phần đều không mong muốn các nội dung trên trang Web xảy ra sự trùng lặp. Tuy nhiên, vì nhiều lý do mà tình trạng này vẫn sẽ xảy ra. Vậy cụ thể những lý do gây nên Duplicate Content là gì? Bài viết sẽ liệt kê cụ thể những nguyên nhân phổ biến nhất.

URL

Tính năng Filter trong Website

Tính năng này cho phép người dùng có thể lọc và sắp xếp các mục trên trang. Các trang Web thương mại điện tử sử dụng Filter rất nhiều. Tính năng này sẽ gắn các tham số vào cuối URL. Bởi vì thường có nhiều sự kết hợp của các bộ lọc này, mỗi bộ lọc gắn một tham số cuối khác nhau cho URL. Kết quả dẫn đến là có nhiều nội dung trùng lặp hoặc gần trùng lặp.

URL có gạch chéo và không có gạch chéo

Google coi các URL có và không có dấu gạch chéo ở cuối là hoàn toàn độc lập với nhau. Ví dụ cụ thể như hai trang Web sau: navee.asia/page/ và navee.asia/page đều được Google coi là 2 URL khác nhau.

Để kiểm tra đây có phải là 2 URL riêng biệt hay không, thử load lại trang có dấu “/” và không có dấu “/”:

  • Nếu URL không có dấu “/” được chuyển hướng tới URL chứa dấu “/”, đó không được tính là Duplicate. 
  • Nếu truy cập được ở cả hai URL này, thì điều đó có thể dẫn đến vấn đề nội dung trùng lặp.

Trang Web có phiên bản cho Mobile

Web có phiên bản Mobile thường tồn tại các URL thân thiện với thiết bị di động.
Web có phiên bản Mobile thường tồn tại các URL thân thiện với thiết bị di động.

Các URL thân thiện với thiết bị di động là các URL trùng lặp với các URL trên máy tính để bàn. Để giải quyết vấn đề này, bạn chỉ cần chuẩn hóa phiên bản thân thiện với thiết bị di động thành phiên bản gốc. Sử dụng Rel = “Alternate” để cho Google biết được URL thân thiện với thiết bị di động là phiên bản thay thế của nội dung trên máy tính để bàn.

HTTP, HTTPS, WWW

Hầu hết các trang Web đều có thể truy cập được ở một trong bốn biến thể sau:

Vậy lý do tạo nên Duplicate Content là gì? Nếu bạn không định cấu hình chính xác máy chủ của mình, trang Web của bạn sẽ có thể truy cập được ở hai hoặc nhiều biến thể này. Điều đó không tốt và có thể dẫn đến các vấn đề trùng lặp về nội dung. 

Yếu tố Onpage cơ bản

Thẻ Heading

Để tránh các vấn đề về nội dung trùng lặp, hãy đảm bảo rằng mỗi trang trên Website của bạn có tiêu đề duy nhất trong mã HTML của trang. Đồng thời, các tiêu đề H1, H2, H3,… khác với các trang khác trên Website của bạn.

Thẻ Meta Description

Việc trùng lặp Meta Description cũng tạo nên Duplicate Content.
Việc trùng lặp Meta Description cũng tạo nên Duplicate Content.

Việc đảm bảo Meta Description không bị trùng lặp cũng rất vô cùng quan trọng. Phần nội dung này nếu Copy cho tất cả các bài viết sẽ gây ra sự trùng lặp, khó khăn cho Google thu thập thông tin và hiểu nội dung của các trang khác nhau. Nếu bạn không có điều kiện viết Meta Description duy nhất cho mỗi trang, hãy nên để trống mục này. Google sẽ lấy các đoạn trích từ nội dung của bạn và trình bày nó dưới dạng mô tả Meta.

Content có độ trùng lặp cao

Nội dung là do vô tình hay cố ý bị trùng lặp thì đều có thể gây ảnh hưởng đến việc SEO. Nội dung có thể bị trùng lặp do trang Web khác đăng lại nội dung của bạn. Hoặc bạn đã đăng một bài viết trên nhiều trang của mình. Nếu các nội dung này ảnh hưởng đến quá trình tối ưu hóa công cụ tìm kiếm, bạn cần loại bỏ đi nội dung trùng lặp.

 

Cách xử lí Duplicate Content

Cách khắc phục Duplicate Content 

Trong một số trường hợp, Google đã nhận thấy rằng nội dung trùng lặp có thể được hiển thị với mục đích thao túng thứ hạng và đánh lừa người dùng. Lúc này, họ sẽ thực hiện các điều chỉnh trong việc Index và xếp hạng của các Website liên quan. Do đó, thứ hạng của các trang Web có thể bị ảnh hưởng, hoặc trang Web có thể sẽ bị xóa hoàn toàn khỏi chỉ mục của Google và không còn xuất hiện trong kết quả tìm kiếm nữa.

Hiểu được cách khắc phục Duplicate Content là gì, bạn sẽ có thể chủ động giải quyết các vấn đề và đảm bảo khách truy cập sẽ thấy nội dung bạn muốn. 

Dùng Redirect 301

Bạn có thể dùng Redirect 301 để khắc phục Duplicate Content.
Bạn có thể dùng Redirect 301 để khắc phục Duplicate Content.

 

Bạn có thể sử dụng chuyển hướng 301 (“RedirectPermanent”) trong tệp “.htaccess” của mình để khắc phục Duplicate Content. Điều này giúp bạn chuyển hướng người dùng, Googlebot và các trình thu thập dữ liệu khác theo ý muốn. Khi người dùng truy cập một URL có nội dung bị trùng lặp, họ sẽ được điều hướng sang trang gốc, hoặc trang bạn muốn. Bạn thực hiện việc này trong IIS thông qua bảng điều khiển quản trị, hoặc có thể thực hiện việc này trong Apache bằng tệp .htaccess.

Xây dựng liên kết hợp lý

Hãy cố gắng giữ liên kết nội bộ của bạn nhất quán. Đừng để xuất hiện vấn đề URL có dấu gạch chéo cuối Link, hay nội dung trùng ở các URL WWW, HTTP và HTTPS,…

Sử dụng Top-Level Domain

Để Google cung cấp phiên bản phù hợp nhất cho các tài liệu, bài viết, bạn nên sử dụng các Top Level Domain (tên miền cấp cao nhất) bất cứ khi nào có thể để xử lý nội dung theo quốc gia, lĩnh vực cụ thể. Top Level Domain là phần mở rộng sau cuối của tên miền, nằm sau dấu chấm ở cuối cùng. 

Ví dụ, sử dụng “https://domain.vn” chứa nội dung tập trung vào người dùng tại Việt Nam sẽ được Google ưu tiên hơn là “https://domain.com/vn”.

Phân phối nội dung hợp lý cho từng nền tảng khác nhau

Nếu bạn cung cấp nội dung của mình trên các trang Web khác, Google sẽ luôn hiển thị phiên bản mà họ nghĩ là sẽ phù hợp nhất đối với người dùng trong mỗi tìm kiếm nhất định. Kết quả tìm kiếm có thể không phải phiên bản bạn muốn. 

Vậy đối với trường hợp này, cách để khắc phục hậu quả không mong muốn của Duplicate Content là gì? Hãy đảm bảo rằng mỗi trang Web, bài viết có Copy nội dung của bạn sẽ có gắn Backlink về bài viết gốc của bạn. 

Đồng thời, bạn cũng có thể yêu cầu những người sử dụng nội dung của bạn sử dụng thẻ Meta Noindex để ngăn các công cụ tìm kiếm lập chỉ mục phiên bản nội dung của họ.

Tránh việc để Google Index những nội dung chưa hoàn thiện

Bạn có thể dùng thẻ Meta Noindex để ngăn Google lập chỉ mục nội dung chưa hoàn thiện.
Bạn có thể dùng thẻ Meta Noindex để ngăn Google lập chỉ mục nội dung chưa hoàn thiện.

Người dùng không thích nhìn thấy các trang trống, không có nội dung. Vì vậy, hãy tránh xuất bản các trang mà bạn chưa có nội dung thực. Nếu bạn muốn tạo các trang để giữ chỗ, hãy sử dụng thẻ Meta Noindex để chặn lập chỉ mục các trang này.

Giảm thiểu tối đa các nội dung tương tự nhau

Nếu bạn có nhiều trang giống nhau, hãy xem xét mở rộng từng trang hoặc hợp nhất các trang thành một. Ví dụ: nếu bạn có một Website du lịch với các trang riêng biệt cho hai thành phố, nhưng thông tin giống nhau trên cả hai trang. Lúc này, bạn có thể hợp nhất các trang thành một trang về cả hai thành phố, hoặc bạn có thể tạo nội dung khác biệt hơn, mở rộng các trang để chứa nội dung duy nhất về mỗi thành phố đó. 

DỊCH VỤ ĐỒNG HÀNH CÙNG DOANH NGHIỆP

// Câu 2 // Câu 3 // Câu 4 // Câu 5