خلاص شدن از شر مطالب کپی شده وب سایت

نوشته شده توسط مهندس کلانتری

آدرس کوتاه: https://sitedar.com/?p=645

5/5 - (1 امتیاز)

خوب حتما شنیده اید که محتوا پادشاه است. بله بدون محتوا چیزی برای بهینه سازی برای موتورهای جستجو یا همان سئو وجود ندارد. هر چه محتوا و ساختار وب سایت برای ربات های موتورهای جستجو قابل درک تر باشد مطالب بیشتری از سایت در موتورهای جستجو فهرست و رتبه بندی می شود و شانس حضور صفحات یک وب سایت در صفحه نتایج جستجو بالا می رود.

با این حال محتوای وب سایت باید ویژگی هایی داشته باشد: اصیل و منحصر به فرد بودن، ایجاد ارزش کردن برای کاربر و بهینه سازی شدن برای موتورهای جستجو و غیره.

اصیل و منحصر به فرد بودن محتوا به این معناست که محتوا تنها در یک صفحه وب در اینترنت قابل دسترسی باشد (که در این مقاله از دارکوب به این مورد می پردازیم). اما گاه ما به این مسئله بر می خوریم که محتوایی در وب سایت ما تکرار شده است. این تکرار می تواند دلایل مختلفی داشته باشد. احتمال دارد به صورت سهوی به علت زیاد بودن حجم محتوای وب سایت محتوای تکراری در طول زمان در سایت پست شود. یا حتی زمانی که چندین کاربر اجازه انتشار محتوا را بر روی سایت دارند این اتفاق بیافتد. یا در حالتی مدیر یا تولید کننده وب سایت به خاطر عدم آگاهی از قوانین محتوایی را از سایت دیگر کپی کرده در سایت شما قرار دهد تنها به این دلیل که این اطلاعات برای کاربر مفید هستند یا به دلایل فنی محتوای تکراری در سایت بوجود آید. اما برخی موارد هم وجود دارد که تولید کننده محتوا به دنبال راحت کردن کار خود دست به کپی کردن می زند.

علت وجود محتوای تکراری هر آنچه باشد، چه این محتوا در چندین جای وب سایت شما تکرار شده باشد یا از وب سایت دیگری به سایت شما کپی شده باشد، در هر حال شما نیاز به بررسی و اقدام درباره آن دارید. چون محتوای تکراری می تواند به سئوی وب سایت شما آسیب بزند.

 

محتوای تکراری چیست؟

محتوای تکراری (Duplicate Content) محتوایی است که در بیش از “یکجا” در اینترنت ظاهر شود. “یکجا” با محلی با یک آدرس منحصر به فرد وب سایت (URL) تعریف می شود. پس هر زمانی که یک محتوا در بیش از یک URL ظاهر شود به آن محتوای تکراری گفته می شود.

اما با اینکه محتوای تکراری از نظر فنی شامل جریمه از سوی موتورهای جستجو نمی شود، محتوای تکراری می تواند در برخی موارد بر روی رتبه وب سایت شما تاثیر بگذارد. زمانی که چندین قطعه محتوای مشابه در بیش از یک آدرس اینترنتی وجود دارد، برای موتورهای جستجو می تواند مشکل باشد که تصمیم بگیرند که کدام ورژن یا این صفحات تکراری بیشتر به عبارت جستجو شده توسط کاربر هماهنگی دارد.

 

چگونه محتوای تکراری اهمیت پیدا می کند؟

از منظر موتورهای جستجو: محتوای تکراری برای موتورهای جستجو و سئو ممکن است سه مسئله ایجاد کند:

  1. موتورهای جستجو نمی دانند که کدام ورژن محتوا را وارد یا خارج از فهرست خود کنند.
  2. موتورهای جستجو نمی دانند که معیار کیفیت لینک (اعتماد، اعتبار و غیره) را چطور به یک صفحه یا به صفحات مختلف بدهند.
  3. موتورهای جستجو نمی دانند که کدام ورژن از محتوا را برای نتایج کوئری رتبه بندی کنند.

 

از منظر صاحب وب سایت: زمانی که محتوای تکراری در سایت ارائه می شود، صاحب وب سایت مشکل از دست دادن ترافیک و رتبه را خواهد داشت. این مشکلات معمولا از دو مشکل اصلی حاصل می شوند:

  1. برای فراهم کردن یک تجربه جستجو عالی، موتورهای جستجو معمولا به ندرت دو نسخه از یک محتوا را نمایش می دهند، بنابراین مجبور هستند که انتخاب کنند که کدام نسخه بهترین نتیجه را در بر خواهد داشت. این وضعیت باعث کاهش نمایش هر یک از این صفحات تکراری می شود.
  2. ارزش لینک (Link Equity) می تواند کاهش یابد چون سایت های دیگر می بایست بین دو صفحه تکرار انتخاب کنند. به جای آن که لینک های ورودی به یک صفحه از محتوا اشاره کنند، این لینک ها بین صفحات مختلف تکراری تقسیم می شوند. چون لینک های ورودی فاکتور رتبه بندی هستند این مسئله می تواند بر روی نمایش هر قطعه از محتوا تاثیر بگذارد.
  3. اگر محتوای از وب سایت دیگری در سایت شما کپی شده باشد، صورت تشخیص صاحب اصلی محتوا می تواند سایت شما را به گوگل گزارش داده تا لینک های محتوای کپی شده از صفحه نتایج جستجو حذف گردد.

در نتیجه یک قطعه محتوا به خاطر تکراری بودن به اندازه مطلوب خود مورد توجه قرار نمی گیرد و ارزش (سئو) پیدا نمی کند.

 

مشکل محتوای تکراری چگونه اتفاق می افتد؟

در بیشتر موارد صاحبان وب سایت ها به عمد محتوای تکراری ایجاد نمی کنند. اما این بدین معنا نیست که اصلا چنین اتفاقی نمی افتد. در واقع برخی بررسی ها نشان می دهند که 29% وب سایت ها محتوای تکراری دارند. خوب بیاید در این قسمت از مقاله دارکوب به دلایل متداول تولید محتوای تکراری به صورت سهوی بپردازیم.

 

تنوع URL

پارامتر های URL از قبیل ردیابی کلیک و برخی کدهای آنالیزی می توانند موجب ایجاد محتوای تکراری شوند. این مشکل می تواند نه تنها از طریق خود پارامتر، بلکه ترتیبی که این پارامتر ها در URL ظاهر می شوند ایجاد شود.

به طور مشابه session ID ها معمولا تولید کننده محتوای تکراری هستند. و این زمانی اتفاق می افتد که به هر کاربری که وب سایت را بازدید می کند یک session ID داده می شود که در URL ذخیره می گردد.

همچنین ورژن های محتوای سازگار با پرینتر می توانند مشکل محتوای تکراری را در زمان فهرست شدن محتوا موجب شوند.

درسی که در اینجا وجود دارد این است که وقتی که ممکن است اغلب سعی شود که پارامتر URL یا تغییر دهنده URL استفاده نشود (اطلاعاتی که می شود از طریق اسکریپت انتقال داده شود).

 

استفاده ازHTTP  و HTTPS و حذف یا وجود www

اگر وب سایت شما ورژن هایی مختلف در www.site.com و  site.com (با و بدون www) دارد، و محتوا در هر دو ورژن وجود دارد، در واقع شما محتوای تکراری برای هر صفحه ایجاد کرده اید. این موضوع برای وب سایت هایی که دو ورژن http و https  استفاده می کنند صدق می کند. اگر هر دو ورژن سایت موجود بوده و مورد استفاده موتورهای جستجو قرار می گیرند، احتمالا مشکل محتوای تکراری برای وب سایت شما ایجاد خواهد شد.

 

محتوای Scraping  و کپی شده

محتوا تنها به پست های وبلاگ و مقالات تالیفی محدود نمی شود بلکه اطلاعات محصول نیز نوعی محتوا است. برخی محتوای وبلاگ شما را در سایت خود را باز نشر می دهند، که مسئله متداول در تجارت الکترونیک در رابطه با محتوای تکراری است. اگر وب سایت های متعددی محصولی یکسانی را به فروش برسانند، اغلب همه از توضیحات تولید کننده برای آن استفاده می کنند، و محتوایی یکسان در محل ها مختلفی مورد استفاده قرار می گیرد.

 

روش بر خورد با محتوای تکراری

از نظر من بهترین روش برای برخورد با محتوای تکراری در وب سایت خود این است که آن را باز نویسی کنیم. اغلب دیده می شود که تهیه محتوای به افراد غیر متخصص سپرده می شود که آن ها نیز به اقدام غیر اخلاقی کپی محتوا از سایر سایت ها دست می زنند. زمانی که متوجه محتوای کپی شده در سایت خود شدید، در صورت حذف یا نادیده گرفتن آن ممکن است در طول زمان به سئوی سایت شما آسیب برساند.  بنابراین بهتر است با حفظ ساختار لینک و URL و عنوان محتوای کپی شده، بطور کامل این محتوا را بازنویسی نمایید. منظور از بازنویسی تنها تغییر برخی کلمات نیست بلکه باید محتوا به طور کامل بازنویسی شود و تنها لینک ها و عنوان از محتوای قبل نگهداری شود.

حل مشکل محتوای تکراری به این نکته اساسی منتهی می شود که مشخص کنیم که کدام یک از محتویات تکراری صحیح است.

هر زمان که در یک سایت محتوایی در چندین URL یافت شود باید این محتوا برای موتورهای جستجو کانالیزه (Canonicalized)  شود.

کنالیزه کردن یا Canonical روشی است که به موتورهای جستجو بگوییم که یک URL خاص حاوی نسخه اصلی یک محتوای تکراری است. این کار باعث جلوگیری از مشکلات محتوای تکراری می شود. در واقع شما به این روش به موتورهای جستجو می گویید که کدام ورژن از محتوا در صفحه نتایج جستجو ظاهر شود.

خوب بیایید در این مقاله از دارکوب به سراغ راه های مدیریت محتوای تکراری برویم. استفاده از Redirect 301 برای تصحیح URL، استفاده از ویژگی rel=canonical یا استفاده از پارامتر هایی برای مدیریت آن در Google Search Console.

 

301 Redirect

در بسیاری موارد بهترین راه برای برخورد با محتوای تکراری نصب 301 redirect از صفحه محتوای تکراری به صفحه اورجینال محتوا است.

زمانی که چندین صفحه با پتانسیل رتبه گیری خوب با هم دیگر در یک تک صفحه ترکیب می شوند، نه تنها رقابت آن ها با یکدیگر متوقف می شود، بلکه به صورت کلی ارتباط و شهرت بهتری را ایجاد خواهند کرد. این گونه تاثیر زیادی بر روی شانس رتبه گیری صفحه اورجینال خواهد داشت.

 

Rel=”canonical”

گزینه دیگر برای مواجه با محتوای تکراری استفاده از صفت Rel=”canonical” است. این ویژگی به موتورهای جستجو می گوید که این صفحه یک کپی از صفحه دیگر با URL مشخصی می باشد، و تمام لینک، ارزیابی های محتوا و قدرت رتبه بندی که موتور جستجو پیاده می کند باید برای آن URL مشخص در نظر گرفته شود.

Rel=”canonical” باید به HTML head هر کپی از محتوای اصلی اضافه شود و URL محتوای اصلی نیز در آن قرار گرفته و لینک شود. این ویژگی تقریبا به اندازه 301 redirect قدرت رتبه بندی را انتقال می دهد. چون این ویژگی بجای آنکه در سطح سرور نصب شود در سطح صفحه بندی پیاده سازی شده است. بنابراین زمان توسعه کمتری را طلب می کند.

 

Meta Robots Noindex

Meta Robots یک تگ متا با مقادیر Noindex یا  Followکه برای مدیریت محتوای تکراری به کار می آید. این تگ باید به HTML head هر صفحه اضافه شود تا موتور جستجو از فهرست کردن آن امتنا کند.

تگ robot meta به موتورهای جستجو اجازه می دهد که لینک ها یک صفحه را Crawl کند، اما آن ها را وارد فهرست خود نمی کند. این مهم است که صفحه تکراری Crawl شود، حتی اگر شما از گوگل بخواهید که آن را فهرست نکند. زیرا گوگل به صراحت در برابر محدود کردن دسترسی خزیدن به محتوای تکراری در وب سایت شما هشدار می دهد. (موتورهای جستجو دوست دارند که بتوانند همه چیز را ببینند چون در صورتی که در کد شما اشتباهی وجود داشته باشد. به آن ها اجازه می دهد یک قضاوت خودکار داشته باشند تا موقعیت های مبهم را درک کنند). استفاده از  Meta Robots یک راه حل مخصوص برای مسائل محتوای تکراری مربوط به  Pagination است.

 

تنظیم Preferred domain در کنسول گوگل

Google Search Console به شما اجازه می دهد تا preferred domain برای وب سایت خود تنظیم کنید. مثلا نسخه بدون www وب سایت شما را در نظر بگیرد که برای Googlebot مشخص شود که چطور باید با پارامتر های مختلف URL را به طور متفاوت رفتار کند parameter handling)).

بسته به ساختار URL شما و علت مسائل مربوط به محتوای تکراری، راه اندازی دامنه ترجیحی preferred domain یا مدیریت پارامتر parameter handling (یا هر دو) ممکن است راه حلی ارائه دهند.

اشکال اصلی استفاده از مدیریت پارامتر به عنوان روش اصلی برای برخورد با محتوای تکراری این است که تغییراتی که شما انجام می دهید فقط برای گوگل کار می کنند. هر قواعدی که با استفاده از Google Search Console جایگزین می شود، تاثیری بر چگونگی برخورد Bing یا هر خزنده موتور جستجوی دیگری با سایت شما نخواهد گذاشت. شما باید از ابزارهای وب مستر برای موتورهای جستجوی دیگر علاوه بر تنظیم کردن تنظیمات در کنسول جستجو استفاده کنید.

 

روش های دیگر برای مقابله با محتوای تکراری

حفظ یکپارچگی هنگام ایجاد لینک داخلی در یک سایت. به عنوان مثال، اگر یک وب مستر تعیین کند که نسخه canonical  یک دامنهwww.example.com/  است، در نتیجه تمام پیوندهای داخلی باید به جای http://www.example.com/example   به http://example.com/  برود (توجه بدون WWW).

هنگام متحد کردن محتوا، اطمینان حاصل کنید که صفحه وب سایت یک پیوند را به محتوای اصلی اضافه کند و نه به انواع مختلف URL.

برای اضافه کردن یک سپر محافظتی اضافی در برابر scraper محتوا و سرقت اعتبار سئو برای محتوای شما عاقلانه است که پیوند ارجاع به خود rel = canonical را به صفحات موجود اضافه کنید. این یک ویژگی canonical است که به نشانی اینترنتی که در حال حاضر در آن است اشاره می کند، نقطه ای که تلاش برخی از scraper ها را خنثی می کند.

اطلاعات تماس
شعبه 1 و آموزشگاه: تهران، سعادت آباد، چهار راه سرو، کوچه آریا، پلاک 4، طبقه 4، واحد 7
شعبه 2: تهران، سعادت آباد، ضلع جنوب غربی چهار راه سرو، پلاک 62، طبقه 5، واحد 12
تلفن ها: 02122083926 - 02122085386 - 02122082258 (9 الی 17 - پنج شنبه تا 13)
ایمیل: info@sitedar.com
اینستاگرام: darkoobwebdesign
افتخارات و مجوزها
  • جزو شرکت های خلاق معاونت علمی
  • عضو سازمان نظام صنفی رایانه ای
  • رتبه ۴ شورای عالی انفورماتیک
  • دارای مجوز آموزشگاه از فنی و حرفه ای
  • دارای مجوز نشر دیجیتال
  • دارای پروانه کانون آگهی و تبلیغاتی
  • پروانه کسب و کارهای مجازی
  • عضو انجمن کسب و کارهای اینترنتی
  • دارای نماد اعتماد الکترونیکی
پشتیبانی 24 ساعته 7 روز