نحوه کار Googlebot به چه صورت است؟

5/5 - (1 امتیاز)

در ادامه مقالات دارکوب درباره سئو تصمیم گرفتم اینبار درباره کارکرد گوگل بات بنویسم. درک عملکرد گوگل بات می تواند شما را در سئوی بهتر یاری کند.

لیست مطالب

Googlebot چیست؟

Googlebot یک خزنده (Crawler) است که توسط گوگل استفاده می شود. این به اصطلاح ربات به گوگل کمک می کند که صفحات وب را یافته و اطلاعات آن را بازیابی کند. و این اطلاعات جمع آوری شده توسط Googlebot برای به روز رسانی فهرست های گوگل (Google Index) استفاده می شود.

در واقع Googlebot به طور مدام در حال بازدید صفحات وب است و تمام چندین میلیارد صفحه وب را بازدید می کند.

خزنده وب یا Web Crawler چیست؟

Web Crawler ها که همچنین به نام Bots، Robots یا Spiders شناخته می شوند، نوعی نرم افزار هستند برای دنبال کردن لینک ها، جمع آوری اطلاعات صفحات وب و ارسال آن ها به گوگل.

Googlebot چه کارهایی انجام می دهد؟

همانطور که گفته شد Googlebot محتوای صفحات وب (مانند کلمات، کدها و سایر منابعی که یک صفحه را می سازند) را بازیابی می کند. اگر محتوای بازیابی شده دارای لینک باشد این مورد نیز در نظر گرفته می شود. و سپس همه اطلاعات به گوگل انتقال داده خواهند شد.

Googlebot و وب سایت شما

اطلاعاتی که Googlebot به کامپیوتر های گوگل می فرستاد فهرست های گوگل را به روز می کند. فهرست گوگل جایی است که صفحات وب با یکدیگر مقایسه و رتبه بندی می شوند.

برای آنکه صفحات وب سایت شما توسط گوگل یافته شوند باید وب سایت شما در دسترس گوگل باشد. و اگر می خواهید وب سایت شما به طور بهینه ایی رتبه بگیرد باید منابع وب سایت توسط Googlebot قابل دسترسی باشد.

تفاوت Googlebot و Google index

Googlebot اطلاعات وب سایت ها را بازیابی می کند و آنها را به گوگل ارسال می نماید اما در این میان به هیچ عنوان کاری به قضاوت محتوا ندارد. تنها چیزی که برای آن اهمیت دارد قابل دسترس بودن محتوای یک سایت است و اینکه آیا محتوای دیگری قابل دسترس است یا خیر؟

اما فهرست گوگل یا Google index اطلاعات را از Googlebot گرفته و برای رتبه بندی استفاده می کند.

اطمینان از قابل دسترس بودن صفحات وب توسط Googlebot

همانطور که دیدید برای رتبه بندی وب سایت اول از همه باید Googlebot محتوای وب سایت را بخواند. برای همین شما باید از قابل دسترس بودن محتوای وب سایت خود اطمینان داشته باشید.

اولین سوال هایی که وب مستر ها باید بپرسند این است:

آیا Googlebot می تواند محتوای صفحه را ببیند؟
آیا Googlebot می تواند تمام محتوا و لینک های را دسترسی داشته باشد؟
آیا Googlebot می تواند به تمام منابع صفحه دسترسی داشته باشد؟

خوب بیایید نگاه دقیق تری به این سوالات بیاندازیم.

آیا Googlebot می تواند محتوای صفحه را ببیند؟

برای آنکه بدانیم گوگل چه چیزهایی از وب سایت شما را می تواند ببیند به از این جستجو استفاده کنید. site:yourwebsite.com

با قراردادن “site:” پیش از نام دامنه شما از گوگل می خواهید که تمام صفحاتی را که از وب سایت شما فهرست کرده است را نمایش دهد.

اطمینان حاصل کنید که بین “site:” و نام دامنه فاصله ایی وجود نداشته باشد.

اگر مقدار کمی از محتوای وب سایت خود را در این نتیجه جستجو مشاهده کردید، زمان آن است که به فایل robots.txt مراجعه کرده تا ببینید که آیا در این فایل جلوی دسترسی گوگل را به محتوا را گرفته اید یا خیر. این ساده ترین و مهم ترین بررسی شما از دسترسی محتوای وب سایت است.

آیا Googlebot می تواند به تمام محتوا و لینک ها دسترسی داشته باشد؟

مرحله بعدی اطمینان یافتن از اینکه آیا گوگل لینک ها و محتوا را به درستی می بیند یا خیر. تنها به این دلیل که گوگل می تواند صفحات وب سایت شما را ببیند به این معنا نیست که تصویر کاملی از اینکه محتوای آنها چیست، را هم داشته باشد.

Googlebot وب سایت را همانطور که انسان ها می بینند نمی بیند. مثلا تصور کنید که وب سایت شما حاوی یک عکس است. چیزی که انسان می بیند عکس است اما Googlebot کد هایی را می بیند که یک عکس را صدا می زند.

Googlebot ممکن است به صفحه وب و کدهای HTML دسترسی داشته باشد اما به دلایل مختلف ممکن است به تصویر دسترسی نداشته باشد. در چنین شرایطی این تصویر در فهرست گوگل اضافه نمی شود، به این معنا که گوگل معنا ناقصی از صفحه وب درک کرده است.

چطور Googlebot یک صفحه وب را می بیند؟

Googlebot به طور کامل یک صفحه وب را نمی بیند بلکه تک قسمت های و کامپوننت های مختلف صفحه را می بیند.

اگر هر یک از کامپوننت ها برای Googlebot قابل دیدن نباشد اطلاعات آن را نیز به فهرست گوگل ارسال نمی کند.

این مسئله تنها درباره تصاویر و عکس ها نیست. وب سایت اجزا یا کامپوننت های زیادی دارد. برای آنکه گوگل بتواند صفحه وب را به طور بهینه ایی رتبه بندی کند نیاز به یک تصویر کامل از سایت دارد. دلایل متعددی وجود دارد که ممکن است یک گوگل بات نتواند به محتوای یک وب سایت دسترسی داشته باشد. اینجا از چند مورد متداول نام می برم.

منابع سایت توسط txt مسدود شده است
لینک های صفحه قابل خواندن نیستند یا اشتباه اند
تکیه زیاد به تکنولوژی فلش یا سایر تکنیک ها که Crawler های موتورهای جستجو با آن راحت نیستند
خطا های کد یا HTML های بد
لینک های داینامیک پیچیده

همه ی این مسائل به راحتی و با سرعت توسط Google guidelines tool قابل بررسی هستند. یا اگر شما اکانت گوگل دارید می توانید از fetch and render استفاده کنید. این ابزار نمونه ایی از چیز هایی که گوگل از یک صفحه می تواند ببیند برای شما تهیه می کند.

آیا Googlebot به تمام منابع صفحه دسترسی دارد؟

اگر فایل های CSS و جاوا اسکریپت در فایل robots.txt مسدود شده باشند، در این حالت ممکن است برای گوگل بات در درک محتوای صفحه وب سایت شما دچار سوء شود. این وضعیت دیگر از در نظر نگرفتن یک عکس ساده بسیار مهم تر است.

زمانی که منابع یک صفحه وب به طور کامل قابل دسترسی نباشند یک صفحه وب می تواند چیز دیگری باشد یا محتوای دیگری داشته باشد.

برای درک این مسئله صفحات وب موبایل مثال خوبی هستند. مثلا صفحه ایی که از CSS یا جاوا اسکریپت برای نمایش محتوا نسبت به نوع دستگاه کاربر استفاده می کند. اگر Googlebot نتواند به CSS یا جاوااسکریپت صفحه دسترسی داشته باشد، ممکن است درک نکند که این صفحه می تواند برای کاربران موبایل نیز مناسب باشد.

در چنین وضعیتی و یا وضعیت های مشابه، گوگل بات می تواند صفحه وب را ببیند اما با کدهای HTML به تنهایی نمی تواند درک کند که در سناریوهای مختلف این صفحه چطور قابل رتبه بندی است.

آیا می توانید Googlebot را کنترل کنید؟

بله. Googlebot دستور العمل هایی از طریق استانداردهای robots.txt و حتی روش های حرفه ایی تری مخصوص گوگل برای کنترل آن وجود دارد.

برخی از این روش ها عبارتند از:

استفاده از txt
اضافه کردن دستورالعمل های ربات ها در metadata های صفحات وب سایت
اضافه کردن دستور العمل های ربات در Header ها
استفاده از نقشه سایت
استفاده از Google search console

اما پر کاربرد ترین روش همان استفاده از فایل robots.txt است.

فایل robots.txt چیست؟

فایل robots.txt چگونگی تعامل spider های موتورهای جستجو مانند Googlebot را با صفحات وب کنترل می کند. به طور کوتاه یک فایل robots.txt به گوگل بات می گوید که در هنگام بازدید صفحه وب شما چه کار کند. و این کار را با لیست کردن صفحات و فایل هایی که نمی خواهید گوگل بات ببیند انجام می شود.

نقشه سایت و گوگل بات

آنطور که گوگل می گوید Sitemaps روشی است که با آن به Googlebot کمک کنید که وب سایت شما را درک کند.

نقشه سایت فایلی است که در آن به گوگل و سایر موتورهای جستجو درباره ساختار و محتوای وب سایت شما می گوید. خزنده های موتورهای جستجو مانند گوگل بات نیز این فایل را خوانده و به طور هوشیارتری وب سایت شما را می پیمایند.

گوگل می گوید که نقشه سایت در برخی وضعیت ها بسیار مفید واقع می شوند:

وب سایت شما خیلی بزرگ است
وب سایت شما دارای محتویات زیادی است که یا محصور شده اند و یا به خوبی به یکدیگر لینک نشده اند
وب سایت شما جدید است و تعداد کمی external link دارد
وب سایت شما از محتوای رسانه ایی قوی، نشان داده شده در Google News و یا سایر حاشیه نویسی ها ی سازگار با نقشه سایت استفاده می کند.

نقشه های سایت در حال حاضر برای بسیاری از چیزها استفاده می شود، اما تا آنجا که به Googlebot مربوط می شود، نقشه های سایت اساسا لیستی از URL ها و سایر داده هایی را که Googlebot می تواند هنگام بازدید از صفحات وب شما به عنوان راهنمایی استفاده کند، ایجاد می کند.

گوگل بات و کنسول جستجوی گوگل

جای دیگری که می توانید گوگل بات را کنترل کنید کنسول جستجو گوگل است. اگر گوگل بات به وب سرور شما دسترسی سریع دارد می توانید crawl rate آن را تغییر دهید.

همچنین شما می توانید پیش نمایشی از چگونگی دسترسی وب سایت خود توسط گوگل بات و تست robots.txt داشته باشید، خطاهای Crawl را ببینید، درخواست fetch and render بدهید، که به فهم شما از درک گوگل از وب سایت تان کمک می کند.

چند تعداد گوگل بات یا webcrawler وجود دارد؟

نه گونه webcrawler وجود دارد:

Googlebot ((Google Web search
Google Smartphone
Google Mobile (Feature phone)
Googlebot Images
Googlebot Video
Googlebot News
Google Adsense
Google Mobile Adsense
Google Adsbot (چک کردن صفحه فرود)

زبان و موقعیت جغرافیایی در گوگل بات

اگر صفحات شما زبان و محتوا را متناسب با موقعیت مکانی یا زبان درخواست نشان می دهد، Googlebot ممکن است همیشه تمام محتوای سایت شما را مشاهده نکند (آنها استفاده از hreflang را توصیه می کنند).

هنگامی که کاربران در حال بازدید از صفحه شما هستند و شما راه حل مبتنی بر زبان یا مکان را برای محتوای مختلف انتخاب می کنید، یک کاربر در ایتالیا محتوای ایتالیایی را مشاهده می کند و یک کاربر در آمریکا محتوای انگلیسی را می بیند.

Googlebot در آمریکا مستقر است، پس چگونه این کار را می کند؟ Googlebot چگونه محتوای ایتالیایی را ببیند؟

گوگل بات برای آگاهی از محل

گوگل بات با استفاده از دو تکنیک اصلی (که گوگل به ما می گوید) برای ایجاد locale-aware crawling استفاده می کند.

خزنده ژئو توزیع شده (locale-aware crawling): به نظر می رسد Googlebot از آدرس های IP خارج از ایالات متحده استفاده می کند، علاوه بر آدرسهای IP طولانی مدت که Googlebot از آن استفاده می کند ظاهرا در ایالات متحده مستقر هستند.

خزیدن وابسته به زبان: گوگل بات با فیلد Accept-Language که در هدر HTTP تنظیم شده است، استفاده می کند.

بنابراین به عبارت دیگر، گوگل بات روش هایی را برای خزیدن وب به عنوان “کاربر از هر کجا” استفاده می کند، اما (و این “اما” بزرگ)، گوگل هنوز توصیه می کند از hreflang استفاده شود.

صفحه های خزنده گوگل بلافاصله گوگل را در صفحات کمک رسمی Google برای تصمیم گیری ها چک کنید!

جهت طراحی سایت بهینه سازی شده برای موتورهای جستجو کلیک نمایید.