zhaket logo

بروزرسانی سند راهنمای محدودیت های کراولر Googlebot

اخبار تکنولوژی

2 دقیقه زمان مطالعه

گوگل مستندات رسمی Googlebot خود را به‌روزرسانی و جزئیات دقیق‌تری از محدودیت‌های اندازه فایل برای کراولر Googlebot منتشر کرد. در این تغییرات، Googlebot هنگام کراول برای Google Search فقط اولین ۲ مگابایت از فایل‌های متنی پشتیبانی‌شده (مانند HTML، CSS، JavaScript و غیره) را می‌خواند. از طرف دیگر کراول فایل‌های PDF به ۶۴ مگابایت افزایش یافته است.

این به‌روزرسانی که در تاریخ ۳ فوریه ۲۰۲۶ در changelog مستندات crawling گوگل ثبت شده، رفتار خزنده را شفاف‌سازی می کند زیرا تا پیش از این، بسیاری از متخصصان SEO بر این باور بودند که محدودیت کلی ۱۵ مگابایت، برای همه فایل‌ها از جمله صفحات وب اعمال می‌شود.

بر همین اساس، حالا تصویر واضح تری از رفتار کراولرها و خزنده های گوگل داریم:

  • محدودیت پیش‌فرض برای همه خزنده‌ها و fetcherهای گوگل (شامل محصولات مختلف مانند Search، News، Shopping، Gemini و AdSense): ۱۵ مگابایت اول هر فایل.
  • محدودیت خاص Googlebot برای جستجوی گوگل: ۲ مگابایت اول برای فایل‌های متنی/HTML، و ۶۴ مگابایت اول برای PDFها.

Googlebot Crawler Limitations Updated news

جان مولر، تحلیل‌گر جستجوی گوگل، در پاسخ به بحث‌های Reddit و Bluesky تأکید کرده که این محدودیت‌ها جدید نیستند و سال‌هاست وجود داشته‌اند؛ وی در جریان بحث های شکل گرفته حول این موضوع بیان داشت:

«۲ مگابایت HTML حجم بسیار زیادی است. طبق آمار HTTP Archive، اندازه متوسط HTML صفحات موبایل فقط ۳۳ کیلوبایت و ۹۰ درصد صفحات کمتر از ۱۵۱ کیلوبایت هستند. تقریباً هیچ سایتی به این محدودیت نمی‌رسد.»

وی به عنوان توصیه اضافه کرد: محتوای مهم (عنوان‌ها، متن اصلی، لینک‌ها و schema) را در بخش های معقول قرار دهید، نه انتها. اگر محتوای بسیار طولانی دارید (مثل کتاب یا مقاله چندصدصفحه‌ای)، بهتر است آن را به صورت PDF منتشر کنید تا از محدودیت بالاتر بهره ببرید.

تأثیر محدودیت های کراولر گوگل بر سایت‌ها و SEO

اکثر سایت‌ها تحت تأثیر نیستند زیرا حجم خام HTML صفحات معمولاً بسیار کمتر از ۲ مگابایت است. سایت‌های آسیب‌پذیر شامل صفحاتی با کد سنگین (inline CSS/JS زیاد)، صفحات infinite scroll طولانی بدون pagination مناسب یا صفحات حجیم که محتوای کلیدی در انتها قرار گرفته خواهند بود.

به عنوان یک نکته فنی، محدودیت فوق بر روی نسخه فشرده‌نشده (uncompressed) اعمال می‌شود و وقتی به حد مشخص شده برسد، گوگل دانلود را متوقف کرده و فقط بخش دانلودشده را برای ایندکس در نظر می‌گیرد. اینجا منابع خارجی صفحه (CSS، JS) هم جداگانه fetch می‌شوند و هر کدام محدودیت ۲ مگابایتی دارند (به جز PDF).


تحریریه ژاکت

مشاهده تیم تحریریه

0

دیدگاه ها

ارسال دیدگاه

ارسال دیدگاه