گوگل مستندات رسمی Googlebot خود را بهروزرسانی و جزئیات دقیقتری از محدودیتهای اندازه فایل برای کراولر Googlebot منتشر کرد. در این تغییرات، Googlebot هنگام کراول برای Google Search فقط اولین ۲ مگابایت از فایلهای متنی پشتیبانیشده (مانند HTML، CSS، JavaScript و غیره) را میخواند. از طرف دیگر کراول فایلهای PDF به ۶۴ مگابایت افزایش یافته است.
این بهروزرسانی که در تاریخ ۳ فوریه ۲۰۲۶ در changelog مستندات crawling گوگل ثبت شده، رفتار خزنده را شفافسازی می کند زیرا تا پیش از این، بسیاری از متخصصان SEO بر این باور بودند که محدودیت کلی ۱۵ مگابایت، برای همه فایلها از جمله صفحات وب اعمال میشود.
بر همین اساس، حالا تصویر واضح تری از رفتار کراولرها و خزنده های گوگل داریم:
- محدودیت پیشفرض برای همه خزندهها و fetcherهای گوگل (شامل محصولات مختلف مانند Search، News، Shopping، Gemini و AdSense): ۱۵ مگابایت اول هر فایل.
- محدودیت خاص Googlebot برای جستجوی گوگل: ۲ مگابایت اول برای فایلهای متنی/HTML، و ۶۴ مگابایت اول برای PDFها.

جان مولر، تحلیلگر جستجوی گوگل، در پاسخ به بحثهای Reddit و Bluesky تأکید کرده که این محدودیتها جدید نیستند و سالهاست وجود داشتهاند؛ وی در جریان بحث های شکل گرفته حول این موضوع بیان داشت:
«۲ مگابایت HTML حجم بسیار زیادی است. طبق آمار HTTP Archive، اندازه متوسط HTML صفحات موبایل فقط ۳۳ کیلوبایت و ۹۰ درصد صفحات کمتر از ۱۵۱ کیلوبایت هستند. تقریباً هیچ سایتی به این محدودیت نمیرسد.»
وی به عنوان توصیه اضافه کرد: محتوای مهم (عنوانها، متن اصلی، لینکها و schema) را در بخش های معقول قرار دهید، نه انتها. اگر محتوای بسیار طولانی دارید (مثل کتاب یا مقاله چندصدصفحهای)، بهتر است آن را به صورت PDF منتشر کنید تا از محدودیت بالاتر بهره ببرید.
تأثیر محدودیت های کراولر گوگل بر سایتها و SEO
اکثر سایتها تحت تأثیر نیستند زیرا حجم خام HTML صفحات معمولاً بسیار کمتر از ۲ مگابایت است. سایتهای آسیبپذیر شامل صفحاتی با کد سنگین (inline CSS/JS زیاد)، صفحات infinite scroll طولانی بدون pagination مناسب یا صفحات حجیم که محتوای کلیدی در انتها قرار گرفته خواهند بود.
به عنوان یک نکته فنی، محدودیت فوق بر روی نسخه فشردهنشده (uncompressed) اعمال میشود و وقتی به حد مشخص شده برسد، گوگل دانلود را متوقف کرده و فقط بخش دانلودشده را برای ایندکس در نظر میگیرد. اینجا منابع خارجی صفحه (CSS، JS) هم جداگانه fetch میشوند و هر کدام محدودیت ۲ مگابایتی دارند (به جز PDF).