zhaket logo

گوگل از فیلترهای بلوم برای افزایش سرعت پردازش داده ها در کنسول جستجو استفاده می کند

اخبار

3 دقیقه زمان مطالعه

درجریان پادکست شهریورماه گوگل که در آن جان مولر و گری ایلز به بررسی مهم ترین سوالات کاربران پرداختند، گری درباره اینکه چرا داده های گزارش Filter کنسول از گزارش های overall بیشتر است توضیحات مهمی داد.

گری می گوید: وقتی صحبت از مدیریت تعداد زیادی آیتم در یک مجموعه عظیم به میان می آید، جستجوی سریع به چالشی بسیار سخت تبدیل می شود. ما باید داده های زیادی را مدیریت کنیم و از طرفی با این مساله مواجه هستیم که بتوانیم در زمان و فضای ذخیره سازی اطلاعات نیز صرفه جویی مناسبی داشته باشیم. به همین دلیل است که از فیلترهای بلوم – Bloom بهره می بریم که علاوه بر افزایش کارایی سیستم، فرآیند جستجو را با بهره گیری از روش هش کردن داده ها سرعت می بخشیم.

فیلترهای بلوم داده ها را به یک رشته تصادفی از اعداد تبدیل می کند که به این فرایند هش کردن گفته می شود. هش – Hash یعنی داده ها را به یک فرمت کوچکتر و فشرده تر تبدیل می شود تا گوگل بتواند با سرعت بیشتری اطلاعات را ذخیره و یا جستجو و پیدا کند.

هش کردن داده ها در فیلترهای بلوم به 2 روش باعث افزایش سرعت جستجو می شود:

کاهش حجم داده ها: فیلترهای بلوم از آرایه های بیت استفاده می کنند که برای ذخیره اطلاعات هش شده استفاده می شود. بنابراین، هرچه حجم داده ها کوچکتر باشد، فیلتر بلوم نیز سریعتر خواهد بود.
کاهش پیچیدگی محاسباتی: فیلترهای بلوم از یک سری عملیات محاسباتی ساده برای بررسی وجود یک عنصر در مجموعه عظیمی از داده استفاده می کنند. این عملیات محاسباتی بسیار سریعتر از عملیات پردازشی مورد نیاز برای جستجو در دیتابیس اصلی هستند.

به بیان دیگر، فیلترهای بلوم ابتدا به مجموعه جداگانه ای از داده های هش شده (overal) مراجعه می کنند که این مجموعه داده ها همان نمای فشرده از مجموعه اصلی (filter) است. بدین ترتیب بلوم می تواند وجود یک عنصر در مجموعه اصلی داده ها را با سرعت بیشتری جستجو کرده و بیابد.

هرچقدر حجم داده بیشتر باشد، افزایش سرعت با استفاده از تکنیک هش باعث کاهش دقت می شود.

گری ایلز توضیح می دهد: هش کردن داده ها سرعت را افزایش می دهد اما گاهی باعث از دست رفتن داده نیز می شود، و اینکه در کنسول جستجو با عدم انطباق گزارش ها در بخش فیلتر و Overal مواجه هستید به همین دلیل است. هرچقدر حجم داده های شما کمتر باشد، میزان دقت در آمار بخش Overal بیشتر است و زمانیکه صحبت از میلیاردها و تریلیون ها دیتا به وسط می آید، از دست رفتن دیتا برای ارایه گزارش سریع در کنسول باعث از دست رفتن بخشی از اطلاعات می شود که بخاطر هش کردن آنها است.

نکته مهم تری که در صحبت گری ایلز و بطور کل مباحثی که گوگل مطرح می کند، اشاره به فرآیند پیشی بینی است. چیزی که در هوش مصنوعی مولد و چت بات ها زیاد دیده و شنیده می شود. بر اساس یکی از پتنت های گوگل، این موتور جستجو در مواردی که دیتای مفیدی برای رتبه بندی و تولید ریزالت های مفید وجود نداشته باشد، جستجوهای کاربر را پیش بینی و سرپ تولید کرده و برای این کار از هوش مصنوعی پالم 2 استفاده می شود.

با این توضیحات، گری ایلز در ادامه صحبت های خود می گوید: فیلترهای بلوم با پیش بینی وجود چیزی در دیتا ست ها یا همان مجموعه داده ها، سرعت جستجو را افزایش می دهند ولی هرچقدر حجم دیتا زیادتر باشد، دقت نیز کمتر و امکان از دست رفتن هم بیشتر می شود.

سرعت مهم تر از دقت است، استراتژی گوگل در نمایش کل آمار و گزارش ها

این رویکرد ممکن است بسیار عجیب باشد اما وقتی پای حجم وسیعی از داده در سطح وب به میان می آید، سرعت پردازش داده ها در ابزارهایی مانند کنسول جستجوی گوگل، امری ضروری است. میزان آمار نمایش داده شده در داده‌های فیلتر می‌تواند بالاتر از داده‌های آماری Overal باشد، زیرا گوگل ز فیلترهای بلوم برای تجزیه و تحلیل سریع حجم وسیعی از دیتاست ها استفاده می‌کند.

اگر بخواهیم شفاف تر توضیح دهیم، فیلترهای بلوم به گوگل این امکان را می دهند تا بر روی تریلیون ها داده بخوبی کار کند، اما گاهی اوقات لازم است تا دقت را قربانی سرعت و صرفه جوی کرد.

گوگل بارها گفته که اینترنت درحال منفجر شدن است و حجم داده و اطلاعاتی که در وب وجود دارد واقعا قابل تصور نیست. برای همین منظور است که دائما بر روی تولید محتوای بسیار ارزشمند و هدفمند تمرکز کرده به غنی تر کردن محتوای وب کمک کرد.


نویسنده علیرضا ناجی

سایر مقالات نویسنده

0

دیدگاه ها

ارسال دیدگاه

ارسال دیدگاه