zhaket logo

بی توجهی هوش مصنوعی به robots.txt و استخراج داده های سایت

اخبار روز حوزه وب

2 دقیقه زمان مطالعه

طبق گزارش اخیر استارتاپ TollBit، به نظر می‌رسد برخی شرکت‌های هوش مصنوعی قواعد نانوشته‌ای را که برای جلوگیری از استخراج یا همان اسکرپینگ اطلاعات وب‌سایت‌ها وضع شده، زیر پا می‌گذارند. این موضوع نگرانی‌هایی را در مورد حریم خصوصی و مالکیت داده‌ها به وجود آورده است.

TollBit که واسطه‌ای بین وب‌سایت‌ها و شرکت‌های هوش مصنوعی است، در نامه‌ای به مشتریان خود اعلام کرد که برخی از این شرکت‌ها از پروتکل robots.txt، که دستورالعمل‌هایی را برای خزنده‌های وب در مورد اینکه کدام صفحات را می‌توانند crawl کنند و کدام صفحات را نمی‌توانند، نادیده می‌گیرند. این پروتکل از سال 1994 توسط توسعه‌دهندگان وب برای محافظت از محتوای خود در برابر کپی غیرمجاز استفاده می‌شود.

اگرچه TollBit نام هیچ شرکتی را به طور خاص فاش نکرده، اما منابع آگاه به Insider گفته‌اند که OpenAI و Anthropic، دو شرکت پیشرو در زمینه هوش مصنوعی، از جمله متخلفان هستند. هر دو شرکت قبلاً متعهد به رعایت دستورالعمل‌های robots.txt شده بودند.

تخلفات فوق در بحبوحه رقابت شدید برای ساخت قدرتمندترین مدل‌های هوش مصنوعی با استفاده از داده‌های باکیفیت و حجم بالا رخ می‌دهد. به گفته TollBit، “ابزارهای هوش مصنوعی به جای اتکا به یک منبع واحد، به طور فزاینده‌ای از منابع مختلف (از جمله وب‌سایت‌هایی که به طور صریح اجازه نداده‌اند) برای جمع‌آوری محتوا استفاده می‌کنند.”

اقدامات اخیر شرکت‌های هوش مصنوعی، انتقاداتی را به دنبال داشته است. فوربز اخیراً Perplexity، another AI startup، را به سرقت محتوای خود از طریق نادیده گرفتن robots.txt متهم کرد.

این حادثه نشان‌دهنده تنش قابل توجه بین نیاز به داده‌ها برای تحقیقات هوش مصنوعی و حق مالکیت و حریم خصوصی صاحبان محتوا است. هنوز مشخص نیست که چه راه‌حلی برای این مشکل وجود دارد، اما بحث در مورد این موضوع همواره داغ‌ خواهد بود.


تحریریه ژاکت

مشاهده تیم تحریریه

0

دیدگاه ها

ارسال دیدگاه

ارسال دیدگاه