بی توجهی هوش مصنوعی به robots.txt و استخراج داده های سایت

اخبار روز حوزه وب 2 دقیقه زمان مطالعه بروزرسانی در3 تیر, 1403

طبق گزارش اخیر استارتاپ TollBit، به نظر می‌رسد برخی شرکت‌های هوش مصنوعی قواعد نانوشته‌ای را که برای جلوگیری از استخراج یا همان اسکرپینگ اطلاعات وب‌سایت‌ها

Ignoring artificial intelligence to robots.txt and not extracting site data

طبق گزارش اخیر استارتاپ TollBit، به نظر می‌رسد برخی شرکت‌های هوش مصنوعی قواعد نانوشته‌ای را که برای جلوگیری از استخراج یا همان اسکرپینگ اطلاعات وب‌سایت‌ها وضع شده، زیر پا می‌گذارند. این موضوع نگرانی‌هایی را در مورد حریم خصوصی و مالکیت داده‌ها به وجود آورده است.

TollBit که واسطه‌ای بین وب‌سایت‌ها و شرکت‌های هوش مصنوعی است، در نامه‌ای به مشتریان خود اعلام کرد که برخی از این شرکت‌ها از پروتکل robots.txt، که دستورالعمل‌هایی را برای خزنده‌های وب در مورد اینکه کدام صفحات را می‌توانند crawl کنند و کدام صفحات را نمی‌توانند، نادیده می‌گیرند. این پروتکل از سال 1994 توسط توسعه‌دهندگان وب برای محافظت از محتوای خود در برابر کپی غیرمجاز استفاده می‌شود.

اگرچه TollBit نام هیچ شرکتی را به طور خاص فاش نکرده، اما منابع آگاه به Insider گفته‌اند که OpenAI و Anthropic، دو شرکت پیشرو در زمینه هوش مصنوعی، از جمله متخلفان هستند. هر دو شرکت قبلاً متعهد به رعایت دستورالعمل‌های robots.txt شده بودند.

تخلفات فوق در بحبوحه رقابت شدید برای ساخت قدرتمندترین مدل‌های هوش مصنوعی با استفاده از داده‌های باکیفیت و حجم بالا رخ می‌دهد. به گفته TollBit، “ابزارهای هوش مصنوعی به جای اتکا به یک منبع واحد، به طور فزاینده‌ای از منابع مختلف (از جمله وب‌سایت‌هایی که به طور صریح اجازه نداده‌اند) برای جمع‌آوری محتوا استفاده می‌کنند.”

اقدامات اخیر شرکت‌های هوش مصنوعی، انتقاداتی را به دنبال داشته است. فوربز اخیراً Perplexity، another AI startup، را به سرقت محتوای خود از طریق نادیده گرفتن robots.txt متهم کرد.

این حادثه نشان‌دهنده تنش قابل توجه بین نیاز به داده‌ها برای تحقیقات هوش مصنوعی و حق مالکیت و حریم خصوصی صاحبان محتوا است. هنوز مشخص نیست که چه راه‌حلی برای این مشکل وجود دارد، اما بحث در مورد این موضوع همواره داغ‌ خواهد بود.