طبق گزارش اخیر استارتاپ TollBit، به نظر میرسد برخی شرکتهای هوش مصنوعی قواعد نانوشتهای را که برای جلوگیری از استخراج یا همان اسکرپینگ اطلاعات وبسایتها وضع شده، زیر پا میگذارند. این موضوع نگرانیهایی را در مورد حریم خصوصی و مالکیت دادهها به وجود آورده است.
TollBit که واسطهای بین وبسایتها و شرکتهای هوش مصنوعی است، در نامهای به مشتریان خود اعلام کرد که برخی از این شرکتها از پروتکل robots.txt، که دستورالعملهایی را برای خزندههای وب در مورد اینکه کدام صفحات را میتوانند crawl کنند و کدام صفحات را نمیتوانند، نادیده میگیرند. این پروتکل از سال 1994 توسط توسعهدهندگان وب برای محافظت از محتوای خود در برابر کپی غیرمجاز استفاده میشود.
اگرچه TollBit نام هیچ شرکتی را به طور خاص فاش نکرده، اما منابع آگاه به Insider گفتهاند که OpenAI و Anthropic، دو شرکت پیشرو در زمینه هوش مصنوعی، از جمله متخلفان هستند. هر دو شرکت قبلاً متعهد به رعایت دستورالعملهای robots.txt شده بودند.
تخلفات فوق در بحبوحه رقابت شدید برای ساخت قدرتمندترین مدلهای هوش مصنوعی با استفاده از دادههای باکیفیت و حجم بالا رخ میدهد. به گفته TollBit، “ابزارهای هوش مصنوعی به جای اتکا به یک منبع واحد، به طور فزایندهای از منابع مختلف (از جمله وبسایتهایی که به طور صریح اجازه ندادهاند) برای جمعآوری محتوا استفاده میکنند.”
اقدامات اخیر شرکتهای هوش مصنوعی، انتقاداتی را به دنبال داشته است. فوربز اخیراً Perplexity، another AI startup، را به سرقت محتوای خود از طریق نادیده گرفتن robots.txt متهم کرد.
این حادثه نشاندهنده تنش قابل توجه بین نیاز به دادهها برای تحقیقات هوش مصنوعی و حق مالکیت و حریم خصوصی صاحبان محتوا است. هنوز مشخص نیست که چه راهحلی برای این مشکل وجود دارد، اما بحث در مورد این موضوع همواره داغ خواهد بود.