بنیاد ویکیمدیا، نهاد پشتیبان دانشنامه آنلاین ویکیپدیا مجموعه دادهای اختصاصی را برای آموزش مدلهای هوش مصنوعی منتشر کرد. این ابتکار که با هدف کاهش فشار رباتهای استخراجکننده داده بر سرورهای ویکیپدیا طراحی شده، دسترسی توسعهدهندگان به اطلاعات ساختاریافته را آسانتر میکند.
همکاری با Kaggle برای دسترسی بهتر
ویکیمدیا با همکاری پلتفرم Kaggle، که تحت مالکیت گوگل است و بهعنوان مرکزی برای دادههای یادگیری ماشینی شناخته میشود، نسخه بتای این مجموعه داده را به زبانهای انگلیسی و فرانسوی عرضه کرده است. این دادهها که در قالب فایلهای JSON ارائه شدهاند، شامل خلاصههای پژوهشی، توضیحات کوتاه، لینک تصاویر، دادههای اینفوباکس و بخشبندی مقالات هستند، اما ارجاعات و فایلهای صوتی را در بر نمیگیرند.
مزایای مجموعه داده برای توسعهدهندگان
به گفته ویکیمدیا، این مجموعه با مجوز آزاد منتشر شده و بهطور خاص برای رفع نیازهای توسعهدهندگان هوش مصنوعی طراحی شده است. دادههای ساختاریافته و قابلخواندن توسط ماشین، فرآیند آموزش، تنظیم دقیق، ارزیابی و تحلیل مدلهای هوش مصنوعی را سادهتر میکنند و جایگزینی کارآمد برای استخراج مستقیم متن خام مقالات ارائه میدهند.
کاهش فشار بر سرورهای ویکیپدیا
استخراج گسترده دادهها توسط رباتهای هوش مصنوعی تاکنون فشار سنگینی بر زیرساختهای ویکیپدیا وارد کرده است. بنیاد ویکیمدیا با ارائه این مجموعه داده، نهتنها به توسعهدهندگان کمک میکند تا به منبعی قابلاعتماد دسترسی داشته باشند، بلکه بار سرورهای خود را نیز کاهش میدهد.
گامی در جهت دسترسی عادلانه
ویکیمدیا پیشتر با شرکتهایی مانند گوگل و Internet Archive برای اشتراکگذاری محتوا همکاری کرده بود، اما همکاری با Kaggle این امکان را فراهم میکند تا پژوهشگران مستقل و شرکتهای کوچکتر نیز به دادههای باکیفیت دسترسی پیدا کنند. «برندا فلین»، مدیر همکاریهای Kaggle، در این باره اظهار داشت:
«میزبانی دادههای ویکیمدیا برای ما افتخار بزرگی است. Kaggle متعهد است تا دسترسی به این دادهها را برای همه آسان و مفید نگه دارد.»
نویسنده علیرضا ناجی
سایر مقالات نویسندهعلیرضا ناجی، فعال حوزه سئو و اسکیما میباشد. وی در زمینه تحقیق و ترجمه مقالات و آموزش حوزه فناوری اطلاعات، سئو و اسکیمای حرفه ای، بازی های رایانه ای و شبکه های اجتماعی فعالیت میکند و جدیدترین عناوین را به صورت محتوی غنی منتشر مینماید.