blog top bar
zhaket logo

انتشار مجموعه‌ داده اختصاصی ویکی‌پدیا برای توسعه‌دهندگان هوش مصنوعی

اخبار تکنولوژی

2 دقیقه زمان مطالعه

بنیاد ویکی‌مدیا، نهاد پشتیبان دانشنامه آنلاین ویکی‌پدیا مجموعه داده‌ای اختصاصی را برای آموزش مدل‌های هوش مصنوعی منتشر کرد. این ابتکار که با هدف کاهش فشار ربات‌های استخراج‌کننده داده بر سرورهای ویکی‌پدیا طراحی شده، دسترسی توسعه‌دهندگان به اطلاعات ساختاریافته را آسان‌تر می‌کند.

همکاری با Kaggle برای دسترسی بهتر

ویکی‌مدیا با همکاری پلتفرم Kaggle، که تحت مالکیت گوگل است و به‌عنوان مرکزی برای داده‌های یادگیری ماشینی شناخته می‌شود، نسخه بتای این مجموعه داده را به زبان‌های انگلیسی و فرانسوی عرضه کرده است. این داده‌ها که در قالب فایل‌های JSON ارائه شده‌اند، شامل خلاصه‌های پژوهشی، توضیحات کوتاه، لینک تصاویر، داده‌های اینفوباکس و بخش‌بندی مقالات هستند، اما ارجاعات و فایل‌های صوتی را در بر نمی‌گیرند.

مزایای مجموعه داده برای توسعه‌دهندگان

به گفته ویکی‌مدیا، این مجموعه با مجوز آزاد منتشر شده و به‌طور خاص برای رفع نیازهای توسعه‌دهندگان هوش مصنوعی طراحی شده است. داده‌های ساختاریافته و قابل‌خواندن توسط ماشین، فرآیند آموزش، تنظیم دقیق، ارزیابی و تحلیل مدل‌های هوش مصنوعی را ساده‌تر می‌کنند و جایگزینی کارآمد برای استخراج مستقیم متن خام مقالات ارائه می‌دهند.

کاهش فشار بر سرورهای ویکی‌پدیا

استخراج گسترده داده‌ها توسط ربات‌های هوش مصنوعی تاکنون فشار سنگینی بر زیرساخت‌های ویکی‌پدیا وارد کرده است. بنیاد ویکی‌مدیا با ارائه این مجموعه داده، نه‌تنها به توسعه‌دهندگان کمک می‌کند تا به منبعی قابل‌اعتماد دسترسی داشته باشند، بلکه بار سرورهای خود را نیز کاهش می‌دهد.

گامی در جهت دسترسی عادلانه

ویکی‌مدیا پیش‌تر با شرکت‌هایی مانند گوگل و Internet Archive برای اشتراک‌گذاری محتوا همکاری کرده بود، اما همکاری با Kaggle این امکان را فراهم می‌کند تا پژوهشگران مستقل و شرکت‌های کوچک‌تر نیز به داده‌های باکیفیت دسترسی پیدا کنند. «برندا فلین»، مدیر همکاری‌های Kaggle، در این باره اظهار داشت:

«میزبانی داده‌های ویکی‌مدیا برای ما افتخار بزرگی است. Kaggle متعهد است تا دسترسی به این داده‌ها را برای همه آسان و مفید نگه دارد.»


نویسنده علیرضا ناجی

سایر مقالات نویسنده

علیرضا ناجی، فعال حوزه سئو و اسکیما می‌باشد. وی در زمینه تحقیق و ترجمه مقالات و آموزش حوزه فناوری اطلاعات، سئو و اسکیمای حرفه ای، بازی های رایانه ای و شبکه های اجتماعی فعالیت می‌کند و جدیدترین عناوین را به صورت محتوی غنی منتشر می‌نماید.

0

دیدگاه ها

ارسال دیدگاه

ارسال دیدگاه