دیتاست چیست؟ – آنچه باید درباره مجموعه داده ها بدانید


پیاده‌سازی و اجرای پروژه‌های مختلف «یادگیری ماشین» (Machine Learning)، از جمله بهترین تمرین‌ها برای ارتقاء مهارت‌های خود در زمینه علم داده است. شروع فعالیت در حوزه علم داده نیازمند آشنایی با داده یا همان Data می‌باشد. اجزای سازنده‌ای که در موجودیت بزرگ‌تری با عنوان دیتاست یا «مجموعه‌داده» (Dataset) ذخیره شده و بهره‌برداری از داده‌ها را برای ما ممکن می‌سازد. در واقع، دیتاست پایه و اساس هر نوع فرایند، تکنیک و مدل‌هایی است که توسعه‌دهندگان برای تفسیر کار خود از آن استفاده می‌کنند. به‌طور معمول، دیتاست شامل تعداد زیادی نقاط داده است که در قالب یک جدول گروه‌بندی شده‌اند. امروزه دیتاست‌ها نقش مهمی در صنایع و همچنین مراکز آموزشی دارند که هدف آن‌ها افزایش بهره‌وری و آموزش نیروهای کارآمد است. در این مطلب از مجله فرادرس، یاد می‌گیریم دیتاست چیست و درک مناسبی از نحوه کارکرد انواع داده‌ها به‌دست می‌آوریم.

در این مطلب، ابتدا به پرسش دیتاست چیست پاسخ می‌دهیم و پس از معرفی انواع دیتاست‌ها، با نحوه تقسیم و ارزیابی داده‌ها آشنا می‌شویم. سپس شرحی از ویژگی‌های مهم دیتاست‌ها ارائه داده و با بررسی تعدادی از نمونه‌های کاربردی، روش‌های ایجاد دیتاست‌‌ها را یاد می‌گیریم. در انتهای این مطلب از مجله فرادرس، به معرفی برخی از رایج‌ترین منابع دریافت دیتاست‌ها می‌پردازیم و پس از بیان تفاوت سه مفهوم داده، پایگاه داده و مجموعه‌داده یا دیتاست، به چند مورد از پرسش‌های متداول در این زمینه پاسخ می‌دهیم.

مجموعه داده یا دیتاست چیست؟

دیتاست مجموعه‌ای از داده‌های جمع‌آوری شده است که به پژوهشگران و توسعه‌دهندگان در حل مسئله کمک می‌کند. در هر دیتاست، سطرها نشان‌دهنده تعداد نمونه‌های داده و هر ستون بیان‌گر یکی از ویژگی‌های مجموعه‌داده است. از دیتاست‌ها برای تصمیم‌گیری آگاهانه و آموزش دادن الگوریتم‌ها در کاربردهایی همچون یادگیری ماشین و کسب‌وکارها بسیار استفاده می‌شود. البته باید توجه داشت که هر دیتاست اندازه و پیچیدگی منحصربه‌فردی داشته و اغلب برای اطمینان حاصل کردن از کیفیت داده‌ها، ابتدا باید طی فرایندی با عنوان «پیش‌پردازش» (Preprocessing)، به اصطلاح پاک‌سازی شود. در تصویر زیر نمونه‌ای از یک دیتاست را مشاهده می‌کنید:

فیلم آموزش گام های عملی متن کاوی – آشنایی با دیتاست ها (رایگان) در فرادرس

کلیک کنید

ده نمونه اول دیتاست Iris – «برای بزرگ‌نمایی روی تصویر کلیک کنید»

این دیتاست، یکی از مشهورترین مجموعه‌داده‌های مورد استفاده در یادگیری ماشین است که بر اساس چند ویژگی‌، گونه‌های مختلف گیاه «زنبق» (Iris) را طبقه‌بندی کرده است. در طراحی و ساخت هر مدل یادگیری ماشین، ویژگی‌های ورودی دیتاست نقش منابع یادگیری را داشته و خروجی پیش‌بینی شده با ویژگی خروجی دیتاست مقایسه می‌شود. در زیر، ویژگی‌های ورودی و خروجی دیتاست Iris فهرست شده است:

  • ویژگی‌های ورودی: «طول کاسبرگ» (Sepal Length)، «عرض کاسبرگ» (Sepal Width)، طول گلبرگ (Petal Length) و «عرض گلبرگ» (Petal Width).
  • ویژگی خروجی: «نوع گونه» (Species).

دیتاست‌ها را می‌توان در فرمت‌هایی مانند CSV یا «مقادیر جداشده با ویرگول» (Comma-separated Values)، جداول نرم‌افزار «مایکروسافت اِکسل» (Microsoft Excel)، JSON یا «نشانه‌گذاری اشیاء در جاوا اسکریپت» (JavaScript Object Notation) و فایل‌های فشرده Zip ذخیره کرد.

انواع دیتاست چیست؟

در راستای پاسخ دادن به پرسش دیتاست چیست، آشنایی با انواع دیتاست‌ها نیز ضرورت دارد. از جمله انواع مختلف دیتاست‌ها می‌توان به موارد زیر اشاره کرد:

  • دیتاست‌های «عددی» (Numerical): نمونه داده‌های عددی مانند دما، رطوبت و امتیاز که قابلیت اعمال معادلات ریاضی بر آن‌ها وجود دارد.
  • دیتاست‌های «طبقه‌بندی شده» (Categorical): این دیتاست‌ها شامل داده‌هایی همچون رنگ، جنسیت، ورزش و شغل می‌شوند که می‌توان آن‌ها را در دسته یا گروه‌های مجزا طبقه‌بندی کرد.
  • دیتاست‌های «مبتنی‌بر وب» (Web-based): این نوع از دیتاست‌ها از طریق ارسال درخواست HTTP و فراخوانی واسط‌های برنامه‌نویسی کاربردی یا همان API، جمع‌آوری شده و در «تحلیل داده» (Data Analytics) مورد استفاده قرار می‌گیرند. ذخیره‌سازی این دیتاست‌ها اغلب با فرمت JSON صورت می‌گیرد.
  • دیتاست‌های «سری زمانی» (Time Series): متشکل از داده‌هایی مانند تغییرات جغرافیایی یک ناحیه که در بازه زمانی مشخصی جمع‌آوری شده‌اند.
فیلم آموزش تحلیل سری های زمانی با پایتون و آر R در فرادرس

کلیک کنید

  • دیتاست‌های «مبتنی‌بر تصویر» (Image-based): اغلب از دیتاست‌هایی که شامل نمونه‌های تصویری هستند، در کاربردهای مقایسه‌ای مانند تفاوت علائم چند نوع بیماری مختلف استفاده می‌شود.
  • دیتاست‌های «ترتیبی» (Ordered): داده‌هایی که بدون ترتیب ارزشی ندارند. مانند امتیازاتی که کاربران یک پلتفرم ویدئویی برای فیلم‌ها ثبت کرده‌اند.
  • دیتا‌ست‌های «بخش‌بندی شده» (Partitioned): متشکل از داده‌هایی که در چند گروه مجزا بخش‌بندی شده‌اند.
  • دیتاست‌های «فایل محور» (File-based): دیتاست‌هایی که در قالب فایل‌هایی با پسوند csv، json یا xlsx ذخیره می‌شوند.
  • دیتاست‌های «دو متغیره» (Bivariate): در این قبیل از دیتاست‌ها، دو کلاس یا ویژگی با یک‌دیگر «همبستگی» (Correlation) مستقیم دارند. به عنوان مثال، میان ویژگی‌های وزن و قد ارتباط مستقیمی وجود دارد.
  • دیتاست‌های «چند متغیره» (Multivariate): همان‌طور که از نام آن پیداست، در دیتاست‌های چند متغیره میان دو یا تعداد بیشتری از کلاس‌ها همبستگی وجود دارد. به عنوان مثال، دو متغیر تعداد غیبت و نمرات کلاسی، در ارتباط مستقیم با معدل دانش‌آموز هستند.

تقسیم و ارزیابی دیتاست ها در یادگیری ماشین

کاربرد دیتاست تنها در فرایند آموزش خلاصه نمی‌شود. همزمان با به‌کارگیری «مجموعه آموزشی» (Training Set) برای آموزش دادن مدل یادگیری ماشین، قسمت دیگری از دیتاست نیز با عنوان «مجموعه آزمایشی» (Testing Set)، در ارزیابی عملکرد مدل مورد استفاده قرار می‌گیرد.

فیلم آموزش تجزیه و تحلیل و آماده سازی داده ها با پایتون Python در فرادرس

کلیک کنید

مراحل تقسیم دیتاست – «برای بزرگ‌نمایی روی تصویر کلیک کنید»

سپس در مرحله‌ای اختیاری و برای اجتناب از آموزش دیدن مدل با داده‌های تکراری و در نتیجه ارائه پیش‌بینی‌های «سوگیرانه» (Biased)، می‌توان مجدد دیتاست را به بخش سومی با عنوان «مجموعه اعتبارسنجی» (Validation Set) تقسیم کرد.

چگونه کار کردن با دیتاست ها را یاد بگیریم؟

برای مشاهده فیلم‌های آموزش داده‌کاوی و یادگیری ماشین فرادرس، روی تصویر کلیک کنید.

همچنین، اگر علاقه دارید پس از آشنایی با اصول و قواعد اولیه، آموخته‌های خود را به چالش کشیده و با استفاده از ابزارهایی مانند زبان‌های برنامه‌نویسی پایتون و R، نحوه کار کردن با دیتاست‌ها را از طریق پیاده‌سازی الگوریتم‌های یادگیری ماشین فرا بگیرید، مشاهده فیلم‌های آموزشی داده کاوی و یادگیری ماشین فرادرس را به شما پیشنهاد می‌کنیم:

  • مجموعه فیلم های آموزش داده کاوی و یادگیری ماشین فرادرس

ویژگی های یک دیتاست چیست؟

پس از آن‌که یاد گرفتیم دیتاست چیست، در این بخش با مفهوم ویژگی‌های یک دیتاست آشنا می‌شویم. وقتی صحبت از ویژگی‌های دیتاست می‌شود، اغلب به ستون‌های مجموعه‌داده اشاره داریم. ویژگی‌ها مهم‌ترین بخش از هر دیتاستی هستند؛ چرا که تمامی فرایند توسعه مدل و پیش‌بینی خروجی نهایی بر اساس همین ویژگی‌ها انجام می‌شود. نوع داده و قابلیت‌های هر ویژگی، نسبت به مجموعه‌داده و هدف مسئله متفاوت است. چند مورد از ویژگی‌های رایج دیتاست‌ها را در زیر فهرست کرده‌ایم:

فیلم آموزش مبانی انتخاب ویژگی Feature Selection در داده کاوی در فرادرس

کلیک کنید

  • ویژگی‌های «عددی» (Numerical): ویژگی‌هایی مانند وزن و ارتفاع که هم می‌توانند در بازه‌ای پیوسته مانند اعداد اعشاری قرار داشته و هم مقادیر گسسته و صحیح را بپذیرند.
  • ویژگی‌های «طبقه‌بندی شده» (Categorical): این نوع از ویژگی‌ها در چند کلاس یا گروه مجزا مانند جنسیت و انواع رنگ‌ها قابل جداسازی هستند.
  • «فراداده» (Metadata): توصیفی جامع از داده‌ها که در دیتاست‌های بزرگ کاربرد دارد. هنگام واگذاری وظیفه مدیریت و کار با مجموعه‌داده به فردی جدید، وجود چنین ویژگی باعث افزایش بهره‌وری و صرفه‌جویی در زمان می‌شود.
  • «اندازه داده‌ها» (Size of the Data): این ویژگی به تعداد نمونه‌ها و همچنین ستون‌های موجود در هر دیتاست اشاره دارد.
  • «فرمت داده‌ها» (Formatting of Data): امروزه دیتاست‌ها در فرمت‌های متنوع و به‌صورت آنلاین در دسترس همگان قرار دارند. از جمله رایج‌ترین فرمت‌ها، می‌توان به مواردی همچون XML، CSV، JSON یا «زبان نشانه‌گذاری گسترش‌پذیر» (Extensible Markup Language)، جداول کتابخانه Pandas در زبان برنامه‌نویسی پایتون که با عنوان Dataframe شناخته می‌شوند و فایل‌های نرم‌افزار اِکسل با پسوندهای xlsx یا xlsm اشاره کرد. به‌طور معمول، مجموعه‌داده‌های حجیم، به‌ویژه مواردی که شامل تصاویر می‌شوند را می‌توان با فرمت فشرده شده Zip از اینترنت دریافت و سپس از حالت فشرده خارج کرد.
  • «متغیر هدف» (Target Variable): ویژگی که مقادیر آن با خروجی مدل یادگیری ماشین مقایسه شده و نقش مهمی در فرایند آموزش دارد.
  • «داده‌های ورودی» (Data Entry): هر مقدار داده مجزایی که در دیتاست مشاهده می‌شود، یک داده ورودی است.

نمونه هایی از انواع دیتاست

در فضای اینترنت برای هر مسئله و کاربردی، بیش از هزاران دیتاست وجود دارد. برای دانلود چنین دیتاست‌هایی می‌توانید به وب‌سایت‌هایی همچون Kaggle و UCI Machine Learning Repository مراجعه کنید. در ادامه این بخش، نگاهی به چند مورد از دیتاست‌های مشهور و رایج در زمینه یادگیری ماشین می‌اندازیم.

۱. دیتاست شهر های ایالت تامیل نادو کشور هند

این دیتاست را می‌توانید از سایت Kaggle با عنوان Tamilnadu Population و فرمت CSV دریافت کنید. در این دیتاست، تراکم جمعیت مناطق مختلف ایالت «تامیل نادو» (Tamil Nadu) هند اعلام شده است؛ ویژگی که آن را به گزینه مناسبی برای تحلیل داده و آموزش مدل‌های یادگیری ماشین تبدیل می‌کند. به‌طور معمول، از این نوع دیتاست‌ها برای تکمیل اطلاعات میدانی استفاده می‌شود.

دیتاست Tamilnadu Population – «برای بزرگ‌نمایی روی تصویر کلیک کنید»

۲. دیتاست گونه های گیاه زنبق

از این دیتاست به عنوان یکی از رایج‌ترین و همچنین ساده‌ترین مجموعه‌داده‌ها برای آزمودن الگوریتم‌های طبقه‌بندی، به‌ویژه از نوع «نظارت شده» (Supervised) یاد می‌شود. دیتاست گیاه زنبق یا Iris که پیش‌تر نیز به آن اشاره شد، از جمله مواردی است که بسیار مورد توجه افراد مبتدی برای انجام پروژه‌های یادگیری ماشین قرار دارد.

دیتاست Iris – «برای بزرگ‌نمایی روی تصویر کلیک کنید»

۳. دیتاست ریسک اعتباری افراد مقیم کشور آلمان

نمونه‌ای از دیتاست‌هایی که در مدل‌های یادگیری ماشین «نظارت نشده» (Unsupervised) کاربرد دارند. از جمله موارد کاربردی این دیتاست که با عنوان German Credit Risk شناخته می‌شود، گروه‌بندی و جداسازی افراد به اصطلاح خوش‌حساب، از کسانی است که امتیاز اعتباری پایینی دارند.

دیتاست German Credit Risk – «برای بزرگ‌نمایی روی تصویر کلیک کنید»

روش های ایجاد دیتاست

حالا که به‌خوبی می‌دانید دیتاست چیست، در این بخش با دو مورد از روش‌های کاربردی ایجاد و ساخت دیتاست آشنا می‌شویم. گاهی به دلایلی از جمله عدم دسترسی به نوع داده مدنظر، نمی‌توان از دیتاست‌های آماده موجود در اینترنت استفاده کرد و در نتیجه، نیاز است تا دیتاست جدیدی ایجاد کنیم. زبان برنامه‌نویسی پایتون به عنوان یکی از رایج‌ترین ابزارهای یادگیری ماشین، این قابلیت را دارد تا با تولید داده‌های تصادفی به اندازه دلخواه، در تحلیل داده به‌کار گرفته شود. روش دیگر، بهره‌گیری از ابزارهای «پرامپت‌نویسی» (Prompting) هوشمند نظیر «چت‌جی‌پی‌تی» (ChatGPT)، Perplexity AI یا «جمنای» (Gemini)، برای ساخت جداول و دیتاست‌هایی با داده‌های تصادفی است. در ادامه این مطلب از مجله فرادرس، شرح دقیق‌تری از دو روش عنوان شده ارائه می‌دهیم. همچنین، برای تمرین پرامپت‌نویسی اصولی و دریافت نتایج دقیق‌تر از ابزارهای هوش مصنوعی، مشاهده فیلم آموزش چت با هوش مصنوعی در فرادرس را به شما پیشنهاد می‌کنیم:

فیلم آموزش چت با هوش مصنوعی گوگل بارد و چت جی پی تی با پرامپت نویسی اصولی در فرادرس

کلیک کنید

۱. تولید داده با پایتون

برای آن‌که بتوانیم از زبان برنامه‌نویسی پایتون برای ایجاد دیتاست استفاده کنیم، ابتدا باید دو کتابخانه NumPy و Pandas را نصب داشته باشیم. کتابخانه NumPy از طریق دستور زیر قابل نصب است:

همچنین کتابخانه Pandas را نیز می‌توانید مانند نمونه نصب کنید:

سپس و برای ساخت دیتاست مورد نظر، متغیرها و همچنین ویژگی‌ها را تعریف کرده و در ادامه، مانند زیر، مقادیر هر کدام را به‌صورت تصادفی انتخاب می‌کنیم:

import pandas as pd 
import numpy as np 
import random as rd 


# Bussiness_type = ('Office_space','Restaurants','Textile_shop','Showrooms','grocery_shop') 
Bussiness_type = (1, 2, 3, 4, 5) 
# Demographics = ('Kids', 'Youth', 'Midde_aged', 'Senior') 
Demographics = (1, 2, 3, 4) 
# Accessibility = ('Bad', 'Fair', 'Good', 'Excellent') 
Accessibility = (1, 2, 3, 4) 
# Competition = ('low', 'medium', 'high') 
Competition = (1, 2, 3) 
Area = (250, 500, 750, 1000, 1500) 
Rent_per_month = ('5000', '75000', '95000', '10000', '13000', '17000', '20000') 
Gross_tax = (2.2, 3.4, 4.5, 5.6, 7.2, 10.2, 6.8, 9.3, 11, 13.4) 
labour_cost = (3500, 5000, 6500, 7500, 9000, 11000, 16000, 25000, 15000, 12500) 
location = ('San Diego', 'Miami', 'Seattle', 'LosAngeles', 'LasVegas', 'Idaho', 'Phoenix', 'New Orleans', 
			'WashingtionDC', 'Chicago', 'Boston', 'Philadelphia', 'New York', 'San Jose', 'Detroit', 'Dallas') 
# Location = (1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16) 

buss_type = () 
demo = () 
access = () 
comp = () 
area = () 
rpm = () 
gtax = () 
labour_cst = () 
loc = () 

# Net_profit is to be calculated 

for i in range(1000): 
	buss_type.append(rd.choice(Bussiness_type)) 
	demo.append(rd.choice(Demographics)) 
	access.append(rd.choice(Accessibility)) 
	comp.append(rd.choice(Competition)) 
	area.append(rd.choice(Area)) 
	rpm.append(rd.choice(Rent_per_month)) 
	gtax.append(rd.choice(Gross_tax)) 
	labour_cst.append(rd.choice(labour_cost)) 
	loc.append(rd.choice(location)) 


dic_data = {'Business_type': buss_type, 'Demographics': demo, 'Accessibility': access, 'Competition': comp, 
			'Area(sq feet)': area, 'Rent_per_month': rpm, 'Gross_tax(%)': gtax, 'labour_cost(USD)': labour_cst, 'location': loc} 
frame_data = pd.DataFrame(dic_data)
frame_data.to_csv('autogen_data.csv')

همان‌طور که در تصویر زیر یعنی خروجی اجرای قطعه کد بالا نیز مشاهده می‌کنید، دیتاست ایجاد شده با نام
 ، مجموعه‌داده‌ای است متشکل از اطلاعات انواع کسب‌وکارها با ستون یا همان ویژگی‌های زیر:

  1. «نوع کسب‌وکار» (Business Type)
  2. «اطلاعات جمعیتی» (Demographics)
  3. «دسترس‌پذیری» (Accessibility)
  4. «رقابت» (Competition)
  5. «مساحت» (Area)
  6. «اجاره در ماه» (Rent Per Month)
  7. «مالیات بر درآمد» (Gross Tax)
  8. «هزینه نیروی کار» (Labour Cost)
  9. «موقعیت مکانی» (Location)
دیتاست ایجاد شده با استفاده از کد پایتون – «برای بزرگ‌نمایی روی تصویر کلیک کنید»

۲. ایجاد دیتاست با هوش مصنوعی

یکی دیگر از راه‌های ایجاد دیتاست، استفاده از ابزارهای «هوش مصنوعی مولد» (Generative Artificial Intelligence) مانند ChatGPT است. برای این‌کار، ابتدا از ChatGPT می‌خواهیم تا با در اختیار داشتن اطلاعاتی از جمله تعداد نمونه‌ها و نام ستون‌ها، دیتاستی برای موقعیت تحصیلی دانشجویان تولید کند:

پرامپت نوشته شده برای تولید داده با استفاده از ChatGPT – «برای بزرگ‌نمایی روی تصویر کلیک کنید»

خروجی مانند تصویر زیر است:

دیتاست ایجاد شده با استفاده از ChatGPT – «برای بزرگ‌نمایی روی تصویر کلیک کنید»

با بهره‌گیری از این روش، می‌توان مقادیر داده بسیاری برای آموزش دادن مدل‌های یادگیری ماشین تولید کرد.

معرفی منابع دریافت انواع دیتاست

در ادامه پاسخ دادن به پرسش دیتاست چیست، بهترین راه برای مسلط شدن بر مفاهیمی که تا اینجا مرور کرده‌ایم، تحلیل و در نهایت طراحی الگوریتم‌های یادگیری ماشین بر اساس دیتاست‌های رایج و کاربردی است. پایگاه‌های داده فراوانی برای دریافت دیتاست‌ها وجود دارد؛ اما منابعی که در این بخش معرفی می‌کنیم، در واقع نمونه‌هایی بوده که از محبوبیت بیشتری در میان متخصصان و افراد حرفه‌ای حوزه علم داده برخوردار هستند.

۱. Kaggle

از Kaggle «+» به عنوان یکی از محبوب‌ترین پلتفرم‌های علم داده یاد می‌شود. وب‌سایت Kaggle علاوه‌بر رقابت‌های به‌روز، فهرستی از آموزش‌های مرتبط را در زمینه‌هایی همچون یادگیری ماشین و هوش مصنوعی شامل می‌شود. مزیت بزرگ این پلتفرم در ارائه هزاران دیتاست کوچک و بزرگ به‌صورت رایگان و با فرمت CSV است. بسیاری از دیتاست‌های موجود در وب‌سایت Kaggle، مربوط به رقابت‌هایی هستند که در سابق به اتمام رسیده و حالا در اختیار عموم قرار گرفته‌اند. از جمله این نمونه‌ها، دیتاست «تایتانیک» (Titanic) است که به شما این امکان را می‌دهد تا با طراحی مدل یادگیری ماشین خود، مسافرانی که از حادثه جان سالم به‌در می‌برند را پیش‌بینی کنید. در انتها نیز می‌توانید نتایج خود را با دیگر کاربران به اشتراک بگذارید. پس اگر به‌دنبال پلتفرمی برای یادگیری، تمرین و رقابت هستید، وب‌سایت Kaggle انتخاب مناسبی برای شروع است.

وب‌سایت Kaggle – «برای بزرگ‌نمایی روی تصویر کلیک کنید»

۲. Google Dataset Search

این پلتفرم در سال ۲۰۱۸ منتشر شد و نوآوری آن در ارائه دسترسی به دیتاست‌های عمومی و رایگان برای همه خلاصه می‌شود. با استفاده از «موتور جستجوی دیتاست گوگل» (Google Dataset Search) «+»، حق انتخاب از میان گستره عظیمی از دیتاست‌ها با موضوعات و فرمت‌های مختلف مانند PDF، CSV، JPG و TXT به شما داده می‌شود. تنها کافیست وارد وب‌سایت شده و مانند جستجو معمولی، نام یا موضوعی که به‌دنبال آن هستید را تایپ کنید. همزمان با تایپ کردن عنوان، گزینه‌های مشابهی نیز به شما پیشنهاد می‌شود که ممکن است زمینه‌ساز پروژه‌های جدید و هیجان‌انگیزی برای شما باشند.

وب‌سایت Google Dataset Search – «برای بزرگ‌نمایی روی تصویر کلیک کنید»

۳. GitHub

علاوه‌بر پشتیبانی از انواع پروژه‌های متن‌باز برنامه‌نویسی، پلتفرم GitHub «+»، هزاران دیتاست متنوع را نیز برای کارهایی همچون تحلیل داده شامل می‌شود. با استفاده از ابزارهای جستجو وب‌سایت GitHub، می‌توان دیتاست‌هایی را با زبان و نوع داده متنوع انتخاب کرد. همچنین، این پلتفرم به شما اجازه می‌دهد تا نتیجه کار را با سایرین به اشتراک گذاشته و ارتباطات خود را در حوزه یادگیری ماشین و علم داده گسترش دهید.

بخش دیتاست وب‌سایت Github – «برای بزرگ‌نمایی روی تصویر کلیک کنید»

۴. World Bank Open Data

وب‌سایت Word Bank Open Data «+»، یکی از کامل‌ترین و متنوع‌ترین منابع آماری و دیتاست به حساب می‌آید. شما می‌توانید از این پلتفرم برای یافتن اطلاعات جمعیتی همچون اقتصاد، آموزش، وضعیت خدمات درمانی، سطح درآمد و جمعیت استفاده کنید. وب‌سایت World Bank Open Data، علاوه‌بر ارائه دیتاست‌های با کیفیت و رایگان، ابزارهایی نیز برای «مصورسازی» (Visualization) دیتاست‌های بزرگ در اختیار کاربران قرار می‌دهد.

وب‌سایت World Bank Open Data – «برای بزرگ‌نمایی روی تصویر کلیک کنید»

۵. Data.world

همزمان با دسترسی به دیتاست‌های رایگان، پلتفرم Data.world «+» امکان تجزیه و تحلیل مستقیم داده‌ها را نیز برای کاربران فراهم کرده است. تنها کافیست اکانت خود را به صورت رایگان ایجاده کرده تا بتوانید کار خود را بر روی سه پروژه رایگان شروع کنید. اگر به فضای ذخیره‌سازی بیشتری نیز داشتید، می‌توانید با پرداخت هزینه‌ای، از سایر طرح‌های وب‌سایت Data.world استفاده کنید. موتور جستجوی این پلتفرم ابزار کارآمدی برای پیدا کردن کلمات کلیدی، مخازن داده، سازمان‌ها و حتی افراد فعال در حوزه علم داده است.

وب‌سایت Data World – «برای بزرگ‌نمایی روی تصویر کلیک کنید»

۶. DataHub

وب‌سایت DataHub «+»، در حقیقت پلتفرمی برای توزیع داده است که جستجو میان کلکسیون متنوعی از دیتاست‌ها را برای کاربران ممکن ساخته است. در بخش وبلاگ این پلتفرم می‌توانید از آخرین مقالات منتشر شده در حوزه علم داده مطلع شوید. نکته‌ای که وب‌سایت DataHub را متمایز می‌کند، وجود بخش مستندات برای آشنایی با نحوه استفاده از دیتاست‌ها، همراه با آموزش‌هایی ارزشمند در زمینه مصورسازی و مدیریت آنلاین مجموعه‌داده‌های بزرگ است.

وب‌سایت DataHub – «برای بزرگ‌نمایی روی تصویر کلیک کنید»

۷. Humanitarian Data Exchange

اگر به‌دنبال پلتفرمی برای دانلود، آپلود، اشتراک‌گذاری و استفاده از داده‌ها هستید، وب‌سایت Humanitarian Data Exchange «+» گزینه مناسبی برای شما است. در این پلتفرم می‌توانید بر اساس معیارهایی همچون موقعیت مکانی و فرمت، دیتاست‌های رایگان بسیاری پیدا کنید.

وب‌سایت Humanitarian Data Exchange – «برای بزرگ‌نمایی روی تصویر کلیک کنید»

۸. FiveThirtyEight

این وب‌سایت کمی با سایر منابع تفاوت دارد. پلتفرمی منحصربه‌فرد که همراه با انتشار محتوای ورزشی، سیاسی و علمی، کد و داده‌های استفاده شده در تولید آن محتوا را نیز به اشتراک می‌گذارد. تمامی دیتاست‌های موجود در وب‌سایت FiveThirstyEight «+»، در اختیار عموم قرار داشته و می‌توانید از وضعیت به‌روزرسانی داده‌ها نیز اطمینان حاصل کنید.

وب‌سایت FiveThirtyEight – «برای بزرگ‌نمایی روی تصویر کلیک کنید»

۹. UCI Machine Learning Repository

به عنوان یکی دیگر از منابعی که بسیار در توسعه مدل‌های یادگیری ماشین کاربرد دارد، می‌توان به پلتفرم UCI Machine Learning Repository «+» اشاره کرد. شاید این پلتفرم به اندازه دیگر مراجع کامل نباشد، اما از جمله قدیمی‌ترین کتابخانه‌های دریافت دیتاست به‌شمار می‌رود؛ تا جایی که تاریخ قدیمی‌ترین دیتاست موجود در این پلتفرم به سال ۱۹۸۷ بر می‌گردد. وب‌سایت UCI رابط کاربری ساده‌ای دارد که با استفاده از آن می‌توانید دیتاست مدنظر خود را پیدا کنید.

وب‌سایت UCI Machine Learning Repository – «برای بزرگ‌نمایی روی تصویر کلیک کنید»

۱۰. Academic Torrents Data

اگر در حال تحصیل هستید یا مقاله‌ای علمی در دست تالیف دارید، پلتفرم Academic Torrents Data «+»، مجموعه گوناگونی از دیتاست‌های بزرگ استفاده شده در مقالات علمی را در اختیار شما قرار می‌دهد. به سادگی وارد وب‌سایت شده و با وارد کردن عنوان جستجو، دیتاست، مقاله و یا دوره آموزشی مورد نظر را پیدا کنید. همچنین می‌توانید نتایج آزمایشات خود را با دیگران به اشتراک بگذارید.

وب‌سایت Academic Torrents Data – «برای بزرگ‌نمایی روی تصویر کلیک کنید»

تفاوت داده، پایگاه داده و دیتاست چیست؟

به‌دلیل تشابه اسمی، بسیاری از جمله افراد مبتدی در فهم مفاهیم «داده» (Data)، «پایگاه داده» (Database) و دیتاست یا «مجموعه‌داده» (Dataset) با چالش روبه‌رو هستند. پس از آن‌که یاد گرفتیم دیتاست چیست، در این بخش، شرح مختصری از سه مفهوم داده، پایگاه داده و مجموعه‌داده ارائه می‌دهیم.

فیلم آموزش مقدمه ای بر داده کاوی (رایگان) در فرادرس

کلیک کنید

داده

به هر موجودیتی مانند مقادیر «عددی» (Numerical) یا «طبقه‌بندی شده» (Categorical) که قابل شمارش یا جداسازی باشد، «داده» (Data) گفته می‌شود. با این حال، داده‌ها زمانی ارزشمند شده و قابل تجزیه و تحلیل هستند که با یک‌دیگر ترکیب شده و مجموعه‌ای از داده‌ها را تشکیل دهند.

دیتاست یا مجموعه داده

هر دیتاست یا «مجموعه داده» (Dataset)، متشکل از داده‌هایی با نوع و همچنین ویژگی‌های یکسان است. دیتاست‌ها در توسعه مدل‌های یادگیری ماشین، تحلیل داده و «مهندسی ویژگی» (Feature Engineering) کاربرد دارند و به دو دسته کلی «ساختارمند» (Structured) مانند وزن و قد و داده‌های «بدون ساختار» (Unstructured) مانند فایل‌های صوتی و تصویری تقیسم می‌شوند.

پایگاه داده

مجموع چند دیتاست را «پایگاه داده» (Database) گویند. یک پایگاه داده ممکن است شامل دیتاست‌هایی باشد که از نظر موضوعی هیچ ارتباطی با یک‌دیگر ندارند. از جمله انواع پایگاه‌های داده که برای پشتیبانی از داده‌های ساختارمند و بدون ساختار طراحی شده‌اند، می‌توان به دو نوع «اِس‌کیواِل» (SQL) و NoSQL اشاره کرد. شما می‌توانید با مطالعه عنوانی از مجله فرادرس که در ادامه لینک آن قرار داده شده است، تفاوت‌های دو پایگاه داده SQL و NoSQL را یاد گرفته و با هر کدام بیشتر آشنا شوید:

در جدول زیر، خلاصه‌ای از مقایسه سه مفهوم داده، مجموعه‌داده و پایگاه داده را ملاحظه می‌کنید.

داده مجموعه‌داده پایگاه داده
شامل ویژگی‌ها و اطلاعات خام است. شامل ساختارهای داده مانند جداول و مجموعه‌ها است. متشکل از مجموعه‌داده‌هایی با فرمت یکسان است.
به تنهایی فاقد محتوا و نامرتب است. داده‌ها در قالب چندین سطر و ستون سازمان‌دهی می‌شوند. داده‌ها در جداولی ذخیره شده‌اند که ممکن است چندین بُعد داشته باشند.
دارای اطلاعات اولیه‌ای بوده و پایه و اساس دیتاست‌ها و همچنین پایگاه‌های داده را تشکیل می‌دهد. داده‌ها را منظم ساخته و موجب استخراج اطلاعات مفیدی می‌شود. متشکل از داده‌های ساختارمند و مرتبط به یک‌دیگر است.
به دلیل فقدان ساختار، قابل تغییر نیست. با استفاده از ابزارهایی مانند زبان برنامه‌نویسی پایتون، امکان ایجاد تغییر در آن وجود دارد. از طریق مجموعه‌ای از دستورات و کوئری‌های پرس‌وجو، قابل تغییر است.
نیازمند پیش‌پردازش و تبدیل به موجودیتی قابل استفاده است. در مواردی همچون تحلیل داده، مدل‌سازی و مصورسازی کاربرد دارد. پردازش داده از طریق جابه‌جایی اطلاعات انجام می‌شود.

سوالات متداول پیرامون دیتاست چیست؟

پس از آن‌که یاد گرفتیم دیتاست چیست و با روش استفاده از انواع مختلف آن نیز آشنا شدیم، حال زمان خوبی است تا در این بخش از مطلب مجله فرادرس، به چند مورد از سوالات پرتکرار در این زمینه پاسخ دهیم.

فیلم آموزش مسیر تبدیل شدن به دانشمند علم داده (رایگان) در فرادرس

کلیک کنید

مفهوم دیتاست چیست؟

مجموعه‌ای سازمان‌دهی شده از داده‌ها که با عنوان دیتاست شناخته می‌شود. عمده کاربرد دیتاست‌ها در یادگیری ماشین، کسب‌وکار و امور مالی است؛ حوزه‌هایی که برای توسعه و تصمیم‌گیری آگاهانه به چنین ابزاری نیاز دارند.

انواع دیتاست چیست؟

به عنوان چند نمونه رایج از انواع دیتاست، می‌توان به موارد زیر اشاره کرد:

  • دیتاست‌های عددی
  • دیتاست‌های طبقه‌بندی شده
  • دیتاست‌های ترتیبی
  • دیتاست‌های بخش‌بندی شده
  • دیتاست‌های چند متغیره

دیتاست‌ها چه ویژگی‌هایی دارند؟

هر دیتاست ویژگی‌های منحصربه‌فردی دارد؛ از جمله:

  • ویژگی‌های طبقه‌بندی شده
  • فراداده
  • تعداد داده‌ها
  • فرمت داده‌ها
  • متغیر هدف

اهمیت دیتاست در یادگیری ماشین چیست؟

نقش دیتاست در شکل دادن به توانایی یادگیری مدل‌ها و در نتیجه پیش‌بینی دقیق‌تر خروجی است. با استفاده از دیتاست‌ها می‌توانید مدل یادگیری ماشین خود را آموزش داده و همچنین معیاری برای ارزیابی دقت نهایی داشته باشید.

جمع‌بندی

شاید جمع‌آوری انواع دیتاست‌ها کار آسانی به‌نظر برسد و این‌طور فکر کنید که باید بیشتر زمان و منابع خود را صرف ساخت مدل یادگیری ماشین کنید. با این حال، تجربه نشان می‌دهد که به‌دلیل منابع محدود و نیاز به پردازش، بررسی و شناخت داده‌ها علاوه‌بر مهم بودن، بسیار زمان‌بر است. به همین دلیل، همان‌طور که در این مطلب از مجله فرادرس خواندیم، پاسخ دادن به پرسش‌هایی مانند دیتاست چیست و آشنایی با نحوه بهره‌گیری از داده‌ها در یادگیری ماشین بسیار اهمیت دارد. در نهایت، دیتاستی ارزشمند و مفید است که هم به اندازه کافی جامع و هم از کیفیت بالا و استانداردی برخوردار باشد.

نوشته دیتاست چیست؟ – آنچه باید درباره مجموعه داده ها بدانید اولین بار در فرادرس – مجله‌. پدیدار شد.