علم داده (Data Science) چیست و چه کاربردهایی دارد؟


علم داده (Data Science) ترکیبی چند رشته‌ای شامل استنتاج داده‌ها، توسعه الگوریتم و فناوری به‌منظور حل مسائل پیچیده تحلیلی است. هسته اصلی این مفهوم داده‌‌ است. دیتا ساینس جنبه‌های حوزه‌های مختلف را با کمک محاسبات ترکیب می‌کند تا مجموعه‌ای از دیتاها را برای اهداف تصمیم‌‌گیری تفسیر نماید. علم داده‌‌ها از تکنیک‌هایی مانند یادگیری ماشین و هوش مصنوعی برای استخراج اطلاعات معنادار و پیش‌‌بینی الگوها و رفتارهای آینده استفاده می‌کند.

فهرست مطالب:

نگاهی گذرا به تاریخچه

قابلیت و توانایی‌‌های علم داده

مفاهیم مرتبط با علم داده‌‌ها

کاربردهای علم داده و فرصت‌‌های شغلی آن

چالش‌های دیتا ساینس

معایب علم داده‌‌ها

دانشمندان داده چه می‌کنند و به چه مهارت‌هایی نیاز دارند؟

هوش تجاری در مقابل علم داده

آینده علم داده‌‌ها

چرخه حیات علم داده

نگاهی گذرا به تاریخچه

این اصطلاح از اوایل دهه ۱۹۶۰ به‌‌عنوان مترادف علوم کامپیوتر مورد استفاده قرار گرفت. در مقاله‌ای که در سال ۱۹۶۲ منتشر شد، آماردان آمریکایی جان دبلیو توکی بیان کرد که تجزیه‌‌وتحلیل داده‌ها یک علم تجربی است. چهار سال بعد، پیتر ناور (پیشگام در برنامه‌نویسی نرم‌افزار دانمارکی) دیتالوژی علم داده‌ها و فرآیندهای داده را به‌‌عنوان جایگزینی برای علوم رایانه پیشنهاد نمود. او بعداً در کتاب خود در سال ۱۹۷۴ با بررسی مختصر روش‌های رایانه‌ای، از این اصطلاح استفاده نمود و آن را به‌‌عنوان علم برخورد با دیتاها توصیف کرد. البته این مقاله نیز در زمینه علوم کامپیوتر بود. بعدها از این مفهوم برای تعریف بررسی روش‌های پردازش داده مورد استفاده در طیف وسیعی از کاربردهای مختلف با مفهوم علوم کامپیوتر متمایز گردید.

در سال ۱۹۹۶، فدراسیون بین‌المللی انجمن‌های طبقه‌‌بندی، این مفهوم را به نام کنفرانس برگزارشده در آن سال گنجاند. چیکیو هایاشی، آماردان ژاپنی طی ارائه‌ای در این رویداد این مفهوم را شامل سه مرحله طراحی، جمع‌‌آوری و تجزیه‌‌وتحلیل بر روی دیتا‌ها درنظر گرفت. یک سال پس از این کنفرانس، سی اف جف وو (استاد دانشگاه متولد تایوان در ایالات متحده) پیشنهاد نمود که آمار به این اصطلاح تغییر نام دهد و آماردانان به‌‌عنوان دانشمندان علم داده نامیده شوند. ویلیام اس. کلیولند (دانشمند کامپیوتر آمریکایی) این دانش را به‌‌عنوان یک رشته تحلیلی کامل در مقاله‌ منتشرشده در سال ۲۰۰۱ در International Statistical Review با عنوان دیتا ساینس : برنامه عملی برای گسترش حوزه‌های فنی آمار معرفی نمود و سپس دو مجله تحقیقاتی با تمرکز بر این مفهوم در دو سال آینده راه‌‌اندازی شدند.

اولین موارد استفاده از دانشمند علم داده در منسب یک عنوان شغلی حرفه‌ای به DJ Patil و Jeff Hammerbacher نسبت داده می‌شود. این دو دانشمند به‌طور مشترک در سال ۲۰۰۸ تصمیم گرفتند که از این مفهوم هنگام کار در LinkedIn و Facebook اتخاذ نمایند. در سال ۲۰۰۱ ویلیام اس. کلیولند برای اولین بار از این اصطلاح برای اشاره به یک رشته مستقل استفاده نمود. مجله هاروارد بیزینس ریویو در سال ۲۰۱۲ مقاله‌ای توسط توماس داونپورت منتشر کرد که نقش دانشمند دیتا را به‌عنوان جذاب‌‌ترین شغل قرن بیست و یکم توصیف نمود. از آن زمان تاکنون، این علم همچنان به رشد خود ادامه داده است که تا حدودی با افزایش استفاده از هوش مصنوعی و یادگیری ماشین در سازمان‌ها تقویت گردیده است.

در صورتی که به فکر راه‌اندازی کسب و کار جدید یا توسعه کسب و کار خود، افزایش فروش و مخاطب هستید، کلیک کنید و یا همین حالا با شماره‌ تلفن‌ ثابت 02191095052 و یاشماره همراه 09937948550 تماس حاصل فرمایید.

قابلیت و توانایی‌‌های علم داده

  1. کشف بینش

کشف بینش داده به معنای شناسایی یافته‌ها از آن‌‌‌ها است. متخصصان برای استخراج و درک رفتارها، روندها و استنتاج‌های پیچیده باید به‌دقت در میان دریای دیتا‌‌ها شنا کنند! این امر منجر به آشکارسازی بینش‌‌های پنهان می‌‌شود که به شرکت‌ها در اتخاذ تصمیمات تجاری هوشمندانه‌تر کمک می‌‌کند. در ادامه با ذکر یک مثال به تفصیل این مطلب می‌‌پردازیم:

  • داده‌کاوی نت‌فلیکس الگوهای تماشای فیلم را بررسی می‌کند تا از علت علاقه کاربر نسبت به برخی ژانرهای فیلم مطلع گردد. سپس شرکت از این اطلاعات برای تصمیم‌گیری درباره سریال‌های اصلی نتفلیکس استفاده می‌کند.
  • هدف بخش‌های اصلی مشتری را در پایگاه خود و رفتارهای خرید منحصربه‌فرد در آن بخش‌ها را شناسایی می‌کند تا برای هدایت پیام‌ها به مخاطبان مختلف بازار کمک کند.
  • با استفاده از مدل‌های سری زمانی برای درک واضح‌تر تقاضای آینده استفاده برای برنامه‌‌ریزی بهینه‌تر در سطوح تولید کمک می‌کند.

استخراج دیتاها با کاوش آغاز می‌شود. هنگام مطرح‌‌شدن یک سؤال چالش‌برانگیز دانشمندان دیتا ساینس تبدیل به کارآگاه می‌شوند. آن‌ها با بررسی سرنخ‌ها می‌کوشند تا الگو یا ویژگی‌های موجود در داده‌ها را درک کنند. این امر نیاز به میزان زیادی از خلاقیت تحلیلی دارد. سپس در صورت نیاز دانشمندان دیتا ممکن است تکنیک کمی را به‌‌منظور دستیابی به سطح عمیق‌تر به‌‌کار بگیرند؛ برای مثال، می‌‌توان به مدل‌های استنتاجی، تجزیه‌‌وتحلیل بخش‌بندی، پیش‌بینی سری‌های زمانی، آزمایش‌های کنترل مصنوعی و موارد دیگر اشاره نمود. در واقع هدف این است که به‌طور علمی یک نمای ساختارمند از اطلاعات به‌‌دست آمده توسط دیتا‌ها ایجاد گردد. این بینش مبتنی بر داده برای ارائه راهنمایی استراتژیک مرکزی است. از این نظر، دانشمندان دیتا به‌‌عنوان مشاور عمل می‌کنند و سهامداران کسب‌‌وکار را در مورد نحوه عمل بر روی یافته‌ها راهنمایی می‌نمایند.

  1. توسعه محصول

محصول داده نوعی دارایی فنی است که ابتدا از دیتاها به‌عنوان ورودی استفاده می‌کند و سپس نسبت به آن داده‌ها برای برگرداندن نتایج الگوریتمی تولیدشده اقدام می‌نماید. یک مثال پرکاربرد از این مفهوم موتور‌‌های توصیه هستند که با دریافت دیتا‌های کاربر آن‌‌ها را شخصی‌سازی می‌کنند. در ادامه به ذکر چند نمونه از محصولات دیتا می‌‌پردازیم:

  • موتورهای توصیه آمازون اقلامی را برای خرید به کاربران خود پیشنهاد می‌کنند که توسط الگوریتم آن‌‌ها تعیین می‌گردد. نتفلیکس این پیشنهادها را در فیلم‌ها و اسپاتیفای نیز در زمینه موسیقی به علاقه‌‌مندان توصیه می‌نماید.
  • فیلتر اسپم جیمیل به‌‌عنوان محصول داده یک الگوریتم در پشت صحنه نامه‌های دریافتی را پردازش می‌کند و ناخواسته‌‌بودن پیام را تعیین می‌نماید.
  • چشم‌‌انداز کامپیوتری مورد استفاده برای خودروهای خودران نیز نوعی محصول داده است. الگوریتم‌های یادگیری ماشین قادر به تشخیص چراغ‌های راهنمایی، خودروها در جاده، عابران پیاده و سایر موارد هستند.

محصول دیتا با بخش بینش از آن‌‌ها دارای مفهوم متفاوت است. بینش دیتا قابل استفاده برای ارائه مشاوره به یک مدیر اجرایی جهت اتخاذ تصمیمات تجاری هوشمندانه‌تر است. در مقابل، محصول دیتا یک عملکرد فنی است که الگوریتم را محصور می‌کند و برای ادغام مستقیم با برنامه‌های اصلی طراحی شده است. در ادامه به ذکر برخی برنامه‌هایی که محصول داده را در پشت صحنه ترکیب می‌کنند، می‌‌پردازیم:

  • صفحه اصلی آمازون
  • صندوق ورودی جیمیل
  • نرم‌‌افزار رانندگی خودکار

دانشمندان دیتا ساینس نقش اصلی را در توسعه محصول داده ایفا می‌کنند. این نقش‌‌ها شامل ساخت الگوریتم‌ها، آزمایش، اصلاح و استقرار فنی در سیستم‌های تولید هستند. این دانشمندان به‌‌عنوان توسعه‌‌دهندگان فنی خدمت می‌کنند و اطلاعات قابل استفاده در مقیاس وسیع را تولید می‌‌نمایند.

در صورتی که به فکر راه‌اندازی کسب و کار جدید یا توسعه کسب و کار خود، افزایش فروش و مخاطب هستید، کلیک کنید و یا همین حالا با شماره‌ تلفن‌ ثابت 02191095052 و یاشماره همراه 09937948550 تماس حاصل فرمایید.

  1. ریاضیات

در بطن بینش داده کاوی و ساخت محصول داده، توانایی مشاهده دیتا‌ها از طریق یک لنز کمی است. در دیتا‌ها بافت‌ها، ابعاد و همبستگی‌هایی وجود دارد که می‌توان آن‌‌ها را به صورت ریاضی بیان نمود. سپس می‌‌توان بر روی یافتن راه‌‌حل‌ها با استفاده از دیتا‌ها جهت تبدیل به یک بازی ذهنی فکری توسط روش‌های اکتشافی و کمی تمرکز نمود. راه‌حل‌های بسیاری از مشکلات کسب‌وکار، با ساخت مدل‌های تحلیلی مبتنی بر ریاضیات امری دشوار است. توانایی درک مکانیزم‌های اساسی مدل‌های تحلیلی کلید موفقیت در ساخت آن است.

در انتهای این بخش این نکته را خاطرنشان کنیم که تصور غلطی در رابطه با این مفهوم وجود دارد و تمامی مسائل را مرتبط با علم آمار می‌‌پندارد. با اینکه هیچ شکی در اهمیت آمار برای این دانش نیست، اما تنها نوع ریاضی مورد استفاده محسوب نمی‌‌شود. نکته‌‌ای که در آمار وجود دارد این است که می‌‌توان آن را به دو شاخه آمار کلاسیک و آمار بیزی تقسیم نمود. اغلب مردم هنگام صحبت در رابطه با آمار به آمارهای کلاسیک اشاره می‌کنند، درحالی‌‌که کسب هر دو دانش از اهمیت بسزایی برخوردار هستند. علاوه‌‌براین، بسیاری از تکنیک‌های استنتاجی و الگوریتم‌های یادگیری ماشین بر دانش جبر خطی تکیه دارند؛ برای مثال، یک روش محبوب برای کشف ویژگی‌های پنهان در یک مجموعه داده، SVD (تجزیه مقادیر منفرد) پایه‌‌گذاری‌‌شده در ریاضیات ماتریسی است که ارتباط کمتری با آمارهای کلاسیک دارد. به‌‌طورکلی، برای دانشمندان داده گسترش عمق دانش ریاضیات از اهمیت بسیار بالایی برخوردار است.

  1. فناوری و هک

قبل از بازکردن مبحث فناوری و هک این نکته را شفاف‌‌سازی کنیم که منظور از هک در این بخش نفوذ به کامپیوترها نیست. منظور از هک این است از خلاقیت و نبوغ در استفاده از مهارت‌های فنی برای ساختن محصولات و یافتن راه‌‌حل‌های هوشمندانه برای مشکلات بهره ببریم. در اصل می‌‌توان گفت هک کردن دو رو دارد! هر برنامه‌‌نویس باید یک هکر باشد اما عمل هک کردن را برای پروژه‌‌ها و پیشرفت خود انجام دهد و از آن سوءاستفاده نکند.

علت اهمیت هک برای دانشمندان دیتا این است که آن‌‌ها از فناوری برای به چالش کشیدن مجموعه داده‌های عظیم و کار با الگوریتم‌های پیچیده استفاده می‌نمایند و به ابزارهایی بسیار پیچیده‌تر از Excel نیاز دارند. دانشمندان علم داده‌‌ها می‌‌بایست توانایی کدنویسی داشته باشند تا برای راه‌‌حل‌‌های بی‌‌درنگ اطلاعات اولیه ارائه دهند و همچنین توانایی ادغام با سیستم‌های پیچیده دیتا را کسب نمایند. برخی از زبان‌های اصلی مرتبط با دیتا ساینس شامل  SQL، Python، R و SAS هستند. پس از آن می‌‌توان به جاوا، اسکالا، جولیا و سایر موارد اشاره نمود. با‌‌این‌‌حال، دانستن اصول زبان کافی نیست. یک هکر باید بتواند به‌‌طور خلاقانه راه خود را از طریق چالش‌های فنی بررسی کند تا توانایی به‌‌کار گیری کد‌‌های خود را به‌‌دست آورد.

در این راستا، یک هکر دیتا ساینس همانند یک متفکر الگوریتمی مستحکم است که توانایی شکستن مشکلات آشفته و ترکیب مجدد آن‌‌ها به روش‌های قابل حل را دارد. این تخصص برای دانشمندان دیتا بسیار حائز اهمیت است؛ چراکه دانشمندان داده با الگوریتم‌‌های پیچیده بسیاری کار می‌کنند. آن‌ها باید درک ذهنی فوق‌‌العاده‌‌ای از دیتاهای دارای ابعاد بالا و جریان‌های کنترل داده‌های پیچیده داشته باشند. وضوح کامل در مورد نحوه اتصال قطعات به یکدیگر راه‌‌حلی منسجم را به ارمغان می‌‌آورد.

  1. هوش تجاری

متخصصین این مفهوم باید بتوانند به‌‌عنوان یک مشاور تجاری تکنیکی عمل کنند. این دانشمندان با صرف زمان، تجزیه‌‌وتحلیل و بررسی‌‌های متعدد بر روی دیتا‌ها می‌‌توانند از اطلاعات به‌‌دست آمده مفاهیم جدیدی را کشف نمایند. این امر مسئولیت واکاوی مشاهدات و کمک به راه‌‌اندازی استراتژی در مورد چگونگی حل مشکلات اصلی کسب‌‌وکار را ایجاد می‌کند. این بدان معناست که یکی از صلاحیت‌های اصلی این دانش، استفاده از داده‌ها برای بیان قاطعانه یک سیر تحولی کامل از روند کسب‌‌وکارها است.

داشتن این ویژگی علاوه‌‌بر اهمیت در فناوری و الگوریتم‌ها می‌‌بایست میان پروژه‌های دیتا ساینس و اهداف تجاری هماهنگی واضحی برقرار نماید. در نهایت، کسب ارزش داده‌ها از اعمال نفوذ در تمام موارد فوق جهت ایجاد قابلیت‌های ارزشمند و داشتن نفوذ تجاری بالا ناشی می‌شود.

  1. کنجکاوی و کشف اسرار داده‌‌ها‌‌

ویژگی شخصیتی مشترک دانشمندان علم داده این است که آن‌‌ها متفکرانی عمیق با کنجکاوی فکری شدید هستند. این مفهوم در رابطه با کلیه مسائل مرتبط با کنجکاو بودن از جمله پرسیدن سؤالات، اکتشافات و یادگیری موارد جدید است. اغلب این دانشمندان تمرکز و علاقه بسیاری به کار خود دارند. محرک واقعی این افراد برای رونمایی از بهترین عملکردشان استفاده از کنجکاوی جهت نشان‌‌دادن خلاقیت و نبوغ خود برای حل مشکلات دشوار است. استخراج اطلاعات پیچیده از داده‌ها فراتر از انجام یک مشاهده بوده و به کشف اسرار حقیقی پنهان دیتاها نیازمند است. حل مسئله محرک یک سفر فکری به سوی راه‌‌حل است. این دانشمندان هنگام برخورد با چالش‌‌ها به‌‌جای مستأصل شدن هیجان‌‌زده می‌‌شوند؛ چراکه یافتن چالش بزرگ‌ترین گام برای رفع آن است و رفع مشکلات به‌‌معنای قدمی رو به جلو برای آن‌‌ها، کسب‌‌وکار یا سازمان مربوطه است.

در صورتی که به فکر راه‌اندازی کسب و کار جدید یا توسعه کسب و کار خود، افزایش فروش و مخاطب هستید، کلیک کنید و یا همین حالا با شماره‌ تلفن‌ ثابت 02191095052 و یاشماره همراه 09937948550 تماس حاصل فرمایید.

  1. آموزش

تصور نادرستی که در رابطه با این مفهوم وجود دارد، این است که برای تبدیل‌شدن به یک دانشمند دیتا ساینس به یک دکترای علوم کامپیوتر یا ریاضی نیاز است. این دیدگاه، ماهیت چند رشته‌ای بودن این رویکرد را زیر سؤال می‌‌برد. مطالعه بسیار متمرکز در دانشگاه‌‌ها بسیار مفید است و تردیدی بر اهمیت آن نیست، اما این امر به‌‌تنهایی تضمینی برای اینکه فارغ‌‌التحصیلان مجموعه کاملی از تجربیات و توانایی‌ها را برای موفقیت دارند، نخواهد بود؛ برای مثال، یک آماردان دارای مدرک دکتری ممکن است همچنان نیاز به کسب مهارت‌های برنامه‌‌نویسی داشته باشد. این مفهوم رشته نسبتاً جدید و رو به رشدی است که هنوز بسیار جای کار دارد. ازاین‌‌رو، به جرأت می‌‌توان گفت که هیچ‌‌کس نمی‌تواند ادعا کند که از کلیه مفاهیم ضروری برای تبدیل‌‌شدن به دانشمند داده آگاه است.

مفاهیم مرتبط با علم داده‌‌ها

  • دیتا آنالیز (Data Analytics) چیست؟

در سال‌‌های اخیر تجزیه‌‌وتحلیل به‌‌سرعت در زبان‌‌های تجاری محبوب افزایش یافته است. این اصطلاح به‌صورت آزاد به کار می‌رود، اما به‌‌طورکلی به معنای توصیف تفکر انتقادی است که ماهیت کمی دارد. از نظر معنایی تجزیه‌‌وتحلیل در این مفهوم به معنای واکاوی اطلاعات جهت اتخاذ تصمیمات است.

در رابطه با ارتباط مفهوم تجزیه‌‌وتحلیل یا آنالیز با این علم می‌‌توان گفت که این رابطه با زمینه‌‌ موردبررسی متخصصین این رشته مشخص می‌‌گردد. درصورتی‌‌که تعریف بالا را برای دیتا آنالیز درنظر بگیریم، تعریف آن مترادف با تعریف این علم خواهد شد. یک دانشمند علم داده که از دیتا‌های خام برای ساختن یک الگوریتم پیش‌‌بینی‌‌کننده استفاده می‌کند، در حوزه تجزیه‌‌وتحلیل قرار می‌گیرد. در عین حال، یک کاربر تجاری غیرفنی که گزارش‌های داشبورد از پیش ساخته‌شده را تفسیر می‌کند نیز در قلمرو تجزیه‌‌وتحلیل قرار می‌‌گیرد، اما به مجموعه مهارت‌های مورد‌‌نیاز در این دانش نمی‌رسد. در واقع می‌‌توان نتیجه گرفت که تجزیه‌‌وتحلیل معنای نسبتاً گسترده‌ای پیدا کرده است. در انتها به این نکته توجه شود که تا زمانی‌‌که مختصصان فراتر از سطح کلمات کلیدی را درک نمایند، معنای دقیق آن اهمیت چندانی نخواهد داشت.

تفاوت میان تحلیل‌‌گران و دانشمندان داده در چیست؟

در ادامه به تفسیر این دو مفهوم با درنظر گرفتن نحوه انطباق آن‌‌ها با عناوین شغلی، مهارت‌ها و دامنه مسئولیت‌ها می‌‌پردازیم:

  • دانشمند داده: یک فعالیت تخصصی با کسب توانایی در ریاضیات، فناوری و زیرکی تجاری است. این متخصصان در سطح پایگاه دیتا خام برای استخراج بینش و ساخت محصول داده فعالیت می‌کنند.
  • تحلیل‌‌گر: تحلیل‌‌گر بودن تا حدودی یک شغل مبهم است که می‌تواند انواع مختلفی از نقش‌ها از جمله تحلیل‌‌گر دیتا، تحلیل‌‌گر بازاریابی، تحلیلگر عملیات، تحلیلگر مالی و موارد دیگر را دربر بگیرد. مفهوم مشترک میان تمام تحلیل‌‌گران این است که برای به‌‌دست آوردن بینش به داده‌ها مراجعه می‌نمایند. تحلیلگران می‌‌توانند سطوح مختلف از جمله پایگاه داده یا خلاصه گزارشات و داشبوردها را شامل شوند.

بنابراین با توجه به توضیحات بیان‌‌شده می‌‌توان این‌گونه برداشت کرد که تحلیل‌‌گران و دانشمندان داده کاملاً مترادف یکدیگر نیستند، اما دو مفهوم مقابل یکدیگر نیز محسوب نمی‌‌شوند.

  • یادگیری ماشین چیست؟

یادگیری ماشینی اصطلاحی است که ارتباط نزدیکی با این علم دارد. یادگیری ماشین به دسته وسیعی از روش‌ها اشاره دارد که حول محور مدل‌سازی داده‌ها برای پیش‌بینی‌های الگوریتمی و رمزگذاری آن‌‌ها می‌چرخد.

  1. پیش‌‌بینی

مفهوم اصلی پیش‌‌بینی در یادگیری ماشین استفاده از داده‌های برچسب‌‌گذاری شده برای آموزش مدل‌های پیش‌‌بینی است. دیتاهای برچسب‌گذاری شده به معنای مشاهداتی هستند که در آن اطلاعات موردنیاز از قبل شناخته‌‌شده‌‌ هستند. مدل‌های آموزشی به معنای مشخص‌‌نمودن خودکار داده‌های برچسب‌گذاری شده به‌‌عنوان روش‌هایی برای پیش‌بینی برچسب‌ها برای نقاط ناشناخته داده است؛ برای مثال، یک مدل تشخیص کلاه‌برداری کارت اعتباری را می‌توان با استفاده از سابقه تاریخی خریدهای تقلب برچسب‌‌گذاری‌‌شده آموزش داد. مدل حاصل احتمال تقلبی بودن خریدهای جدید را تخمین می‌‌زند. روش‌های متداول برای مدل‌های آموزشی از رگرسیون‌های پایه تا شبکه‌های عصبی پیچیده را شامل می‌شود. کلیه مراحل از الگوی مشابهی پیروی می‌کنند که به‌‌عنوان یادگیری تحت نظارت شناخته می‌شوند.

در صورتی که به فکر راه‌اندازی کسب و کار جدید یا توسعه کسب و کار خود، افزایش فروش و مخاطب هستید، کلیک کنید و یا همین حالا با شماره‌ تلفن‌ ثابت 02191095052 و یاشماره همراه 09937948550 تماس حاصل فرمایید.

  1. کشف الگوها

الگوی مدل‌سازی دیگری که به‌‌عنوان یادگیری بدون نظارت شناخته می‌شود، می‌کوشد تا الگوها و تداعی‌های زیربنایی را در داده‌ها زمانی‌‌که حقیقت اصلی موجود آن‌‌ها شناخته نشده است و مشاهدات برچسب‌گذاری نشده‌‌اند، نشان ‌‌دهد. از جمله رایج‌ترین روش‌های مورد استفاده در این دسته وسیع از روش‌ها، تکنیک‌های خوشه‌بندی هستند که به‌طور الگوریتمی گروه‌بندی‌های طبیعی موجود در یک مجموعه داده را تشخیص می‌دهند؛ برای مثال، خوشه‌بندی را می‌توان برای یادگیری برنامه‌ای بخش‌های مشتری در پایگاه کاربران یک شرکت استفاده کرد. سایر روش‌های بدون نظارت برای استخراج ویژگی‌های اساسی عبارت‌اند از:

  • تجزیه‌وتحلیل مؤلفه‌های اصلی
  • مدل‌های مارکوف پنهان
  • مدل‌های موضوعی

کلیه روش‌های یادگیری ماشین به‌خوبی در دو دسته بالا قرار نمی‌گیرند؛ برای مثال، فیلتر کردن مشارکتی نوعی الگوریتم توصیه با عناصر مرتبط به یادگیری تحت نظارت و بدون نظارت است. گستره وسیع تکنیک‌های یادگیری ماشین، بخش مهمی از جعبه ابزار این مفهوم را تشکیل می‌دهند. دانشمندان علم داده با انتخاب استراتژی‌های مناسب می‌‌توانند آگاه شوند که از چه ابزاری و با چه شیوه‌‌ای در شرایط مختلف برای حل مسائل تحلیلی استفاده نمایند.

  • Data Munging چیست؟

داده‌های خام می‌توانند بدون ساختار و آشفته باشند و با اطلاعاتی از داده‌‌های دارای منابع متفاوت، سوابق ناهماهنگ یا گمشده و تعداد زیادی از مسائل پیچیده دیگر همراه شوند. Data Munging اصطلاحی است برای توصیف کشمکش داده‌ها جهت گردآوری دیتا‌ها در نماهای منسجم و پاک‌‌سازی دیتاها به‌گونه‌ای که برای مراحل بعدی آماده باشند. این امر نیاز به حس خوب تشخیص الگو و مهارت‌های هک هوشمندانه برای ادغام و تبدیل انبوه اطلاعات در سطح دیتابیس دارد. درصورتی‌‌که این امر به‌درستی صورت نگیرد، داده‌های غربال‌‌نشده می‌توانند حقیقت و رابطه پنهان در مجموعه دیتاها را مبهم کرده و نتایج را کاملاً گمراه‌‌کننده نمایند؛ بنابراین، هر دانشمند داده باید در جمع‌‌آوری دیتاها ماهر و زیرک عمل کند تا قبل از اعمال تکنیک‌های تحلیلی پیچیده‌تر، داده‌های دقیق و قابل استفاده داشته باشد.

کاربردهای علم داده و فرصت‌‌های شغلی آن

تقاضای فزاینده برای این مفهوم، نرخ مشاغل را حدود ۴۵ درصد افزایش داده است. این دانش در هر صنعتی تقاضای کافی دارد. در ادامه به بررسی فرصت‌های شغلی دانشمندان این علم می‌‌پردازیم:

  • تجارت الکترونیک

در صنعت تجارت الکترونیک و خرده‌‌فروشی نیاز به تجزیه‌‌وتحلیل داده‌ها در بالاترین سطح وجود دارد. سازمان‌های بزرگ با استفاده صحیح و کامل از تجزیه‌‌وتحلیل دیتا‌ها می‌توانند سود و زیان، خرید را پیش‌‌بینی و مدیریت کنند. همچنین می‌توانند با ردیابی ترجیحات و علاقه‌‌مندی مشتریان، آن‌ها را برای خرید کالاها و خدمات دست‌کاری کنند. تمامی مسائل ذکرشده با تجزیه‌‌وتحلیل مشخصات مشتری برای تأثیرگذاری بیشتر بر روی آن‌‌ها امکان‌‌پذیر است؛ بنابراین، تجزیه‌‌وتحلیل داده‌ها به انجام این کار کمک شایانی می‌کند.

  • تولید

این علم نقش مهمی در کارایی دارد و با استفاده از آن می‌توان کارایی و بهره‌‌وری، کمیت و کیفیت تولید را افزایش و خطرات را کاهش داد. در ادامه به حوزه‌های تولیدی که این مفهوم در آن‌ها مورد استفاده قرار گرفته است، می‌‌پردازیم:

  • قیمت‌‌گذاری در بازار جهانی
  • زنجیره تأمین و روابط تأمین‌‌کننده
  • نگهداری مشروط و پیش‌‌بینی‌‌کننده
  • اتوماسیون و طراحی امکانات جدید
  • پایداری و بهره‌‌وری انرژی بالاتر
  • تضمین کیفیت، عملکرد و ردیابی نقص
  • فرآیندهای جدید، مواد برای توسعه محصول و تکنیک‌های تولید
  • مراقبت‌های بهداشتی

این مفهوم در صنعت مراقبت‌های بهداشتی برای سیستم‌های بالینی، صورتحساب‌ها، سوابق پزشکی و موارد دیگر استفاده می‌گردد. صنعت مراقبت‌های بهداشتی تنها با این مفهوم می‌تواند با تعیین داده‌های قبلی بیماران، مراقبت‌های بهتری را ارائه نماید.

در صورتی که به فکر راه‌اندازی کسب و کار جدید یا توسعه کسب و کار خود، افزایش فروش و مخاطب هستید، کلیک کنید و یا همین حالا با شماره‌ تلفن‌ ثابت 02191095052 و یاشماره همراه 09937948550 تماس حاصل فرمایید.

  • حمل‌‌ونقل

هر روزه داده‌های بسیاری توسط صنعت حمل‌‌ونقل ایجاد می‌شود. داده‌ها از سیستم‌های مکان وسیله نقلیه، دستگاه‌های شمارش مسافر، بلیط، سیستم‌های جمع‌‌آوری کرایه و سار موارد جمع‌‌آوری می‌گردند. صنعت حمل‌‌ونقل با استفاده از این مفهوم می‌تواند بینش‌هایی را در مورد برنامه‌ریزی و نظارت بر شبکه‌های حمل‌ونقل بی‌عیب و نقص ایجاد کند.

  • بانکداری و امور مالی

این مفهوم در بانکداری مالی استفاده بسیاری دارد. این دانش ذخیره اطلاعات و داده‌های مشتریان را آسان‌تر، سریع و دقیق می‌کند. همچنین به بانک‌ها کمک می‌کند تا از تاریخچه خرید، نحوه ارتباط، استفاده از تلفن همراه و اطلاع از تراکنش‌های انجام‌شده از طریق کارت‌های نقدی یا اعتباری مطلع گردند.

چالش‌های دیتا ساینس

این مفهوم به دلیل ماهیت پیشرفته تجزیه‌‌وتحلیلی که شامل آن می‌شود، ذاتاً چالش برانگیز است. حجم وسیعی از ديتاها که معمولاً تجزیه‌‌وتحلیل می‌شوند، به پیچیدگی و افزایش زمان لازم برای تکمیل پروژه‌ها می‌افزایند. علاوه بر این، دانشمندان دیتا اغلب با مجموعه‌ای از دیتا‌های بزرگ کار می‌کنند که ممکن است حاوی انواع داده‌های ساختاریافته، بدون ساختار و نیمه‌ساختار باشد و فرآیند تحلیل را پیچیده‌تر می‌کنند. موانع ذکرشده از جمله چالش‌هایی هستند که متخصصان با آن مواجه می‌‌شوند.

یکی از بزرگ‌ترین چالش‌ها حذف سوگیری در مجموعه دیتا‌ها و برنامه‌های تحلیلی است. این امر شامل مسائل مربوط به خود، دیتا‌های اساسی و مواردی است که دانشمندان داده به‌طور ناخودآگاه در الگوریتم‌ها و مدل‌های پیش‌‌بینی ایجاد می‌نمایند. این سوگیری‌ها می‌توانند نتایج تحلیل‌ها را در صورت عدم شناسایی و رسیدگی به آن‌‌ها منحرف نمایند و یافته‌های ناقصی را ایجاد کنند که منجر به تصمیم‌گیری‌های نادرست تجاری می‌گردد.

معایب علم داده‌‌ها

داده‌کاوی و تلاش‌های صورت‌‌گرفته برای تحلیل کردن دیتاهای شخصی توسط شرکت‌های رسانه‌های اجتماعی موردانتقاد قرار گرفته است؛ برای مثال‌‌، می‌‌توان به رسوایی‌های متعددی مانند کمبریج آنالیتیکا که در آن دیتا‌های شخصی توسط متخصصین دیتا برای تأثیرگذاری بر نتایج سیاسی یا تضعیف انتخابات استفاده می‌شد، اشاره نمود. این مفهوم حوزه به‌‌کارگیری تکنیک‌های تحلیلی پیشرفته و اصول علمی برای استخراج اطلاعات ارزشمند از داده‌ها جهت تصمیم‌‌گیری تجاری، برنامه‌‌ریزی استراتژیک و سایر کاربردها بوده و برای کسب‌وکارها به‌‌طور فزاینده‌ای حیاتی است. سازمان‌‌ها با کمک بینش‌های ایجادشده توسط این مفهوم می‌‌توانند نسبت به افزایش کارایی عملیاتی، شناسایی فرصت‌های تجاری جدید، بهبود برنامه‌های بازاریابی و فروش و موارد دیگر اقدام نمایند. در نهایت، آن‌ها می‌توانند به مزیت‌های رقابتی نسبت به رقبای تجاری منجر شوند.

این مفهوم رشته‌های مختلفی از جمله مهندسی، تجسم و آماده‌‌سازی دیتا، داده کاوی، تجزیه‌‌و‌‌تحلیل پیش‌‌بینی، یادگیری ماشین و همچنین آمار، ریاضیات و برنامه‌‌نویسی نرم‌‌افزار را شامل می‌‌شود. در وهله نخست این امر توسط دانشمندان داده ماهر با درنظر گرفتن فعالیت تحلیلگران دیتا دارای سطح پایین‌‌تر صورت می‌گیرد. علاوه‌‌براین، در حال حاضر، بسیاری از سازمان‌ها تا حدی به دانشمندان دیتا منطبق با کسب‌‌وکار خود متکی هستند. این افراد می‌توانند شامل متخصصان هوش تجاری (BI)، تحلیلگران کسب‌وکار، کاربران تجاری آگاه به داده، مهندسان دیتا و سایر اشخاصی باشند که پیش‌زمینه‌‌ای رسمی در مورد این دانش کسب ننموده‌‌اند.

دانشمندان داده چه می‌کنند و به چه مهارت‌هایی نیاز دارند؟

نقش اصلی این دانشمندان، تجزیه‌‌وتحلیل دیتا‌ها و تلاش برای یافتن اطلاعات مفیدی است که می‌تواند توسط مدیران شرکت‌ها، مدیران تجاری و کارگران و همچنین مقامات دولتی، پزشکان، محققان و بسیاری دیگر به اشتراک گذاشته شود. علاوه‌‌براین، این دانشمندان ابزارها و فناوری‌های هوش مصنوعی را برای استقرار در برنامه‌های مختلف ایجاد می‌کنند. به‌‌طورکلی، در هر دو مورد ذکرشده آن‌ها دیتاها را جمع‌آوری می‌کنند، مدل‌های تحلیلی را توسعه می‌دهند و سپس مدل‌ها را بر اساس دیتا‌ها آموزش، آزمایش و اجرا می‌نمایند.

در نتیجه، این دانشمندان باید ترکیبی از آماده‌سازی داده، داده‌کاوی، مدل‌سازی پیش‌بینی‌کننده، یادگیری ماشین، تجزیه‌‌وتحلیل آماری و مهارت‌های ریاضی و همچنین تجربه با الگوریتم‌ها و کدنویسی را کسب نمایند؛ برای مثال، مهارت‌های برنامه‌نویسی در زبان‌هایی مانند پایتون،R  و SQL وظیفه ایجاد تجسم دیتاها، داشبوردها و گزارش‌ها را برای نشان دادن یافته‌های تحلیلی بر عهده دارند.

علاوه‌‌براین، مهارت‌های فنی نیز لازمه این دانشمندان است. آن‌‌ها به مجموعه‌ای از مهارت‌ها مانند دانش تجاری، کنجکاوی و تفکر انتقادی نیاز دارند. از دیگر مهارت‌های ضروری برای این متخصصان توانایی ارائه اطلاعات، بینش و توضیح اهمیت آن‌‌ها به روشی است که برای کاربران تجاری آسان است. این امر شامل قابلیت‌های داستان‌‌سرایی داده برای ترکیب تجسم داده‌ها، متون، فلوچارت‌‌ها و نمودارهایی است در یک ارائه آماده می‌شود.

در صورتی که به فکر راه‌اندازی کسب و کار جدید یا توسعه کسب و کار خود، افزایش فروش و مخاطب هستید، کلیک کنید و یا همین حالا با شماره‌ تلفن‌ ثابت 02191095052 و یاشماره همراه 09937948550 تماس حاصل فرمایید.

هوش تجاری در مقابل علم داده

یکی از مهم‌‌ترین اهداف هر دو مفهوم، گزارش اولیه جهت کمک به تصمیم‌‌گیری عملیاتی و برنامه‌‌ریزی استراتژیک است؛ اما هوش تجاری در درجه اول بر تجزیه‌‌وتحلیل توصیفی متمرکز است. منظور از تجزیه‌‌وتحلیل توصیفی این است که اتفاقات رخ‌‌داده یا درحال رخ‌‌دادن که توسط سازمان‌‌ها باید بررسی شوند را مشخص می‌‌کند. عموماً تحلیل‌‌گران و کاربران سلف‌سرویس هوش تجاری با داده‌های تراکنش ساختاریافته فعالیت می‌کنند که از سیستم‌های عملیاتی جهت سازگاری استخراج، پاک‌سازی و تبدیل گشته‌‌اند و برای تجزیه‌‌وتحلیل در انبار یا بازار دیتا بارگذاری می‌گردند. نظارت بر عملکرد، فرآیندها و روندهای تجاری یک مورد رایج استفاده از هوش مصنوعی است.

در واقع می‌‌توان گفته که علم داده رویکرد آینده‌‌نگرتری دارد. این مفهوم یک روش اکتشافی با تمرکز بر تجزیه‌‌وتحلیل داده‌های گذشته یا فعلی و پیش‌‌بینی نتایج آینده با هدف تصمیم‌‌گیری‌‌ آگاهانه بوده و به سؤالات باز درباره چیستی و چرایی رویدادها پاسخ می‌دهد. در ادامه به بررسی تفاوت این دو مفهوم در جدولی مدون می‌‌‌‌‌‌پردازیم:

امکانات هوش تجاری (BI) علم داده
منابع داده ساختاریافته (اغلب انبار داده، معمولاً SQL) هم ساختاریافته و هم بدون ساختار

(سیاهه‌های مربوط، دیتاهای ابری، SQL، NoSQL، متن)

رویکرد آمار و تجسم یادگیری ماشین، تجزیه‌وتحلیل نمودار، برنامه‌ریزی عصبی زبانی (NLP)
تمرکز گذشته و حال حال و آینده
ابزار Pentaho ،Microsoft BI ،QlikView ،R RapidMiner ،BigML ،Weka ،R

آینده علم داده‌‌ها

با رواج روزافزون این علم در سازمان‌ها، انتظار می‌رود که دانشمندان داده نقش بیشتری در فرآیند تجزیه‌‌و‌‌تحلیل داشته باشند. گارتنر (مؤسسه تحقیقاتی مشاوره کسب‌‌وکار) طی گزارش ۲۰۲۰ Magic Quadrant خود در مورد پلتفرم‌های این مفهوم و یادگیری ماشین اظهار کرد که نیاز به حمایت مجموعه گسترده‌ای از کاربران این دانش به‌‌طور فزاینده‌ای انجام می‌‌گیرد. یکی از نتایج محتمل این رویداد، افزایش استفاده از یادگیری ماشین خودکار از جمله توسط دانشمندان دیتا ساینس ماهر است که به دنبال ساده‌سازی و تسریع کار خود هستند.

چرخه حیات علم داده

  • کشف

پیش از شروع پروژه درک مشخصات مختلف، الزامات، اولویت‌ها و بودجه موردنیاز ضرورتی انکارناپذیر است. متخصصان باید توانایی پرسیدن سؤالات درست را داشته باشند. در این مرحله باید در اختیار بودن منابع موردنیاز از نظر افراد، فناوری، زمان و داده برای پشتیبانی از پروژه بررسی شود. در این مرحله بازاریابان باید مشکلات پیش‌‌روی کسب‌‌وکار را چارچوب‌‌بندی کنند و فرضیه‌های اولیه را برای آزمایش به‌‌صورت فرمول در بیاورند.

  • آماده‌‌سازی

دانشمندان در این مرحله به سندباکس تحلیلی نیاز دارند که در آن بتوانند تجزیه‌‌وتحلیل را برای کل مدت پروژه انجام دهند. پیش از مدل‌‌سازی می‌‌بایست دیتا‌ها را کاوش، پیش‌‌پردازش و شرطی‌‌سازی نمود. علاوه‌‌براین، مراحل استخراج، تبدیل، بارگذاری و تبدیل (ETLT) را برای دریافت داده‌ها باید انجام داد. در ادامه به یک مثال برای بررسی جریان تحلیل آماری می‌‌پردازیم:

متخصصان می‌توانند از R برای تمیزکردن، تبدیل و تجسم داده‌ها استفاده نمایند. این امر به آن‌‌ها در شناسایی نقاط پراکنده و برقراری ارتباط بین متغیرها کمک می‌کند. پس از پاک‌‌سازی و آماده‌‌سازی دیتا‌ها می‌‌بایست تجزیه‌‌وتحلیل اکتشافی بر روی آن صورت پذیرد. این بخش در مراحل بعد بررسی می‌‌شود.

  • برنامه‌‌ریزی مدل

در قسمت برنامه‌‌ریزی مدل، روش‌ها و تکنیک‌های ترسیم روابط بین متغیرها تعیین می‌شوند. این روابط پایه الگوریتم‌هایی را که قرار است در مرحله بعدی پیاده‌‌سازی شوند را تنظیم می‌کند. دانشمندان تجزیه‌‌وتحلیل داده‌های اکتشافی (EDA) را با استفاده از فرمول‌های آماری مختلف و ابزارهای تجسم اعمال خواهند نمود.

در ادامه به بررسی ابزارهای مختلف برنامه‌‌ریزی مدل می‌‌پردازیم:

در صورتی که به فکر راه‌اندازی کسب و کار جدید یا توسعه کسب و کار خود، افزایش فروش و مخاطب هستید، کلیک کنید و یا همین حالا با شماره‌ تلفن‌ ثابت 02191095052 و یاشماره همراه 09937948550 تماس حاصل فرمایید.

ابزارهای برنامه‌‌ریزی مدل

  1. R: مجموعه کاملی از قابلیت‌های مدل‌‌سازی را دارد و محیط خوبی را برای ساخت مدل‌های تفسیری فراهم می‌کند.
  2. سرویس‌هایSQL Analysis: این سرویس‌‌های تجزیه‌‌وتحلیل می‌توانند بررسی درون پایگاه داده را با استفاده از توابع رایج داده کاوی و مدل‌های پیش‌‌بینی اولیه انجام دهند.
  3. SAS وACCESS: این دو ابزار را می‌توان برای دسترسی به دیتا‌ها از Hadoop و جهت ایجاد نمودارهای جریان مدل تکرارپذیر و قابل استفاده مجدد به­‌کار گرفت.

علاوه‌‌بر ابزارهای فوق، ابزارهای زیادی در بازار وجود دارد، اما در میان آن‌‌ها سرویس R پرکاربردترین ابزار محسوب می‌‌شود.

نکته: Hadoop یک چارچوب نرم‌افزاری منبع‌باز است که پردازش توزیع‌شده‌ ‌داده‌های بزرگ را بر روی خوشه‌هایی از سرورها امکان‌‌پذیر می‌‌‌کند.

متخصصان پس از طی این مرحله بینش‌هایی در مورد ماهیت دیتاهای خود دریافت می‌‌کنند و در رابطه با الگوریتم‌های مورد استفاده خود تصمیم می‌‌گیرند. در بخش بعد الگوریتم‌‌های شناسایی‌‌شده اعمال می‌‌شوند و سپس یک مدل ساخته می‌‌شود.

  • ساختمان و چارچوب مدل

متخصصان در مرحله ساختمان و چارچوب مدل، مجموعه داده‌هایی را برای اهداف آموزشی و آزمایشی توسعه خواهند داد. در این بخش باید کافی‌‌بودن ابزارهای موجود برای اجرای مدل‌‌ها درنظر گرفته شود. در صورت کافی نبودن ابزارها می‌‌بایست به محیط قوی‌تری مانند پردازش سریع و موازی مراجعه نمود. دانشمندان با تکنیک‌های مختلف یادگیری مانند طبقه‌‌بندی، تداعی و خوشه‌‌بندی برای ساخت مدل به تجزیه‌‌و‌‌تحلیل خواهند پرداخت.

  • عملیاتی‌‌شدن

متخصصان در این مرحله باید گزارش‌های نهایی، جلسات توجیهی، کد و اسناد فنی را ارائه ‌دهند. علاوه‌‌براین، برخی اوقات پروژه‌‌ای آزمایشی نیز در یک محیط تولید بلادرنگ اجرا می‌گردد. این امر تصویر واضحی از عملکرد و سایر محدودیت‌های مرتبط در مقیاس کوچک پیش از استقرار کامل را در ذهن کاربر ترسیم می‌نماید.

  • بررسی میزان ارتباط با نتایج

در انتها باید ارزیابی نمود که چرخه طی‌‌شده توانایی هدف برنامه‌‌ریزی‌‌شده در مرحله اول را دارد یا قادر به انجام هدف مورد انتظار سازمان نبوده است؛ بنابراین، این مرحله باید شناسایی کلیه یافته‌های کلیدی، برقراری ارتباط با ذی‌‌نفعان و تعیین موفقیت‌‌آمیز بودن یا نبودن نتایج موفقیت بر اساس معیارهای توسعه‌‌یافته در بخش کشف مشخص گردد.

پیشرفت‌های فناوری، اینترنت، رسانه‌های اجتماعی و استفاده از فناوری و موارد دیگر دسترسی به دیتا‌های بزرگ و علم داده را افزایش داده‌اند. حوزه دیتا ساینس با پیشرفت فناوری و پیچیده‌تر شدن تکنیک‌های جمع‌‌آوری و تجزیه‌‌وتحلیل کلان داده‌‌ها به‌‌طور فزاینده‌‌ای در حال رشد است. با یادگیری و به‌‌کار گیری این علم می‌‌توانید در موج پیش‌‌رونده داده‌‌ها در عصر فناوری اطلاعات شناور شوید.

در صورتی که به فکر راه‌اندازی کسب و کار جدید یا توسعه کسب و کار خود، افزایش فروش و مخاطب هستید، کلیک کنید و یا همین حالا با شماره‌ تلفن‌ ثابت 02191095052 و یاشماره همراه 09937948550 تماس حاصل فرمایید.

برای مطالعه مقاله های دیگر در زمینه‌های مختلف فناوری اطلاعات و ارتباطات اینجا کلیک کنید.

نوشته علم داده (Data Science) چیست و چه کاربردهایی دارد؟ اولین بار در نوکارتو. پدیدار شد.