داده کاوی با پایتون-روش الگوریتم   CRISP

 

 

 


روشهای داده کاوی

 

در آموزش قبل، مقدمه ای از داده کاوی و زبان استفاده شده در برنامه های آینده را معرفی کردیم.  قبل از اینکه بخواهیم به صورت عملی به بحث شیرین داده کاوی بپردازیم، تصمیم گرفتیم  یه توضیح اجمالی از روش های داده کاوی، فرایندهای داده کاوی  و روش الگوریتم   CRISP ، در این آموزش، داشته باشیم.

۱) طبقه بندی

۲) خوشه بندی

۳) کشف قانون همبستگی

۴) تشخیص و کشف خطا

۵) کشف الگوی ترتیبی

 

فرایند داده کاوی

کشف دانش از پایگاه داده ها:  Knowledge Discovery in Databases (KDD) 

 Knowledge Discovery in Databases (KDD) 

Knowledge Discovery in Databases (KDD)

همانطور که در تصویر بالا مشاهده میکنیم داده کاوی یکی از مراحل فرایند کشف دانش را تشکیل میدهد.

داده کاوی در کل مراحل و روش های مختلفی دارد.

برای داده کاوی اول باید

داده ها را  تمیز کرد،

دسته بندی کرد،

مشکلاتی که دارند رو حل کرد

و …

 

روش الگوریتم   CRISP

Cross Industry Standard Process:فرایندهای استاندارد صنعت متقابل برای داده‌کاوی(ویکی)

CRISP

Cross Industry Standard Process

مراحل الگوریتم   CRISP

 

مرحله اول فهم کسب و کار

مرحله دوم  درک داده ها

مرحله سوم  آماده سازی داده ها

مرحله چهارم درست کردن مدل اجرایی برای انجام داده کاوی

مرحله پنجم ارزیابی مدلی که ایجاد کردیم با یکسری دادههای تستی

مرحله آخر از این مدل استفاده می کنیم برای تحلیل داده و توسعه

همانطور که در تصویر مشاهده میشود، توسط فلش هایی، مراحل به هم دیگر راه دارند که جهت تکمیل هر مرحله استفاده میشود.

دایره بزرگ هم نشان دهنده ی تکمیل کل فرایند و آماده شدن آن برای استفاده در این پروژه یا پروژه های دیگر است.



 

داده کاوی با پایتون-Datamining

 


داده کاوی

 

داده کاوی، استخراج اطلاعات ناشناخته و مفید از عظیم داده ها است. داده کاوی و تکنیکهای آن در بسیاری از حوزه ها به کار گرفته شده است. میتوانیم با یک مثال ساده هم به این موضوع بپردازیم :

بیایید با هم تصور کنیم انبوه داده ی ما معدن سنگ است(Big_Data )

datamining-big-data

داده کاوی-داده های بزرگ

 

اگر دانشی که قرار است از میان انبوه داده کشف شود، رگه طلایی باشد که باید از میان آن همه سنگ کشف شود،  با داده کاوی، دانش پنهان را  از  داده های بزرگ کشف می کنیم.

دانش

Knowledge-دانش

داده های بزرگ(Big_Data )

 

برای داده_کاوی ما نیاز به حجم زیادی داده داریم که این داده ها، Big_Data نامیده میشود. حجم زیاد یعنی اونقدر داده ها زیاد باشه که به راحتی نشه تجزیه و تحلیل کرد. فقط با ابزار خاص.

از ویژگیهای مهم Big_Data :

 

۱) ارزشمند بودن داده ها(value)

۲)متنوع بودن داده ها(variety

۳)حجیم بودن داده ها(volume)حجم زیاد یعنی اونقدر داده ها زیاد باشه که به راحتی نشه تجزیه و تحلیل کرد. فقط با ابزار خاص.

۴)داده ها به سرعت در حال تغییر و تولید هستند(Velocity)

۵)داده ها به درد بخور و صحیح هستند(veracity)

*****در کل سه ویژگی اول از همه مهمتر هستند. *****

 

آموزش  ما، در مورد ابزارهایی است که در داده کاوی عملی، برای یافتن و توصیف الگوهای ساختاری در داده ها، با استفاده از پایتون، استفاده می شوند. در سال های اخیر، پایتون، با حمایت از جامعه بزرگ محاسباتی علمی و تعداد روزافزون کتابخانه ها، برای تجزیه و تحلیل داده ها، توسعه برنامه های کاربردی محور، استفاده شده است. به طور خاص، ما با موارد زیر آشنا خواهیم شد:

  1. وارد کردن و تصویر سازی از داده ها
  2.  طبقه بندی و خوشه بندی داده ها
  3. کشف روابط  در داده ها با استفاده از رگرسیون و اقدامات همبستگی
  4. کاهش ابعاد داده ها به منظور فشرده سازی و تجسم اطلاعاتی که به ارمغان می آورد
  5. تجزیه و تحلیل داده های ساختاری

هر موضوع، بر اساس چهار کتابخانه بزرگ پایتون، برای تجزیه و تحلیل و دستکاری داده ها، بررسی  شده است: numpy، matplotlib، sklearn و networkx.

 

 

در قسمت بعدی درمورد فرایند و روشهای داده کاوی  توضیح خواهیم داد.