داده کاوی با پایتون_قسمت دوم

datamining

http://www.adaptivecycle.nl/index.php?title=File:Data_Mining.png

 

روشهای داده کاوی

 

۱) طبقه بندی

۲) خوشه بندی

۳) کشف قانون همبستگی

۴) تشخیص و کشف خطا

۵) کشف الگوی ترتیبی

 

فرایند داده کاوی

 Knowledge Discovery in Databases (KDD) 

کشف دانش از پایگاه داده ها

فرایند داده کاوی

فرایند داده کاوی

همانطور که در تصویر بالا مشاهده میکنیم داده کاوی یکی از مراحل فرایند کشف دانش را تشکیل میدهد.

داده کاوی در کل مراحل و روش های مختلفی دارد. 

برای داده کاوی اول باید داده ها را  تمیز کرد، دسته بندی کرد، مشکلاتی که دارند رو حل کرد و …

 

روش الگوریتم   CRISP

Cross Industry Standard Process:فرایندهای استاندارد صنعت متقابل برای داده‌کاوی(ویکی)

CRISP

Cross Industry Standard Process

مراحل الگوریتم   CRISP

 

مرحله اول فهم کسب و کار

 مرحله دوم  درک داده ها 

 مرحله سوم  آماده سازی داده ها 

 مرحله چهارم درست کردن مدل اجرایی برای انجام داده کاوی 

مرحله پنجم ارزیابی مدلی که ایجاد کردیم با یکسری دادههای تستی 

مرحله آخر از این مدل استفاده می کنیم برای تحلیل داده و توسعه

همانطور که در تصویر مشاهده میشود، توسط فلش هایی، مراحل به هم دیگر راه دارند که جهت تکمیل هر مرحله استفاده میشود.

دایره بزرگ هم نشان دهنده ی تکمیل کل فرایند و آماده شدن آن برای استفاده در این پروژه یا پروژه های دیگر است. 

داده کاوی با پایتون_قسمت اول

داده کاوی(Datamining)

داده کاوی

بیایید با هم تصور کنیم انبوه داده ی ما معدن سنگ است(Big_Data )

datamining-big-data

داده کاوی-داده های بزرگ

 

اگر دانشی که قرار است از میان انبوه داده کشف شود، رگه طلایی باشد که باید از میان آن همه سنگ کشف شود،  با داده کاوی دانش پنهان   را  از  داه های بزرگ کشف می کنیم.

دانش

Knowledge-دانش

داده های بزرگ(Big_Data )

 

برای داده_کاوی ما نیاز به حجم زیادی داده داریم که این داده ها، Big_Data نامیده میشود. حجم زیاد یعنی اونقدر داده ها زیاد باشه که به راحتی نشه تجزیه و تحلیل کرد. فق با ابزار خاص.

از ویژگیهای مهم Big_Data :

۱) ارزشمند بودن داده ها(value)

۲)متنوع بودن داده ها(variety

۳)حجیم بودن داده ها(volume)حجم زیاد یعنی اونقدر داده ها زیاد باشه که به راحتی نشه تجزیه و تحلیل کرد. فقط با ابزار خاص.

۴)داده ها به سرعت در حال تغییر و تولید هستند(Velocity)

۵)داده ها به درد بخور و صحیح هستند(veracity)

 

در کل سه ویژگی اول از همه مهمتر هستند.