در داده کاوی با پایتون-روش الگوریتم CRISP قبل از اینکه بخواهیم به صورت عملی و کد نویسی به بحث شیرین داده کاوی بپردازیم، تصمیم گرفتیم توضیحی اجمالی از فرایند داده کاوی و روش الگوریتم کریسپ در این آموزش داشته باشیم. در آموزش قبلی داده کاوی با پایتون-Datamining، هم مقدمه ای از داده کاوی و زبان استفاده شده در برنامه های آینده را معرفی شد.
کشف دانش از پایگاه داده ها: Knowledge Discovery in Databases (KDD)
[/vc_column_text][/vc_column][/vc_row][vc_row][vc_column][vc_single_image image=”4311″ img_size=”full” alignment=”center”][/vc_column][/vc_row][vc_row][vc_column][vc_column_text]
همانطور که در تصویر بالا مشاهده می کنید داده کاوی یکی از مراحل فرایند کشف دانش را تشکیل میدهد.
دیتاماینینگ در کل مراحل و روش های مختلفی دارد.
برای داده کاوی اول باید
و … که در آموزش قبلی که لینکش را در بالا قرار دادیم توضیح دادیم.
Cross-industry standard process for data mining:فرایندهای استاندارد صنعت متقابل برای داده کاوی (ویکی)
پروسه ی استاندارد صنعتی برای دیتا ماینینگ، معروف به CRISP-DM، یک مدل فرآیند استاندارد باز است که رویکردهای رایج مورد استفاده توسط کارشناسان داده کاوی را توصیف می کند.
یکی از پرکاربردترین مدل های تحلیلی، مدل کریسپ دی بی است که شامل شش مرحله است:
همانطور که در شکل زیر نشان داده شده است، این مراحل به طور کلی به ترتیب انجام می شوند، اما اغلب لازم است به مراحل قبلی برگردید و کارهای خاصی را تکرار کنید.
[/vc_column_text][/vc_column][/vc_row][vc_row][vc_column][vc_single_image image=”4315″ img_size=”full” alignment=”center”][/vc_column][/vc_row][vc_row][vc_column][vc_column_text]
هر پروژه خوب با درک عمیق اهداف کسب و کار شروع می شود. پروژه های داده کاوی هم از این قاعده مستثنی نیستند و CRISP-DM این موضوع را تشخیص می دهد.
بخش اول شامل موارد زیر است:
در حالی که بسیاری از تیم ها در این مرحله عجله دارند، ایجاد یک درک قوی از تجارت مانند زیر سازی یک خانه کاملا ضروری است.
مرحله دوم مرحله درک داده است. یعنی تمرکز بر شناسایی، جمع آوری و تجزیه و تحلیل مجموعه داده هایی که می توانند به شما در دستیابی به اهداف پروژه کمک کنند. این مرحله نیز دارای چهار وظیفه است:
[/vc_column_text][/vc_column][/vc_row][vc_row][vc_column][vc_column_text]
مرحله آماده سازی دادهها، همه فعالیتهای لازم را برای ساخت مجموعه داده های نهایی (دادههایی که به ابزار(های) مدلسازی وارد میشوند) از دادههای خام اولیه را انجام میدهد. آماده سازی داده ها وقت گیرترین کار است و حدود سه چهارم از کار یک تحلیلگر داده را شامل می شود.
این مرحله دارای پنج وظیفه است:
[/vc_column_text][/vc_column][/vc_row][vc_row][vc_column][vc_column_text]
آنچه که به طور گسترده به عنوان هیجان انگیزترین کار علم داده در نظر گرفته می شود، اغلب کوتاه ترین مرحله پروژه است.
در اینجا احتمالاً مدلهای مختلف را بر اساس چندین تکنیک مدلسازی مختلف میسازید و ارزیابی میکنید.
این مرحله چهار وظیفه دارد:
در عمل شما باید مراحل را به صورت تکراری ادامه دهید تا زمانی که مدل به اندازه کافی از طریق چرخه ی CRISP-DM خوب به نظر برسد و در آینده مدل بهبود پیدا کند.
[/vc_column_text][/vc_column][/vc_row][vc_row][vc_column][vc_column_text]
در حالی که وظیفه ارزیابی مدل در مرحله مدلسازی بر ارزیابی مدل فنی متمرکز است، مرحله ارزیابی به طور گستردهتری به این میپردازد که کدام مدل به بهترین وجه با بیزینس شما مطابقت دارد و چه کاری باید انجام شود. این مرحله سه وظیفه دارد:
[/vc_column_text][/vc_column][/vc_row][vc_row][vc_column][vc_column_text]
مرحله ارزیابی می تواند به سادگی تولید یک گزارش یا به پیچیدگی اجرای یک فرآیند داده کاوی تکرارپذیر در سراسر پروژه باشد.
ایجاد مدل معمولاً پایان پروژه نیست حتی اگر هدف مدل افزایش دانش از داده ها باشد، دانش به دست آمده باید به گونه ای سازماندهی و ارائه شود که برای مشتری مفید باشد.
در بسیاری از موارد این مشتری خواهد بود و نه تحلیلگر داده که مراحل ارزیابی را انجام خواهد داد. حتی اگر تحلیلگر مدل را به کار گیرد، برای مشتری مهم است که اقداماتی را که برای استفاده واقعی از مدل های ایجاد شده باید انجام شود، درک کند.
در یک پروژه معین، ما می دانیم که در ابتدای اولین پروژه خود ممکن است دانش دامنه زیادی نداشته باشیم، یا ممکن است مشکلاتی با داده ها وجود داشته باشد یا مدل ممکن است به اندازه کافی ارزشمند نباشد که تولید شود.
موضوع مهم در مورد مدل CRISP-DM این است که به ما اجازه میدهد این کار را انجام دهیم. این یک مسیر خطی واحد از شروع پروژه تا ارزیابی نیست. این الگوریتم به شما کمک می کند به خاطر داشته باشید که به خاطر اینکه مجبور هستید یک قدم به عقب برگردید، خود را مورد ضرب و شتم قرار ندهید. همچنین شما را به چیزی مجهز می کند تا به مدیران توضیح دهید که گاهی اوقات باید بین برخی از مراحل جهش کنید، و این مشکلی ندارد.
همانطور که در تصویرهم مشاهده می شود مراحل توسط فلش هایی به همدیگر راه دارند که جهت تکمیل هر مرحله استفاده میشود.
دایره بزرگ هم نشان دهنده ی تکمیل کل فرایند و آماده شدن آن برای استفاده در این پروژه یا پروژه های دیگر است.
[/vc_column_text][/vc_column][/vc_row][vc_row][vc_column][vc_column_text]
برخی معتقد هستند این الگوریتم انعطاف پذیر و چابک (agile) است و برخی دیگر CRISP-DM را سخت و آبشاری (waterfall) می دانند. آنچه واقعاً مهم است نحوه اجرای آن است.
مدل آبشاری جز ابتدایی ترین و اولین مدلهای فرآیندی معرفی شده اند. در مدل آبشاری هر مرحله باید قبل از شروع مرحله ی بعدی تکمیل شود و بین مراحل هیچ همپوشانی خاصی اتفاق نمی افتد.یعنی هیچ ارتباط و وجه اشتراکی بین مراحل وجود ندارد.
[/vc_column_text][/vc_column][/vc_row][vc_row][vc_column][vc_single_image image=”24569″ img_size=”full” alignment=”right”][/vc_column][/vc_row][vc_row][vc_column][vc_column_text]
مدل waterfall نشان میدهد که فرآیند توسعه نرم افزار در یک جریان ترتیبی و خطی و رو به پایین مثل آبشار اتفاق می افتد یعنی هر مرحله در این فرآیند فقط زمانی شروع می شود که مرحله قبلی کامل و تمام شود.
در واقع، اگر دقیقاً از CRISP-DM پیروی میکنید و ترجیح میدهید مکرراً تکرار نشوید، بیشتر از یک فرآیند آبشاری استفاده میکنید.
مدل Agile مدلی مبتنی بر تکرار است از سوی دیگر، CRISP-DM به طور غیرمستقیم از اصول و شیوههای چابک دفاع میکند و میگوید: توالی فازها سفت و سخت نیست. حرکت به مرحله قبلی و مرحله بعدی بین مراحل مختلف همیشه مورد نیاز است. نتیجه هر مرحله تعیین میکند که کدام مرحله، یا کار خاص یک مرحله، باید در مرحله بعد انجام شود.
[/vc_column_text][/vc_column][/vc_row][vc_row][vc_column][vc_single_image image=”24570″ img_size=”full” alignment=”center”][/vc_column][/vc_row][vc_row][vc_column][vc_column_text]
جمع بندی
در روش الگوریتم CRISP انتخاب بین Agile و Waterfall به تیم و پروژه شما بستگی دارد.
ویژگی های کلی پروژههای چابک
و پروژههای آبشار
[/vc_column_text][vc_zigzag][/vc_column][/vc_row][vc_row][vc_column][vc_column_text]
✨✨✨@pythonabb✨✨✨
🌐https://t.me/pythonabb
سلام سپاسگزارم
سلام سپاس
ممنونم خیلی مفید بود
ممنونم خیلی مفید بود
[/vc_column_text][/vc_column][/vc_row]
سلام.دوستان میشه یه توضیح مختصر بهم بدید..دیسپلی ساعت پژو۲۰۶رو دیدید که..میخام بدونم چجوری اطلاعات بصورت تصویر روی این دیسپلی میاد؟مثلا…