راه حل مبتنی بر وب جدید برای مدل سازی فرایندهای داده کاوی
تکنولوژی ها و روش های سنتی قادر به ذخیره سازی و آنالیز داده های جدیدی که از منابع مختلفی مانند دستگاه ها، حسگرها، شبکه ها، برنامه های کاربردی تراکنشی، وب و رسانه اجتماعی بدست می آیند، نمی باشند. به دلیل پیچیدگی داده ها، شیوه های داده کاوی باید با استفاده از قابلیت های تکنولوژی های ابر پیاده سازی شوند. در این مقاله، راه حل مبتنی بر وب جدید با عنوان DAMIS با الهام از ابر پیشنهاد شده و پیاده سازی می شود که داده کاوی انبوه را ساده تر و کاراتر ساخته و قابلیت درک آن را برای متخصصان داده ها و کارشناسان هوش تجاری با ساخت جریان های کاری علمی برای داده کاوی با استفاده از واسط ها آسانتر می سازد. استفاده از جریان های کاری علمی امکان ترکیب ابزارهای کارا را برای مدل سازی فرایندهای داده کاوی و شبیه سازی مسائل داده کاوی با مصرف زمان و منبع در دنیای واقعی فراهم می سازد. راه حل برای حل طبقه بندی داده ها، خوشه بندی و مسائل کاهش ابعاد قابل استفاده است. معماری DAMIS برای تضمین دسترس پذیری آسان، قابلیت استفاده، مقیاس پذیری و قابلیت حمل راه حل طراحی می شود. راه حل پیشنهادی دارای محدوده ی وسیعی از برنامه های کاربردی است و امکان درک هر چه بیشتر داده ها را در طول فرایند کشف دانش فراهم می سازد.
کلمات کلیدی: داده کاوی، جریان کاری علمی، مدل سازی فرایند داده کاوی، کاهش ابعاد، محاسبات ابری، محاسبات با کارایی بالا.
A new web-based solution for modelling data mining processes
Simulation Modelling Practice and Theory
Volume 76, August 2017, Pages 34-46
Abstract
The conventional technologies and methods are not able to store and analyse recent data that come from different sources: various devices, sensors, networks, transactional applications, the web, and social media. Due to a complexity of data, data mining methods should be implemented using the capabilities of the Cloud technologies. In this paper, a new web-based solution named DAMIS, inspired by the Cloud, is proposed and implemented. It allows making massive data mining simpler, effective, and easily understandable for data scientists and business intelligence professionals by constructing scientific workflows for data mining using a drag and drop interface. The usage of scientific workflows allows composing convenient tools for modelling data mining processes and for simulation of real-world time- and resource-consuming data mining problems. The solution is useful to solve data classification, clustering, and dimensionality reduction problems. The DAMIS architecture is designed to ensure easy accessibility, usability, scalability, and portability of the solution. The proposed solution has a wide range of applications and allows getting deep insights into the data during the process of knowledge discovery.
Keywords: Data mining, Scientific workflow, Modelling data mining process, Dimensionality reduction, Cloud computing, High-performance computing