تا به امروز رقیق افزارهای تجاری و آموزشی فراوانی برای داده کاوی در حوزه های مختلف داده ها به دنیای علم و فناوری ارائه شده اند. هریک از آنها با تدقیق به سنخ اصلی داده هایی که مورد کاوش قرار میدهند، روی الگوریتمهای خاصی متمرکز شده اند. مقایسه دقیق و علمی این ابزارها باید از جهت های دیگرسان و متعددی مانند تنوع انواع و فرمت داده های ورودی، حجم ممکن برای پردازش داده ها، الگـوریتمهای پیاده سـازی شده، روشهای ارزیابی نتایج، روشهای مصـور سـازی، روشهای پیش پردازش داده ها، واسطهای کاربر پسند، پلتفرمهای سازگار برای اجرا،قیمت و در دسترس بودن نرم افزار صورت گیرد. از آن میان، نرم افزار Weka با داشتن امکانات بسیار گسترده،امکان مقایسه خروجی روشهای مختلف با هم، راهنمای خوب، واسط گرافیگی کارا، سازگاری حرف سایر پروگرام های ویندوزی، و از همه مهمتر وجود کتابی بسیار جامع و مرتبط با آن [Data Mining, witten et Al. 2005 ] ، معرفی میشود.
1- معرفی نرم آلت Weka
میزکارWeka ، مجموعهای از الگوریتمهای روز یادگیری ماشینی و ابزارهای پیش پردازش دادهها میباشد. این نرمافزار به سمت گونهای طراحی شده است که میتوان به سرعت، روشهای حاضر را به صورت انعطافپذیری روی مجموعههای جدید داده، آزمایش نمود. این نرمافزار، پشتیبانیهای ارزشمندی را برای کل فرآیند داده کاوی های تجربی فراهم میکند. این پشتیبانیها، آراسته سازی دادههای ورودی، ارزیابی آماری چارچوبهای یادگیری و نمایش گرافیکی دادههای ورودی و نتایج یادگیری را در بر میگیرند. همچنین، هماهنگ حرف دامنه وسیع الگوریتمهای یادگیری، این نرمافزار شامل ابزارهای جوراجور پیش پردازش دادههاست. این جعبه آلت متنوع و جامع، از طریق یک واسط متداول در دسترس است، به سمت نحوی که کاربر میتواند روشهای متفاوت را در آن با یکدیگر مقایسه کند و روشهایی را که برای مسایل مدنظر مناسبتر هستند، تشخیص دهد.
این سیستم به زبان جاوا نوشته شده و حرف اساس لیسانس عمومی و فراگیر GNU انتشار یافته است. Weka تقریباً روی هر پلت فرمی ادا میشود و نیز تحت سیستم عاملهای لینوکس، ویندوز، و مکینتاش، و حتی روی یک منشی دیجیتالی شخصی، آزمایش شده است.
این رقیق افزار، یک واسط هماهنگ برای بسیاری از الگوریتمهای یادگیری متفاوت، فراهم کرده است که از طریق آن روشهای پیش پردازش، پس از پردازش و ارزیابی نتایج طرح های یادگیری روی همه مجموعه های داده موجود، قابل اعمال است.
رقیق آلت Weka ، پیاده سازی الگوریتمهای مختلف یادگیری را فراهم میکند و به آسانی میتوان آنها را به مجموعه های داده خود اعمال کرد.
همچنین، این رقیق افزار شامل آلبوم متنوعی از ابزارهای تبدیل مجموعههای داده ها، همانند الگوریتمهای گسسته سازی میباشد. باب این محیط میتوان یک مجموعه داده را پیش پردازش کرد، آن را به سمت یک طرح یادگیری وارد نمود، و دستهبندی حاصله و کارآییاش را مورد تحلیل قرار داد. ( همه این کارها، بدون نیاز به سمت نوشتن هیچ قطعه برنامهای میسر است.)
این محیط، حاوی روشهایی برای همه مسایل استاندارد داده کاوی مانند رگرسیون، ردهبندی، خوشهبندی، کاوش قواعد انجمنی و انتخاب ویژگی میباشد. حرف باب نظر گرفتن اینکه، دادهها بخش مکمل کار هستند، بسیاری از ابزارهای پیش پردازش دادهها و مصورسازی آنها فراهم گشته است. همه الگوریتم ها، ورودیهای خود را به سمت چهره یک جدول رابطهای به فرمت ARFF دریافت میکنند. این فرمت دادهها، میتواند از یک فایل صفت شده یا به سمت وسیله یک درخواست از پایگاه دادهای تولید گردد.
یکی از راههای به کارگیری Weka ، اعمال یک آیین یادگیری به یک مجموعه داده و تحلیل خروجی آن برای شناخت چیزهای بیشتری راجع به سمت آن اطلاعات میباشد. راه دیگر استفاده از مدل یادگیری شده برای تولید پیشبینیهایی در مناسبت نمونههای جدید است. سومین راه، اجرا یادگیرندههای جوراجور و مقایسه کارآیی آنها به منظور انتخاب یکی از آنها برای تخمین میباشد. روشهای یادگیری Classifier نامیده میشوند و باب واسط تعاملی Weka ، میتوان هر یک از آنها را از منو انتخاب نمود. بسیاری از classifier ها پارامترهای قابل تنظیم دارند که میتوان از طریق صفحه ویژگیها یا object editor به سمت آنها دسترسی داشت. یک تنها ارزیابی مشترک، برای اندازهگیری کارآیی همه classifier به کار میرود.
پیاده سازیهای چارچوبهای یادگیری واقعی، منابع بسیار ارزشمندی هستند که Weka فراهم می کند. ابزارهایی که برای پیش پردازش دادهها استعمال میشوند Filter نامیده میشوند. همانند classifier ها، میتوان filter ها را از منوی مربوطه انتخاب کرده و آنها را حرف نیازمندیهای خود، آمیزگار نمود. باب ادامه، به آیین به کارگیری فیلترها اشاره میشود.
علاوه بر موارد فوق، Weka شامل پیاده سازی الگوریتمهایی برای یادگیری آداب انجمنی، خوشهبندی دادهها باب جایی که هیچ دستهای تعریف نشده است، و انتخاب ویژگیهای مرتبط در دادهها میباشد.
تعداد صفحات :80
فرمت فایل : Word
باب این تحقیق داده کاوی مورد بحث رسم می گیرد . علل استفاده از داده کاوی و منابعی که داده کاوی حرف روی آنها اعمال می شود ,علاوه بر این اجمال ای از روشهای رایج داده کاوی ارائه شده است . تکنیکهای داده کاوی و قوانین وابستگی و الگوریتمهای موجود (Apriori , Aprior TID, Partition, Eclat ,Max Eclat , Vector ) و الگوریتم حرف ساختار Trie وfp grow و الگوریتمهای کاهشی مناسبت بررسی قرار می گیرند و در هر مورد مثالها , موارد کاربرد ,تکنیکها و نقاط قوت و ضعف مورد بررسی قرار گرفته اند.
فهرست :
جوهره
مقدمه
انکشاف دانش در رتبه داده
آیا داده کاوی از بهر اسم مسائل ما مناسب است؟
جمع آوری داده ها
بکارگیری نتایج
استراتژیهای داده کاوی
پیش گویی Perdiction
Unsupervised Clustering دسته بندی بری کنترل
تکنیکهای داده کاوی تحت بازدید
شبکه عصبی
برگشت آماری
قوانین وابستگی
الگوریتم Apriori
الگوریتم Aprior TID
الگوریتم partition
الگوریتم های MaxEclat,Eclat
الگوریتم با ساختار trie
الگوریتم fp-grow
ساخت fp- tree
Fp-tree شرطی
الگوریتم برداری
حفاظت قوانین وابستگی
الگوریتم کاهشی
تا به امروز رقیق افزارهای تجاری و آموزشی فراوانی برای داده کاوی باب حوزه های مختلف داده ها به دنیای علم و فناوری عرضه شده اند. هریک از آنها با توجه به سمت نوع اصلی داده هایی که مورد کاوش رسم میدهند، روی الگوریتمهای خاصی متمرکز شده اند. مقایسه دقیق و علمی این ابزارها باید از جنبه های متفاوت و متعددی مانند تنوع اشکال و فرمت داده های ورودی، حجم ممکن برای پردازش داده ها، الگـوریتمهای پیاده سـازی شده، روشهای ارزیابی نتایج، روشهای مصـور سـازی، روشهای پیش پردازش داده ها، واسطهای کاربر پسند، پلتفرمهای آمیزگار برای اجرا،قیمت و در دسترس بودن نرم افزار صورت گیرد. از آن میان، نرم آلت Weka با داشتن امکانات بسیار گسترده،امکان مقایسه خروجی روشهای مختلف با هم، راهنمای خوب، واسط گرافیگی کارا، سازگاری با سایر برنامه های ویندوزی، و از همه مهمتر وجود کتابی بسیار جامع و پیوسته با آن [Data Mining, witten et Al. 2005 ] ، معرفی میشود.
1- شناسایی نرم افزار Weka
میزکارWeka ، مجموعهای از الگوریتمهای روز یادگیری ماشینی و ابزارهای پیش پردازش دادهها میباشد. این نرمافزار به گونهای طراحی شده است که میتوان به سرعت، روشهای حاضر را به صورت انعطافپذیری روی مجموعههای جدید داده، آزمایش نمود. این نرمافزار، پشتیبانیهای ارزشمندی را برای کل فرآیند داده کاوی های تجربی فراهم میکند. این پشتیبانیها، آماده سازی دادههای ورودی، ارزیابی آماری چارچوبهای یادگیری و نمایش گرافیکی دادههای ورودی و نتایج یادگیری را در بر میگیرند. همچنین، سازگار با دامنه وسیع الگوریتمهای یادگیری، این نرمافزار شامل ابزارهای متنوع پیش پردازش دادههاست. این جعبه ابزار متنوع و جامع، از طریق یک واسط متداول در دسترس است، به نحوی که کاربر میتواند روشهای دیگرسان را باب آن با یکدیگر مقایسه کند و روشهایی را که برای مسایل مدنظر مناسبتر هستند، تشخیص دهد.