تقاضای راهنمایی به یک تازه کار - Artificial Intelligence

weka1 · ۰۴-۱۱-۱۳۹۰, ۰۱:۴۷ بعد از ظهر

من در زمینه داده کاوی مطالعاتی داشته ام( کتابهای Ian, Han) و برخی مقالات فارسی و لاتین موجود را تا حدی دیده ام و در حد بررسی option های نرم افزار weka با آن آشنایی دارم. اما هیچ کار عملی با داده های تستی یا واقعی انجام نداده ام.
می خواهم بدانم باداده های UCI چه کاری می توانم انجام بدهم آیا فایده ای دارد روی آنها زمان بگذارم یا به دنبال داده واقعی باشم؟

با هدف تولید مقاله و تحلیل داده های واقعی چه کاری انجام دهم و از کجا شروع کنم؟

اگر کسانی باشد که بخواهند کاری انجام دهد من هم علاقمندم در تیمشان همکاری داشته باشم.

**taha_mokfi** · ۰۴-۱۲-۱۳۹۰, ۱۲:۲۱ بعد از ظهر

رشتتون و سطح تحصیلاتتون رو می تونم بپرسم؟

اگر منظورتون از داده های UCI همون داده های دانشگاه کالیفرنیا هستش باید بگم که از این داده ها خیلی توی مقالات استفاده شده. برای مقالاتی که Casestudy هستند شاید به اگر برای مجلات معتبر بفرستید از داده هاتون ایراد بگیرند. اما خوبیه این پایگاه اینه که هر سال چند تا مجموعه داده جدید اضافه می کنه. البته سایت های دیگری نیز در این زمینه هستند.

نرم افزار weka یه مشکل اصلی داره اونم اینه که یکم الکی زیادی از رم کامپیوتر استفاده می کنه و بدتر از اون با داده هایی که خوب پاکسازی نشده اند کلا مشکل داره. اما از لحاظ تعداد الگوریتم ها و روش های داده کاوی تقریبا از همشون ساپورت می کنه.

پیشنهاد من برای شروع کار Clementine هستش. اینتر فیس این نرم افزار خیلی user friendly هستش و با داده های پاکسازی نشده و تبدیل نشده و ازدست رفته خیلی مشکل نداره ولی ضعف اصلیش اینه که تعداد الگوریتم هایی که ساپورت می کنه کمتره. البته اگر توی کلمنتین خبره بشید کار با بقیه برنامه ها خیلی آسون تر می شه. اگر از نرم افزارهای اپن سورس می خواهید استفاده کنید rapid miner هم خیلی بهتر از weka هستش. البته وکا هنوز توی open source ها جز بهترین هاست.

در خصوص پروژه عملی پیشنهاد می کنم خودت از امروز برو دنبالش. توی ایران فعلا مدیرانمون معنی میانگین رو نمی دونند چه برسه بتونند نتایج داده کاوی رو هضم کنند.

من خودم امروز بعد یه سال معلوم شد که یه پروژه خیلی خوب داده کاویم تصویب شده.

weka1 · ۰۴-۱۳-۱۳۹۰, ۱۱:۱۷ قبل از ظهر

ممنون از پاسختون
من رشته تحصیلیم کامپیوتر است. 10 سال است که کارشناسی ارشد مهندسی نرم افزار دارم و الان هم به دلیل شرایطی، شدیدا احتیاج به تولید مقاله دارم.
اینکه نوشته اید مدیرانمان حتی نمی دانند میانگین چیه خیلی نا امید کننده است آیا پیشنهاد کار دارید آیا می توانم در پروژه شما همکاری کنم؟

weka1 · ۰۴-۱۳-۱۳۹۰, ۰۱:۵۴ بعد از ظهر

با سالم دوباره
من چند تا سوال دارم:
1- الان که کمی از کتاب han و کتاب Ian و تعدادی مقاله خواندم و با feature های وکا هم تا حدودی آشنا شدم، در قدم بعدی چه کار کنم؟(آیا با داده های تستی چند الگوریتم اجرا کنم و نتایج آنها را مقایسه نمایم؟ اگر بله معیار مقایسه را چه قرار دهم؟)

2-آیا نرم افزار clementine هم مثل weka رایگان است؟

**taha_mokfi** · ۰۴-۱۸-۱۳۹۰, ۰۵:۵۸ بعد از ظهر

سلام:
متاسفانه فعلا 2 گروه داریم که تکمیل هستند ولی امیدوارم بعدا بتونم از طریق همین سایت تبلیغی برای تشکیل گروه های داده کاوی انجام بدم.
در خصوص clementine هم بله رایگان ورژن 12 رو می تونید دانلود کنید. پیدا کردن لینکش خیلی سخت نیست.
مهم اینه که در چه حوزه ای می خواهید مقاله بدید؟
آیا می خواهید توی حوزه پیش بینی با استفاده از داده کاوی کار کنید یا تشریح وضعیت موجود؟
کار با نرم افزارها خیلی سخت نیست بیشتر به فکر مفاهیم و درک مفاهیم و اصول باشید

weka1 · ۰۴-۱۹-۱۳۹۰, ۰۷:۲۰ قبل از ظهر

با سلام
ممنون از پاسختان
منتظر خبر شما برای تشکیل گروه هستم

weka1 · ۰۴-۲۸-۱۳۹۰, ۱۰:۴۱ قبل از ظهر

با سلام
لطفا اگر کسی فایل پاور پوینت کنفرانس دکتر نخعی در اصفهان را در مورد داده کاوی دارد در اختیار قرار دهد. ضمنا فهرست سخنرانی ایشان به صورت زیر بوده است:

شماره اسلاید زمان موضوع فایل صوتی
۰:۰٤:٥۳ ۱ معرفی
۱ ۱
۰:۲۱:٥۸ ۱ منابع داده کاوی
۰:۲٥:٤۰ ۱ چرا داده کاوی؟
۰:۲۸:٤٥ ۱ چند نمونه مجموعه داده واقعی
۰:٤۱:٥۲ ۱ داده کاوی چيست؟
۰:٥۱:۰٥ ۱ انواع الگ وها
Text mining & web mining ۱:۱۰:۱٤ ۱
۱:۱٤:۳۰ ۱ انبار داد هها
۱:۱٦:۳٦ ۱ ابزار داده کاوی
۱:٤۱:۰۰ ۱ کنفرانسهای داده کاوی
۱:٤۷:۲۳ ۱ داده کاوی در ایران
۱:٥٥:۰۰ ۱ کنفرانسهای دیگر
۱:٥۷:٥٦ پاسخ به سوالات
۲:۰٥:۳٥ ۲ فرایند داده کاوی
CRISPDM
۲:۸:۰۱ ۲ استاندارد
Clementine ۲:۱۲:۱۰ ۲ معرفی ابزار
Business Understanding ۲:۱۸:٥۸ ۲
جمع آوری داده ها , Data Understanding ۲:۲۳:۱٥ ۲
۲:۳٤:۱۰ ۲ منابع دادهء تحقيقاتی
۲:۳٦:٤۹ ۲ توصيف داده ها
۲:٤۲:٤۰ ۲ مشاهده و صفت
۲:٥۰:۰۰ پاسخ به سوالات
۰٤:٤٥ ۲ معرفی شرکت کنندگان از صنایع و سازمانها
٤۸:۱۹ ۲ آ شنایی با ساختار صفات مختلف
٥۱:۳۳ ۲ صفات اسمی
٥۳:۳۸ ۲ صفات ترتيبی
۱ ۲
٥٦:۱٥ ۲ صفات فاصله ا ی /نسبی
۱:۰۱ ۲ صفات گسسته
۱:۰۳:۳٦ ۲ صفات پيوسته
۱:۰٤:۳۳ ۲ دسته بندی اعداد
crosssection
data ۱:۰٥:۱۷ ۲
time series data ۱:۰۷:۰۰ ۲
panel data ۱:۰۷:٥۰ ۲
sequence data ۱:۰۹:۳۲ ۲
data streams ۱:۱۰:۳۰ ۲
۱:۱۲:۳۸ ۲ اعداد مکانی
special temporal data ۱:۱۳:۰۹ ۲
transaction data ۱:۱۳:٤٥ ۲
text and web data ۱:۱٤:۱۰ ۲
multimedia data ۱:۱٤:۲۲ ۲
۱:۲۱:۱۰ ۲ مثال های از انواع اعداد
data exploration ۱:۲۹:۱۰ ۲
۱:۳٦:۳۰ ۲ معيارهای پراکندگی
data cleaning ۱:٤۰:٤۰ ۲
Data Understanding ۱:٤۳:۰٤ ۲ مروری بر
۱:٤٥:۱٤ پاسخ به پرسش ها
Data Preparation ۰۰: ۰٥ :٤۳ ۲
۲ ۱
Data Selection ۰۰:۸:٤۰ ۲
Observation Reduction ۰۰:۱۰:۳۰ ۲
۰۰:۱۱:٥۹ ۲ نمونه گيری هوشمند
۰۰:۱٦:۳۸ ۲ روشهای نمونه گيری
۰۰:۲٥:۲۳ ۲ نمونه گيری تصادفی
۰۰:۲۸:۳۷ ۲ نمونه گيری سيستماتيک
۰۰:۳۲:۲۰ ۲ نمونه گيری طبقه ای
Clementine ۰۰:۳۷:۰٦ ۲ نمونه گيری با
supervised & unsupervised learning ۰۰:٤۹:۰٥ ۲
۱:۰۰:۱۰ ۲ انواع مدل ها
۱:۰۱:۲۷ ۲ رده بندی
۱:۰٦:٥٤ ۲ پيش بينی
۱:۰۸:۰۸ ۲ خوشه بندی
۱:۱۰:٥۹ ۲ شناسایی انحرافات
۱:۱۲:٥۰ ۲ همبستگی
۱:۱۳:٥۰ ۲ قوانين پيوند
۱:۳۱:٤۰ ۲ مثا لهایی از مدل سازی
۱:٤۱:۲۷ ۲ مثال هایی از پي شبينی
۱:٤۹:۳۰ ۲ مقایسه مد لها
۱:٥٤:٥۰ ۲ روش های ارزیابی مد لها
test و train ۱:٥۹:۰٦ ۲ تقسيم داده ها به
Clementine ۲:۰٥:۰۰ مثال د ر
۲:۱۰:٥۸ ۲ تعيين ضریب دقت مدل
Confusion Matrix در مورد Clementine ۲:۲۰:۰۰ ۲ آموزش
۲:۲۸:٤۰ ۲ ارزیابی مدل برای متغير هدف پيوسته
Evaluation ۲:۳٥:۳۳ ۲
SAS استاندارد شرکت SEMA
۲:۳۸:٤۸ ۲
۲:٤۱:۳۳ پاسخ به سوالات
۰۰:۰۰:۰۰ ۸ ترکيب بهينه تيم داده کاوی / فاکتورهای موفقيت پروژه
۲ ۲
۰:۳٤:۳۰ ۲ رو شهای انتخاب متغير
Clementine ۰:٥۳:۱٤ ۲ انتخاب متغير با
Embedded Methods ۱:۰٤:۰۰ ۲
Wrapper Methods ۱:۰٦:٤۰ ۲
Forward & Backward Selection ۱:۱۰:۲٥ ۲
PCA ۱:۱۲:۳۰ ۲
۱:۲۳:۰۰ پاسخ به سوالات
Data Cleaning ۱:۳۲:۲۰ ۲
۱:۳٤:۲۰ ۲ مقادیر گمشده
۱:٤۲:۱۷ ۲ مقادیر غير دقيق و نادرست
۱:٤٥:۰۰ ۲ داده های تکراری
۱:٤۸:۱۲ ۲ نقاط دور افتاده
۱:٥۳:٤۰ ۲ استاندارد سازی
۱:٥۹:۱۰ ۲ گسسته سازی
۲:۰۰:۲۸ ۲ تلفيق داده ها و کد گذاری
۲:۰۱:٤٦ ۲ تعيين مسئله
۲:۰٤:۱۲ ۲ بهينه سازی
۲:۰۷:۱٥ ۲ مرور فرایند داده کاوی
۲:۱۰:٥۰ پاسخ به سوالات
۰۰:۰۰:۰۰ ٤ درخت های تصميم گيری
۳ ۱
Overfitting ۰۰:۲۱:٥۳ ٤
Clementine ۰۰:۲٥:٤۷ ٤ مثال هایی با
۰۰:٥۰:۰۰ ٤ بُرد اطلاعاتی ٬ آنتروپی
۱:۲۱:٤٤ ٤ پاسخ به سوالات
۱:۳۰:۰۰ ٤ شاخص جينی
۱:٤۰:۱۰ ٤ هرس کردن درخت تصميم
۱:٤٤:٤٦ ٤ مزایا و معایب درخت های تصميم
۱:٥۰:۳٥ ٥ قوانين پيوند
۱:٥۳:۱۰ ٥ الگوهای مکرر
Support & Confidence ۰۲:۰٥:۰٤ ٥
Apriori ۰۲:۱۸:٤٥ ٥ اصول
Apriori ۲:۲٤:۲٦ ٥ الگوریتم
Clementine ۲:۲۹:۲۸ ٥ قوانين پيوند در
۲:۳٦:۳۰ پاسخ به سوالات
OLAP ۰۰:۰٦:۰۲ ۳
۳ ۲
Data Warehouse ۰۰:۲٤:۲۰ ۳
۰۰:۳٤:٥٥ پاسخ به سوالات
۰۰:۳۹:٥٤ ٦ رگرسيون و شبکه های عصبی مصنوعی
۰۰:٤۰:۲۸ ٦ رگرسيون ساده
۰۰:٥۲:۱٦ ٦ رگرسيون چند متغيره
Clementine ۰۰:٥۸:۱۰ ٦ رگرسيون در
۰۱:۰۳:٤٦ ٦ شبکه های عصبی مصنوعی
۰۱:۱۸:۰۹ ٦ ساختار شبکه های عصبی مصنوعی
۰۱:۲۰:۱۳ ٦ فرایند آموزش
۰۱:۳۹:۱۷ ٦ روشهای رمزگذاری و رمز گشایی
۰۱:٤٤:۰۳ ٦ انواع شبکه های عصبی مصنوعی
Clementine ۰۱:٥۸:۰٦ ٦ شبکه های عصبی مصنوعی در
۰۲:۰۸:٥۰ ۸ روند و آیندهء تحقيقات داده کاوی / کاربردهای داده کاوی , ۷

با سپاس و احترام