نقل قول:
نوشته اصلي بوسيله aminkop
سلام
1.بطور کلی که شما باید با پیش پردازش و بعد مباحث مربوط به feature selection ویژگی های مناسب را شناسایی کنید یا اینکه در کاربرد هایی از خبره استفاده می کنند حالا اگر بخواهید از بعضی تکنیک های طبقه بندی(مثلا درخت های تصمیم, چون خودشون معیار تفکیک دارند) یا در مواردی که کاهش ابعاد می دهید دیگه ویژگی های مهم خودشون را بهتر نشان می دهند لازم نیست زیاد از ابتدای کار نگرانشون باشید منظورم این بود که در این مرحله با این مباحث زیاد درگیر نشوید (البته سریعترین راه این است که شما بر اساس مقاله معتبری وِیژگی هایی که استفاده کرده را انتخاب کنید و ببنید تا چه اندازه در اختیار دارید و یا می توانید استخراج کنید)
2.در داده کاوی نمیشه گفت از چه نرم افزاری دلم می خواد استفاده کنم بلکه ابتدا نیاز سنجی می کنید بعد میگید بر اساس کاربرد و کارائی کدام را بر میدارم مگر اینکه مورد مشترکی از لحاظ کارائی باشه که حالا بر اساس معیار های خودتون موردی را انتخاب می کنید.
سعی می کنم مختصر توضیحی برای نحوه انتخاب ابزار بدهم:
زمانی که شما نیاز دارید الگوریتم های متفاوتی را با هم مقایسه کنید یا کار پژوهشی است یا بیشترین ساپورت از الگوریتم ها مثلا از Weka استفاده می کنید. اگر کار تجاری است و ارتباط با پایگاه داده های متفاوت و یا داده کاوی آنلاین لازم دارید و خروجی جالب می خواهید می روید سراغ Celementine. اگر می خواهید در KDDCup یا مسابقات داده کاوی شرکت کنید شک نکنید که باید ازRapidMiner استفاده کنید.و موارد دیگر, البته موارد زیادی را برای تصمیم گیری در هر مرحله هم میشه در نظر گرفت و شاید لازم باشه الگوریتمی را تغییر دهید یا به نرم افزاری اضافه کنید که باید سهولت و امکان آن را در نظر بگیرید پس می بینید که صرف چندم بودن در یک رنکینگ نمیشه تصمیم گیری کرد.
هیچ اصراری برای استفاده از ابزار خاصی ندارم ولی مثلا همین جا در این کار شما فک نکنم چند الگوریتمی که می خواهیم ازش استفاده کنیم در celementine باشه.
3. Outlier Detection یکی از مباحث جالب در داده کاوی است اما outlier (یا برون هشته) یعنی داده ای خارج از بازه عمومی داده ها یا الگوی داده ای با رفتار متفاوت یا غیر طبیعی از الگوی عمومی داده ها که البته میتونه نشان دهنده داده نویز هم باشه . تشخیص این مورد یا موارد کاربرد های زیادی در حوزه های متفاوت داره مثلا در پزشکی رفتار غیر عادی یکسری پروتئین می تونه نشاندهنده بیماری جدیدی باشه در ورزش میشه یک بازیکن با کارائی بالا یا خیلی پائین را تشخیص داد در مباحث مرتبط با تجارت, بیمه, بانکداری میشه کلاهبرداری (fraud detection) انجام داد یک مثال جالب براتون از کلاهبرداری در بانکداری بزنم: اگر یک کارمند از حساب هر نفر روزانه فقط یک ریال برداره هیچ جستجوی آماری یا کوئری خاصی نمی توانید در نظر گرفته باشید که این کار را تشخیص بده حتی صاحبان حساب هم هرگز برای این کسری پیگیری نخواهند کرد ولی این فرد توانسته مبالغ هنگفتی کلاهبرداری کنه اما داده کاوی براحتی این الگوها را می تواند جدا کند.
اما تکنیک های مرسوم که البته بر اساس ساختارهایی دسته بندی می شوند که وارد بحثش نمی شوم که اغلب این موارد هستند:
box plot (اگر داده ها از یک محدوده خاصی از داده های عمومی دور باشه outlier هستند).
رگرسیون (یک خطی که بصورت رگرسیونی بیشتری پوشش روی داده ها را می دهد در نظر می گیرند و موارد خیلی دور افتاده مشکوک به outlier هستند ) که میتونه چند گانه هم باشه.
clustering (از روشهای خوشه بندی برای تعیین موارد outlier استفاده میشه) که در این میان بعضی روش ها نیاز به تعین تعداد خوشه ندارند و خودکار عمل می کنند مانند همان روش DBScan که قبلا گفتم.
مبتی بر توضیع (مثلا تعیین می کنید عموما داده هاتون از یک توضیع خاصی پیروی می کنه مثل توضیع نرمال بعد موارد خارج از آن میشه outlier)
classification (برای استفاده از این مورد باید قبلا در داده هاتون موارد و الگوهای خاص را شناسایی کرده باشید و لیبل زده باشید که آموزش بدهید و پس از آن بتوان موارد outlier را تشخیص داد )
منابع هم زیاد است کافی است در اینترنت جستجو کنید.
4. بله فعلا مناسب به نظر می رسه (البته نگاه به مقاله را هم تاکید کردم دیگه).
امیدوارم مفید واقع گردد.
|
سلام اقاي aminkop
ممنون از پاسختون:
مي خواستم بدونم اون قسمتي كه گفتيد اگر شخصي روزانه از حساب هركس 1000 تومان بردارد هيچ روش اماري و كويري نميتواند ان را شناسايي كند اما الگوريتم هاي داده كاوي اين كا رو انجام ميدن.منظورتون از الگوريتم هاي داده كاوي ميتون اين باشه كه اگه از خوشه بندي استفاده شده تعداد كم خوشه ها ميتون مورد مشكوك و ا جرم باشه؟اگه مورد مشكوك چه جوري اون مورد مشكوكو بررسي ميكنن؟؟؟؟ممنون