نقل قول:
نوشته اصلي بوسيله aminkop
سلام
ابتدا عذرخواهی بابت اینکه چند وقتی بود که نبودم و پیامتون را ندیدم.
بجاش سعی می کنم با یک راهکار عملی سریع و ساده سعی کنم یک دید مختصر نسبتا جالب پیدا کنین.
ابتدا یک توصیه تجربی برای پیش پردازش داده هاتون معمولا هر ویژگی که دارای اعداد یک بار تکرار شدنی است دور ریختنی است (مانند شماره پرسنلی, اعداد ترتیبی برای id, کد های تکرار نشدنی و ...) البته اگه این کار را هم انجام ندهید بعدا می توانید موارد بی اثر یا کم اثر را تشخیص دهید.
اگه مورد مطالعه شده خاصی مد نظرتون هست که بگید مرحله به مرحله جلو ببریمش (که صحیح تر هم این است که موارد مطالعه و عملی شده ای در حداقل یک مقاله را بررسی کرده باشید) اگر نه که مثلا برای شروع می توانید با پیدا کردن موارد outlier dtection یک تستی بکنی معمولا از روش های کلاسترینگ استفاده می کنن.
یک شروع عملی ساده:
0. ابتدا ویژگی های شاخصی که معمولا می تواند شامل تعداد تراکنش های حسابها و موارد منحصرا مالی را جدا کنید (این موارد بنظر می رسه می تونن یک الگوی خوبی برای رفتارهای خاص مالی هستند را نمایش بدهند.)
1. حالا شما برای شروع داده هاتون را (پس از تبدیل به فرمت CSV یا arff) وارد نرم افزار weka می کنین.
2. از preprocess فیل-تر RemoveUseless را انتخاب می کنی و Apply.
3. از Cluster مثلا الگوریتم DBScan را انتخاب می کنید.
--> نتیجه بدست آمده شامل چند مورد بدون خوشه است که این موارد مشکوک به وضعیت های غیر عادی از جمله کلاهبرداری می توانند باشند.(حالا اگر داده هاتون شامل ویژگی هایی که وجه تمایز یک کلاهبردار است یا اصلا مطمئن نیستید که کلاهبرداری انجام شده می تونید این موارد را زیر ذره بین ببرید که معمولا نشاندهنده یکسری حساب های با رفتار خاص است)
حتما از این نوع پیش بردن مساله تعجب کرده اید خوب هدفم این بود که ترس شما برای انجام یک پروسه اینجوری بریزه. حالا شما در مرحله بعد می خواهید ویژگی های حرفه ای تری انتخاب کنید که واقعا کلاهبردارها مشخص بشن یا مسائلی را مانند طبقه بندی مشتریان از نظر رفتار مالی و این قبیل مسائل پیش ببرید که پس از کمی مطالعات جهت دار که انجام می دهید و سوال براتون پیش میاد می توانیم بررسی کنیم و جلو ببریم.
موفق باشید
|
سلام ممنون از لطفتون اما در رابطه با توضیحی که دادید سوالای زیادی برام پیش اومد همونطور که گفته بودم تازه دارم شروع میکنم اولس ساید یک کم مشکل داشته باشم.
حالا میریم سراغ سوالا اول اینکه لازم نیست داده های دور ریختنی را بدست بیارم؟
دوم من از نرم افزار spss clementine میخوام استفاده کنم.
سوم یک کم در مورد روش outlier detection توضیح میدید یا یه منبع معرفی کنید.
چهارمموارد منحصر مالی که گفتید میتون موارد زیر باش؟
کد حساب،کد شعبه،کد تراکنش،بدهکار ،بستانکار،مبلغ بریال،نوع حساب،شماره ژورنال
از اینکه تا این مرحله هم من راهنمایی کردید خیلی خیلی ممنونم.