Artificial Intelligence - هوش مصنوعی

Artificial Intelligence - هوش مصنوعی (http://artificial.ir/intelligence/)
-   داده كاوی(Data mining) (http://artificial.ir/intelligence/forum61.html)
-   -   کمک فوری برای انجام داده کاوی در بانک و... (http://artificial.ir/intelligence/thread9263.html)

article ۰۲-۲۸-۱۳۹۰ ۰۸:۰۳ قبل از ظهر

کمک فوری برای انجام داده کاوی در بانک و...
 
سلام.
خواهش میکنم یکی به من کمک کن.:102::102::102:
من تو زمیینه داده کاوی در بانک کشاورزی چه کارهایی میتونم انجام بدم؟
خودم اینا به ذهنم رسید:
1.بکارگیری تکنیک داده کاوی جهت بهبود مدیریت ارتباط با مشتری در صنعت بانکداری.
2.پیش بینی وضعیت مشتریان.
3.تحلیل رضایتمندی مشتریان با استفاده از تکنیک های داده کاوی
4.بررسی و کاربرد و تاثیر استفاده از داده کاوی در حوزه بانکداری.
که این کارو با چه تکنیک هایی انجام بدم ؟و در این راستا از نرم افزار spss 17 استفاده میکنم.
اگه کسی اطلاع داره من راهنمایی کن.:28::28:

aminkop ۰۲-۲۸-۱۳۹۰ ۱۲:۰۶ بعد از ظهر

سلام
بطور کلی موارد زیر در کاربرد داده کاوی در بانکداری مطرح است:
1.Marketing
2. Risk Management
3. Fraud detection
4. Customer Retention

مراجع :
1. B..Desai andAnita Desai, "The Role of Data mining in Banking Sector",IBA Bulletin ,2004.
2.Dr.Madan Lal Bhasin, "Data Mining:A Competitive Tool in the Banking and Retail Industries",The Chartered Accountant October ,2006.


درباره ابزار هم موارد زیادی وجود داره که بسته به اینکه می خواهید چه خروجی داشته باشه یا برنامه نویسی هم بکنید بعنوان ارائه یک نرم افزار یا فقط بصورت پژوهشی در موردش تصمیم گیری می کنید (منظورتون spss celemantine 12 است که ابزار داده کاوی است و کار شما را ساپورت می کنه و گرنه spss آماری که مواردی که می خواهید را پوشش نمی دهد.)
اگر در مورد نوع داده هایی که دسترسی دارید اطلاعات بیشتری بدهید میشه در مورد کاربرد های دیگه و انجامشان بحث کرد.

taha_mokfi ۰۲-۲۹-۱۳۹۰ ۱۲:۰۱ قبل از ظهر

به جز مورد سوم یعنی تحلیل رضایتمندی مشتریان با استفاده از تکنیک های داده کاوی، خیلی موضوع بهتری هست. بقیه موضوع ها خیلی کلی مطرح شده و باید ریز تر باشه. شما از SPSS17 هم می تونید به منظور این کار استفاده کنید. اما خوب SPSS clementine 12 هم نرم افزار تخصصی داده کاوی هست اگر بتونید باهاش کار کنید خیلی بهتره. چند روز آینده اسلایدهای سمینار داده کاوی رو توی انجمن شیر می کنیم. توی این اسلایدها خیلی از کاربردها به صورت دقیق و همراه با الگوریتم های مورد نیاز ذکر شده.

hony ۰۲-۲۹-۱۳۹۰ ۰۲:۲۹ بعد از ظهر

irandataminer.ir در بخش عمومی یک مقاله فارسی در این زمینه گذاشته است

article ۰۳-۱۰-۱۳۹۰ ۱۱:۰۸ قبل از ظهر

نقل قول:

نوشته اصلي بوسيله aminkop (پست 18494)
سلام
بطور کلی موارد زیر در کاربرد داده کاوی در بانکداری مطرح است:
1.marketing
2. Risk management
3. Fraud detection
4. Customer retention

مراجع :
1. B..desai andanita desai, "the role of data mining in banking sector",iba bulletin ,2004.
2.dr.madan lal bhasin, "data mining:a competitive tool in the banking and retail industries",the chartered accountant october ,2006.


درباره ابزار هم موارد زیادی وجود داره که بسته به اینکه می خواهید چه خروجی داشته باشه یا برنامه نویسی هم بکنید بعنوان ارائه یک نرم افزار یا فقط بصورت پژوهشی در موردش تصمیم گیری می کنید (منظورتون spss celemantine 12 است که ابزار داده کاوی است و کار شما را ساپورت می کنه و گرنه spss آماری که مواردی که می خواهید را پوشش نمی دهد.)
اگر در مورد نوع داده هایی که دسترسی دارید اطلاعات بیشتری بدهید میشه در مورد کاربرد های دیگه و انجامشان بحث کرد.

سلام ممنون از توجتون
نوع داده هایی که من در اختیار دارم به این صورتند:
اطلاعات گزارش اسنادی(کد شعبه،شماره ژورنال،کد حساب،کد تراکنش،کد زیر نوع حساب،بدهکار،بستانکار،نام صادرکننده)
(نوع حساب،مبلغ بریال،مبلغ ارز،شرح محصول،محصول،شرح حساب،کد دفتر کل، شماره حساب،شرح تراکنش،کد تراکنش،نام شعبه عمل کننده،کد شعبه،شماره ژورنال)
و با استفاده از این اطلاعات میخوام کشف جرایم مالی در داده کاوی را بررسی کنم با این داده ها میتونم؟

article ۰۳-۱۰-۱۳۹۰ ۱۱:۰۹ قبل از ظهر

نقل قول:

نوشته اصلي بوسيله taha_mokfi (پست 18512)
به جز مورد سوم یعنی تحلیل رضایتمندی مشتریان با استفاده از تکنیک های داده کاوی، خیلی موضوع بهتری هست. بقیه موضوع ها خیلی کلی مطرح شده و باید ریز تر باشه. شما از spss17 هم می تونید به منظور این کار استفاده کنید. اما خوب spss clementine 12 هم نرم افزار تخصصی داده کاوی هست اگر بتونید باهاش کار کنید خیلی بهتره. چند روز آینده اسلایدهای سمینار داده کاوی رو توی انجمن شیر می کنیم. توی این اسلایدها خیلی از کاربردها به صورت دقیق و همراه با الگوریتم های مورد نیاز ذکر شده.

سلام ممنون از لطفتون
کشف جرایم مالی چطور؟

taha_mokfi ۰۳-۱۱-۱۳۹۰ ۱۲:۰۷ قبل از ظهر

داده هاتون نسبتا خوبه می تونید از Fraud detection استفاده کنید. البته اگه این داده هاتون مربوط به شعبات خیلی بهتره که سن و جنسیت ریئس شعبه توش باشه و اگر مربوط به حساب های شخصی هست باز هم بهتره این دو متغیر توش باشه. جنسیت و سن و میزان تحصیلات در کشف جرائم شخصی از جمله متغیرهای مهم هست. اما اگر می خواهید درباره شعبات این کار را انجام دهید این متغیرها نیاز نیست.

article ۰۴-۲۷-۱۳۹۰ ۰۳:۴۹ بعد از ظهر

نقل قول:

نوشته اصلي بوسيله taha_mokfi (پست 18830)
داده هاتون نسبتا خوبه می تونید از fraud detection استفاده کنید. البته اگه این داده هاتون مربوط به شعبات خیلی بهتره که سن و جنسیت ریئس شعبه توش باشه و اگر مربوط به حساب های شخصی هست باز هم بهتره این دو متغیر توش باشه. جنسیت و سن و میزان تحصیلات در کشف جرائم شخصی از جمله متغیرهای مهم هست. اما اگر می خواهید درباره شعبات این کار را انجام دهید این متغیرها نیاز نیست.

سلام وقتتون بخیر
ممنون
یعنی از این یه متغییر فقط استفاده کنم ؟منالان باید وابستگی بین این سه متغییر را بدست بیارم؟یه ذره من راهنمایی میکنید؟

taha_mokfi ۰۴-۳۰-۱۳۹۰ ۱۱:۵۶ قبل از ظهر

کشف تقلب با استفاده از داده کاوی
 
1(ها)ضميمه
نه منظورم فقط استفاده از این 3 متغیر نبود. منظورم رو بد رسوندم. بیشتر می خواستم بگم از متغیرهایی که رایج هستند بیشتر استفاده کنید. مثلا ببینید در تحقیقات بیشتر از چه متغیرهایی استفاده شده شما هم سعی کنید علاوه بر سایر متغیرها این متغیرها رو حتما استفاده کنید. یه مقاله بسیار بسیار خوب در زمینه کشف تقلب براتون آپلود کردم که در زیر هست. این یک مقاله مروری هستش و کلا تمامی مقالات در حوزه کشف تقلب با استفاده از داده کاوی رو مرور کرده. این مقاله شما رو در زمینه کشف تقلب حتما راهنمایی می کنه.

aminkop ۰۴-۳۰-۱۳۹۰ ۰۴:۵۷ بعد از ظهر

نقل قول:

نوشته اصلي بوسيله article (پست 18817)
سلام ممنون از توجتون
نوع داده هایی که من در اختیار دارم به این صورتند:
اطلاعات گزارش اسنادی(کد شعبه،شماره ژورنال،کد حساب،کد تراکنش،کد زیر نوع حساب،بدهکار،بستانکار،نام صادرکننده)
(نوع حساب،مبلغ بریال،مبلغ ارز،شرح محصول،محصول،شرح حساب،کد دفتر کل، شماره حساب،شرح تراکنش،کد تراکنش،نام شعبه عمل کننده،کد شعبه،شماره ژورنال)
و با استفاده از این اطلاعات میخوام کشف جرایم مالی در داده کاوی را بررسی کنم با این داده ها میتونم؟


سلام
ابتدا عذرخواهی بابت اینکه چند وقتی بود که نبودم و پیامتون را ندیدم.
بجاش سعی می کنم با یک راهکار عملی سریع و ساده سعی کنم یک دید مختصر نسبتا جالب پیدا کنین.

ابتدا یک توصیه تجربی برای پیش پردازش داده هاتون معمولا هر ویژگی که دارای اعداد یک بار تکرار شدنی است دور ریختنی است (مانند شماره پرسنلی, اعداد ترتیبی برای id, کد های تکرار نشدنی و ...) البته اگه این کار را هم انجام ندهید بعدا می توانید موارد بی اثر یا کم اثر را تشخیص دهید.

اگه مورد مطالعه شده خاصی مد نظرتون هست که بگید مرحله به مرحله جلو ببریمش (که صحیح تر هم این است که موارد مطالعه و عملی شده ای در حداقل یک مقاله را بررسی کرده باشید) اگر نه که مثلا برای شروع می توانید با پیدا کردن موارد outlier dtection یک تستی بکنی معمولا از روش های کلاسترینگ استفاده می کنن.

یک شروع عملی ساده:
0. ابتدا ویژگی های شاخصی که معمولا می تواند شامل تعداد تراکنش های حسابها و موارد منحصرا مالی را جدا کنید (این موارد بنظر می رسه می تونن یک الگوی خوبی برای رفتارهای خاص مالی هستند را نمایش بدهند.)
1. حالا شما برای شروع داده هاتون را (پس از تبدیل به فرمت CSV یا arff) وارد نرم افزار weka می کنین.
2. از preprocess فیل-تر RemoveUseless را انتخاب می کنی و Apply.
3. از Cluster مثلا الگوریتم DBScan را انتخاب می کنید.
--> نتیجه بدست آمده شامل چند مورد بدون خوشه است که این موارد مشکوک به وضعیت های غیر عادی از جمله کلاهبرداری می توانند باشند.(حالا اگر داده هاتون شامل ویژگی هایی که وجه تمایز یک کلاهبردار است یا اصلا مطمئن نیستید که کلاهبرداری انجام شده می تونید این موارد را زیر ذره بین ببرید که معمولا نشاندهنده یکسری حساب های با رفتار خاص است)

حتما از این نوع پیش بردن مساله تعجب کرده اید :106: خوب هدفم این بود که ترس شما برای انجام یک پروسه اینجوری بریزه. حالا شما در مرحله بعد می خواهید ویژگی های حرفه ای تری انتخاب کنید که واقعا کلاهبردارها مشخص بشن یا مسائلی را مانند طبقه بندی مشتریان از نظر رفتار مالی و این قبیل مسائل پیش ببرید که پس از کمی مطالعات جهت دار که انجام می دهید و سوال براتون پیش میاد می توانیم بررسی کنیم و جلو ببریم.

موفق باشید

article ۰۵-۳-۱۳۹۰ ۱۱:۲۹ قبل از ظهر

نقل قول:

نوشته اصلي بوسيله aminkop (پست 19455)
سلام
ابتدا عذرخواهی بابت اینکه چند وقتی بود که نبودم و پیامتون را ندیدم.
بجاش سعی می کنم با یک راهکار عملی سریع و ساده سعی کنم یک دید مختصر نسبتا جالب پیدا کنین.

ابتدا یک توصیه تجربی برای پیش پردازش داده هاتون معمولا هر ویژگی که دارای اعداد یک بار تکرار شدنی است دور ریختنی است (مانند شماره پرسنلی, اعداد ترتیبی برای id, کد های تکرار نشدنی و ...) البته اگه این کار را هم انجام ندهید بعدا می توانید موارد بی اثر یا کم اثر را تشخیص دهید.

اگه مورد مطالعه شده خاصی مد نظرتون هست که بگید مرحله به مرحله جلو ببریمش (که صحیح تر هم این است که موارد مطالعه و عملی شده ای در حداقل یک مقاله را بررسی کرده باشید) اگر نه که مثلا برای شروع می توانید با پیدا کردن موارد outlier dtection یک تستی بکنی معمولا از روش های کلاسترینگ استفاده می کنن.

یک شروع عملی ساده:
0. ابتدا ویژگی های شاخصی که معمولا می تواند شامل تعداد تراکنش های حسابها و موارد منحصرا مالی را جدا کنید (این موارد بنظر می رسه می تونن یک الگوی خوبی برای رفتارهای خاص مالی هستند را نمایش بدهند.)
1. حالا شما برای شروع داده هاتون را (پس از تبدیل به فرمت CSV یا arff) وارد نرم افزار weka می کنین.
2. از preprocess فیل-تر RemoveUseless را انتخاب می کنی و Apply.
3. از Cluster مثلا الگوریتم DBScan را انتخاب می کنید.
--> نتیجه بدست آمده شامل چند مورد بدون خوشه است که این موارد مشکوک به وضعیت های غیر عادی از جمله کلاهبرداری می توانند باشند.(حالا اگر داده هاتون شامل ویژگی هایی که وجه تمایز یک کلاهبردار است یا اصلا مطمئن نیستید که کلاهبرداری انجام شده می تونید این موارد را زیر ذره بین ببرید که معمولا نشاندهنده یکسری حساب های با رفتار خاص است)

حتما از این نوع پیش بردن مساله تعجب کرده اید :106: خوب هدفم این بود که ترس شما برای انجام یک پروسه اینجوری بریزه. حالا شما در مرحله بعد می خواهید ویژگی های حرفه ای تری انتخاب کنید که واقعا کلاهبردارها مشخص بشن یا مسائلی را مانند طبقه بندی مشتریان از نظر رفتار مالی و این قبیل مسائل پیش ببرید که پس از کمی مطالعات جهت دار که انجام می دهید و سوال براتون پیش میاد می توانیم بررسی کنیم و جلو ببریم.

موفق باشید

سلام ممنون از لطفتون اما در رابطه با توضیحی که دادید سوالای زیادی برام پیش اومد همونطور که گفته بودم تازه دارم شروع میکنم اولس ساید یک کم مشکل داشته باشم.
حالا میریم سراغ سوالا اول اینکه لازم نیست داده های دور ریختنی را بدست بیارم؟
دوم من از نرم افزار spss clementine میخوام استفاده کنم.
سوم یک کم در مورد روش outlier detection توضیح میدید یا یه منبع معرفی کنید.
چهارمموارد منحصر مالی که گفتید میتون موارد زیر باش؟
کد حساب،کد شعبه،کد تراکنش،بدهکار ،بستانکار،مبلغ بریال،نوع حساب،شماره ژورنال
از اینکه تا این مرحله هم من راهنمایی کردید خیلی خیلی ممنونم.

aminkop ۰۵-۴-۱۳۹۰ ۰۸:۵۳ قبل از ظهر

نقل قول:

نوشته اصلي بوسيله article (پست 19511)
سلام ممنون از لطفتون اما در رابطه با توضیحی که دادید سوالای زیادی برام پیش اومد همونطور که گفته بودم تازه دارم شروع میکنم اولس ساید یک کم مشکل داشته باشم.
حالا میریم سراغ سوالا اول اینکه لازم نیست داده های دور ریختنی را بدست بیارم؟
دوم من از نرم افزار spss clementine میخوام استفاده کنم.
سوم یک کم در مورد روش outlier detection توضیح میدید یا یه منبع معرفی کنید.
چهارمموارد منحصر مالی که گفتید میتون موارد زیر باش؟
کد حساب،کد شعبه،کد تراکنش،بدهکار ،بستانکار،مبلغ بریال،نوع حساب،شماره ژورنال
از اینکه تا این مرحله هم من راهنمایی کردید خیلی خیلی ممنونم.

سلام
1.بطور کلی که شما باید با پیش پردازش و بعد مباحث مربوط به feature selection ویژگی های مناسب را شناسایی کنید یا اینکه در کاربرد هایی از خبره استفاده می کنند حالا اگر بخواهید از بعضی تکنیک های طبقه بندی(مثلا درخت های تصمیم, چون خودشون معیار تفکیک دارند) یا در مواردی که کاهش ابعاد می دهید دیگه ویژگی های مهم خودشون را بهتر نشان می دهند لازم نیست زیاد از ابتدای کار نگرانشون باشید منظورم این بود که در این مرحله با این مباحث زیاد درگیر نشوید (البته سریعترین راه این است که شما بر اساس مقاله معتبری وِیژگی هایی که استفاده کرده را انتخاب کنید و ببنید تا چه اندازه در اختیار دارید و یا می توانید استخراج کنید)

2.در داده کاوی نمیشه گفت از چه نرم افزاری دلم می خواد استفاده کنم بلکه ابتدا نیاز سنجی می کنید بعد میگید بر اساس کاربرد و کارائی کدام را بر میدارم مگر اینکه مورد مشترکی از لحاظ کارائی باشه که حالا بر اساس معیار های خودتون موردی را انتخاب می کنید.

سعی می کنم مختصر توضیحی برای نحوه انتخاب ابزار بدهم:
زمانی که شما نیاز دارید الگوریتم های متفاوتی را با هم مقایسه کنید یا کار پژوهشی است یا بیشترین ساپورت از الگوریتم ها مثلا از Weka استفاده می کنید. اگر کار تجاری است و ارتباط با پایگاه داده های متفاوت و یا داده کاوی آنلاین لازم دارید و خروجی جالب می خواهید می روید سراغ Celementine. اگر می خواهید در KDDCup یا مسابقات داده کاوی شرکت کنید شک نکنید که باید ازRapidMiner استفاده کنید.و موارد دیگر, البته موارد زیادی را برای تصمیم گیری در هر مرحله هم میشه در نظر گرفت و شاید لازم باشه الگوریتمی را تغییر دهید یا به نرم افزاری اضافه کنید که باید سهولت و امکان آن را در نظر بگیرید پس می بینید که صرف چندم بودن در یک رنکینگ نمیشه تصمیم گیری کرد.
هیچ اصراری برای استفاده از ابزار خاصی ندارم ولی مثلا همین جا در این کار شما فک نکنم چند الگوریتمی که می خواهیم ازش استفاده کنیم در celementine باشه.

3. Outlier Detection یکی از مباحث جالب در داده کاوی است اما outlier (یا برون هشته) یعنی داده ای خارج از بازه عمومی داده ها یا الگوی داده ای با رفتار متفاوت یا غیر طبیعی از الگوی عمومی داده ها که البته میتونه نشان دهنده داده نویز هم باشه . تشخیص این مورد یا موارد کاربرد های زیادی در حوزه های متفاوت داره مثلا در پزشکی رفتار غیر عادی یکسری پروتئین می تونه نشاندهنده بیماری جدیدی باشه در ورزش میشه یک بازیکن با کارائی بالا یا خیلی پائین را تشخیص داد در مباحث مرتبط با تجارت, بیمه, بانکداری میشه کلاهبرداری (fraud detection) انجام داد یک مثال جالب براتون از کلاهبرداری در بانکداری بزنم: اگر یک کارمند از حساب هر نفر روزانه فقط یک ریال برداره هیچ جستجوی آماری یا کوئری خاصی نمی توانید در نظر گرفته باشید که این کار را تشخیص بده حتی صاحبان حساب هم هرگز برای این کسری پیگیری نخواهند کرد ولی این فرد توانسته مبالغ هنگفتی کلاهبرداری کنه اما داده کاوی براحتی این الگوها را می تواند جدا کند.

اما تکنیک های مرسوم که البته بر اساس ساختارهایی دسته بندی می شوند که وارد بحثش نمی شوم که اغلب این موارد هستند:

box plot (اگر داده ها از یک محدوده خاصی از داده های عمومی دور باشه outlier هستند).
رگرسیون (یک خطی که بصورت رگرسیونی بیشتری پوشش روی داده ها را می دهد در نظر می گیرند و موارد خیلی دور افتاده مشکوک به outlier هستند ) که میتونه چند گانه هم باشه.
clustering (از روشهای خوشه بندی برای تعیین موارد outlier استفاده میشه) که در این میان بعضی روش ها نیاز به تعین تعداد خوشه ندارند و خودکار عمل می کنند مانند همان روش DBScan که قبلا گفتم.
مبتی بر توضیع (مثلا تعیین می کنید عموما داده هاتون از یک توضیع خاصی پیروی می کنه مثل توضیع نرمال بعد موارد خارج از آن میشه outlier)
classification (برای استفاده از این مورد باید قبلا در داده هاتون موارد و الگوهای خاص را شناسایی کرده باشید و لیبل زده باشید که آموزش بدهید و پس از آن بتوان موارد outlier را تشخیص داد )
منابع هم زیاد است کافی است در اینترنت جستجو کنید.

4. بله فعلا مناسب به نظر می رسه (البته نگاه به مقاله را هم تاکید کردم دیگه).


امیدوارم مفید واقع گردد.

taha_mokfi ۰۵-۸-۱۳۹۰ ۰۷:۱۸ بعد از ظهر

یه مقاله مروری خوب در زمینه کشف تقلبات مالی با استفاده از داده کاوی در لینک زیر قرار دادم

http://artificial.ir/intelligence/th...html#post19589

article ۰۵-۱۰-۱۳۹۰ ۱۱:۰۸ قبل از ظهر

نقل قول:

نوشته اصلي بوسيله taha_mokfi (پست 19590)
یه مقاله مروری خوب در زمینه کشف تقلبات مالی با استفاده از داده کاوی در لینک زیر قرار دادم

http://artificial.ir/intelligence/th...html#post19589

سلام ممنون.
من این مقاله رو دارم ترجمه میکنم .
اما یه نمونه کار شده در زمینه کشف جرایم مالی در بانک میخواستم البته با استفاده از داده کاوی.
اگر موردی دارید ممنون میشم در اختیار من قرار دهید.

taha_mokfi ۰۵-۱۲-۱۳۹۰ ۱۰:۱۶ بعد از ظهر

فارسی یا انگلیسی؟

article ۰۷-۱۴-۱۳۹۰ ۱۰:۴۵ بعد از ظهر

نقل قول:

نوشته اصلي بوسيله taha_mokfi (پست 19664)
فارسی یا انگلیسی؟

فرقی نمیکن اما اگه فارسی باش بهتر

fataneh tabandeh ۰۸-۷-۱۳۹۰ ۱۱:۴۴ قبل از ظهر

باسلام من تازه با سایتون آشناشدم استادمون پروژه ای باموضوع داده کاوی در بانک بهمون گفته اگه بشه کمک کنید ممنونتون میشم هیج اطلاعاتی ندارم

article ۰۸-۹-۱۳۹۰ ۱۰:۲۲ قبل از ظهر

نقل قول:

نوشته اصلي بوسيله fataneh tabandeh (پست 20742)
باسلام من تازه با سایتون آشناشدم استادمون پروژه ای باموضوع داده کاوی در بانک بهمون گفته اگه بشه کمک کنید ممنونتون میشم هیج اطلاعاتی ندارم

سلام دوست عزیز:
اگه میخوای تو این زمینه کار کنی باید باید بدونی دقیق روی چی میخئای کار کنی!
بعد بری ببینی تو این زمینه چه قدر کار شده و از چه تکنیک هایی استفاده شده؟؟
که فکر کنم سایتای ایرانی جوابگو نیستند.

hony ۰۸-۹-۱۳۹۰ ۱۱:۵۲ قبل از ظهر

نقل قول:

نوشته اصلي بوسيله article (پست 18817)
سلام ممنون از توجتون
نوع داده هایی که من در اختیار دارم به این صورتند:
اطلاعات گزارش اسنادی(کد شعبه،شماره ژورنال،کد حساب،کد تراکنش،کد زیر نوع حساب،بدهکار،بستانکار،نام صادرکننده)
(نوع حساب،مبلغ بریال،مبلغ ارز،شرح محصول،محصول،شرح حساب،کد دفتر کل، شماره حساب،شرح تراکنش،کد تراکنش،نام شعبه عمل کننده،کد شعبه،شماره ژورنال)
و با استفاده از این اطلاعات میخوام کشف جرایم مالی در داده کاوی را بررسی کنم با این داده ها میتونم؟


اگر تحلیل لینک بلد هستید می توان با ارتباط بین مشتریان و شعبه ها کلیک ها را استخراج کرد. اینها می توانند گزینه های تقلب باشند. یا با صفات کد شعبه، کد حساب یا زیر نوع حساب، بدهکار یا بستانکار در یک فیلد با علامت منفی و مبلغ و محصول را خوشه بندی یا قوانین انجمنی ان را بدست اورید و با استفاده از ان کشف تقلب کنید. در خوشه بندی به تعدادی خوشه تقسیم کنید و خوشه ای که تعداد رکوردهایش کم است مظنونان تقلب هستند. باید توجه کنید که صفات باید استانداردسازی شوند. یا با اسفاده از قوانینی انجمنی قوانینی که دارای سا÷ورت کم و کانفیدنس بالا با توجه به قوانین دیگر می تواند تقلب را کشف کرد. یا کار دیگر یک تحلیل رفتار مشتری یا فعالیت بانک را انجام دهید

hony ۰۸-۹-۱۳۹۰ ۱۱:۵۲ قبل از ظهر

اگر نمونه ای از داده را می توانید برای من ارسال کنید تا نظر قطعی تری بدم

article ۰۸-۱۰-۱۳۹۰ ۰۲:۴۵ بعد از ظهر

نقل قول:

نوشته اصلي بوسيله aminkop (پست 19455)
سلام
ابتدا عذرخواهی بابت اینکه چند وقتی بود که نبودم و پیامتون را ندیدم.
بجاش سعی می کنم با یک راهکار عملی سریع و ساده سعی کنم یک دید مختصر نسبتا جالب پیدا کنین.

ابتدا یک توصیه تجربی برای پیش پردازش داده هاتون معمولا هر ویژگی که دارای اعداد یک بار تکرار شدنی است دور ریختنی است (مانند شماره پرسنلی, اعداد ترتیبی برای id, کد های تکرار نشدنی و ...) البته اگه این کار را هم انجام ندهید بعدا می توانید موارد بی اثر یا کم اثر را تشخیص دهید.

اگه مورد مطالعه شده خاصی مد نظرتون هست که بگید مرحله به مرحله جلو ببریمش (که صحیح تر هم این است که موارد مطالعه و عملی شده ای در حداقل یک مقاله را بررسی کرده باشید) اگر نه که مثلا برای شروع می توانید با پیدا کردن موارد outlier dtection یک تستی بکنی معمولا از روش های کلاسترینگ استفاده می کنن.

یک شروع عملی ساده:
0. ابتدا ویژگی های شاخصی که معمولا می تواند شامل تعداد تراکنش های حسابها و موارد منحصرا مالی را جدا کنید (این موارد بنظر می رسه می تونن یک الگوی خوبی برای رفتارهای خاص مالی هستند را نمایش بدهند.)
1. حالا شما برای شروع داده هاتون را (پس از تبدیل به فرمت CSV یا arff) وارد نرم افزار weka می کنین.
2. از preprocess فیل-تر RemoveUseless را انتخاب می کنی و Apply.
3. از Cluster مثلا الگوریتم DBScan را انتخاب می کنید.
--> نتیجه بدست آمده شامل چند مورد بدون خوشه است که این موارد مشکوک به وضعیت های غیر عادی از جمله کلاهبرداری می توانند باشند.(حالا اگر داده هاتون شامل ویژگی هایی که وجه تمایز یک کلاهبردار است یا اصلا مطمئن نیستید که کلاهبرداری انجام شده می تونید این موارد را زیر ذره بین ببرید که معمولا نشاندهنده یکسری حساب های با رفتار خاص است)

حتما از این نوع پیش بردن مساله تعجب کرده اید :106: خوب هدفم این بود که ترس شما برای انجام یک پروسه اینجوری بریزه. حالا شما در مرحله بعد می خواهید ویژگی های حرفه ای تری انتخاب کنید که واقعا کلاهبردارها مشخص بشن یا مسائلی را مانند طبقه بندی مشتریان از نظر رفتار مالی و این قبیل مسائل پیش ببرید که پس از کمی مطالعات جهت دار که انجام می دهید و سوال براتون پیش میاد می توانیم بررسی کنیم و جلو ببریم.

موفق باشید

سلام
چهطور میتونم تبدیل فرمت انجام بدم؟؟؟؟
من فایلم یه فایل sql میتونم ازش تو این برنامه استفاده کنم؟

article ۰۸-۱۰-۱۳۹۰ ۰۲:۵۴ بعد از ظهر

نقل قول:

نوشته اصلي بوسيله hony (پست 20814)
اگر تحلیل لینک بلد هستید می توان با ارتباط بین مشتریان و شعبه ها کلیک ها را استخراج کرد. اینها می توانند گزینه های تقلب باشند. یا با صفات کد شعبه، کد حساب یا زیر نوع حساب، بدهکار یا بستانکار در یک فیلد با علامت منفی و مبلغ و محصول را خوشه بندی یا قوانین انجمنی ان را بدست اورید و با استفاده از ان کشف تقلب کنید. در خوشه بندی به تعدادی خوشه تقسیم کنید و خوشه ای که تعداد رکوردهایش کم است مظنونان تقلب هستند. باید توجه کنید که صفات باید استانداردسازی شوند. یا با اسفاده از قوانینی انجمنی قوانینی که دارای سا÷ورت کم و کانفیدنس بالا با توجه به قوانین دیگر می تواند تقلب را کشف کرد. یا کار دیگر یک تحلیل رفتار مشتری یا فعالیت بانک را انجام دهید

ممنون اقای مهدی نصیری
برای اینکه بدهکار یا بستانکار رو بدست بیارم فقط از همین فیلدهایی که گفتید استفاده کنم یا فیلد های دیگه ای هم لازم؟؟؟
فقط از خوشه بندی استفاده کنم؟درخت تصمیم برای کشف جرایم کاربردی نداره؟بجز خوشه بندی از چه الگوریتم دیگه میشه استفاده کرد؟
در ضمن با عرض شرمندگی اگه بخام از weka استفاده کنم میتونم از فایل sql بعنولن ورودی استفاده کنم؟؟؟؟
خیییلی ممنون.

article ۰۸-۱۰-۱۳۹۰ ۰۲:۵۹ بعد از ظهر

نقل قول:

نوشته اصلي بوسيله hony (پست 20815)
اگر نمونه ای از داده را می توانید برای من ارسال کنید تا نظر قطعی تری بدم

نمونه داده دارم اما حجم زیادی داره! حدود 2 گیگ.اما فیلدهای این نمونه داده بصورت زیر:
اطلاعات گزارش اسنادی(کد شعبه،شماره ژورنال،کد حساب،کد تراکنش،کد زیر نوع حساب،بدهکار،بستانکار،نام صادرکننده)
(نوع حساب،مبلغ بریال،مبلغ ارز،شرح محصول،محصول،شرح حساب،کد دفتر کل، شماره حساب،شرح تراکنش،کد تراکنش،نام شعبه عمل کننده،کد شعبه،شماره ژورنال)

vahid_s0 ۰۸-۱۲-۱۳۹۰ ۰۶:۰۰ بعد از ظهر

سلام دوستان عزیز

من دانشجوی کارشناسی نرم افزار هستم و پروژه پایان ترم داده کاوی گرفتم(داده کاوی حفظ مشتری در بانک)خواهش میکنم منو راهنمایی کنید از کجا شروع کنم و نیازمند چه داده های هستم

article ۰۹-۲-۱۳۹۰ ۱۱:۰۷ قبل از ظهر

نقل قول:

نوشته اصلي بوسيله aminkop (پست 19455)
سلام
ابتدا عذرخواهی بابت اینکه چند وقتی بود که نبودم و پیامتون را ندیدم.
بجاش سعی می کنم با یک راهکار عملی سریع و ساده سعی کنم یک دید مختصر نسبتا جالب پیدا کنین.

ابتدا یک توصیه تجربی برای پیش پردازش داده هاتون معمولا هر ویژگی که دارای اعداد یک بار تکرار شدنی است دور ریختنی است (مانند شماره پرسنلی, اعداد ترتیبی برای id, کد های تکرار نشدنی و ...) البته اگه این کار را هم انجام ندهید بعدا می توانید موارد بی اثر یا کم اثر را تشخیص دهید.

اگه مورد مطالعه شده خاصی مد نظرتون هست که بگید مرحله به مرحله جلو ببریمش (که صحیح تر هم این است که موارد مطالعه و عملی شده ای در حداقل یک مقاله را بررسی کرده باشید) اگر نه که مثلا برای شروع می توانید با پیدا کردن موارد outlier dtection یک تستی بکنی معمولا از روش های کلاسترینگ استفاده می کنن.

یک شروع عملی ساده:
0. ابتدا ویژگی های شاخصی که معمولا می تواند شامل تعداد تراکنش های حسابها و موارد منحصرا مالی را جدا کنید (این موارد بنظر می رسه می تونن یک الگوی خوبی برای رفتارهای خاص مالی هستند را نمایش بدهند.)
1. حالا شما برای شروع داده هاتون را (پس از تبدیل به فرمت CSV یا arff) وارد نرم افزار weka می کنین.
2. از preprocess فیل-تر RemoveUseless را انتخاب می کنی و Apply.
3. از Cluster مثلا الگوریتم DBScan را انتخاب می کنید.
--> نتیجه بدست آمده شامل چند مورد بدون خوشه است که این موارد مشکوک به وضعیت های غیر عادی از جمله کلاهبرداری می توانند باشند.(حالا اگر داده هاتون شامل ویژگی هایی که وجه تمایز یک کلاهبردار است یا اصلا مطمئن نیستید که کلاهبرداری انجام شده می تونید این موارد را زیر ذره بین ببرید که معمولا نشاندهنده یکسری حساب های با رفتار خاص است)

حتما از این نوع پیش بردن مساله تعجب کرده اید :106: خوب هدفم این بود که ترس شما برای انجام یک پروسه اینجوری بریزه. حالا شما در مرحله بعد می خواهید ویژگی های حرفه ای تری انتخاب کنید که واقعا کلاهبردارها مشخص بشن یا مسائلی را مانند طبقه بندی مشتریان از نظر رفتار مالی و این قبیل مسائل پیش ببرید که پس از کمی مطالعات جهت دار که انجام می دهید و سوال براتون پیش میاد می توانیم بررسی کنیم و جلو ببریم.

موفق باشید

سلام.
من اگه بخوام داده هام وارد نرم افزار weka کنم از چه فرمت هایی میتونم استفاده کنم؟؟؟

mamali1988 ۰۹-۲۲-۱۳۹۰ ۰۳:۳۷ بعد از ظهر

سلام. در مورد deviation and outlier detecyion algorithm مطلب فارسی دارین که بتونم یه سمینار در مورد بدم؟

article ۱۰-۸-۱۳۹۰ ۱۰:۳۵ قبل از ظهر

نقل قول:

نوشته اصلي بوسيله aminkop (پست 19455)
سلام
ابتدا عذرخواهی بابت اینکه چند وقتی بود که نبودم و پیامتون را ندیدم.
بجاش سعی می کنم با یک راهکار عملی سریع و ساده سعی کنم یک دید مختصر نسبتا جالب پیدا کنین.

ابتدا یک توصیه تجربی برای پیش پردازش داده هاتون معمولا هر ویژگی که دارای اعداد یک بار تکرار شدنی است دور ریختنی است (مانند شماره پرسنلی, اعداد ترتیبی برای id, کد های تکرار نشدنی و ...) البته اگه این کار را هم انجام ندهید بعدا می توانید موارد بی اثر یا کم اثر را تشخیص دهید.

اگه مورد مطالعه شده خاصی مد نظرتون هست که بگید مرحله به مرحله جلو ببریمش (که صحیح تر هم این است که موارد مطالعه و عملی شده ای در حداقل یک مقاله را بررسی کرده باشید) اگر نه که مثلا برای شروع می توانید با پیدا کردن موارد outlier dtection یک تستی بکنی معمولا از روش های کلاسترینگ استفاده می کنن.

یک شروع عملی ساده:
0. ابتدا ویژگی های شاخصی که معمولا می تواند شامل تعداد تراکنش های حسابها و موارد منحصرا مالی را جدا کنید (این موارد بنظر می رسه می تونن یک الگوی خوبی برای رفتارهای خاص مالی هستند را نمایش بدهند.)
1. حالا شما برای شروع داده هاتون را (پس از تبدیل به فرمت CSV یا arff) وارد نرم افزار weka می کنین.
2. از preprocess فیل-تر RemoveUseless را انتخاب می کنی و Apply.
3. از Cluster مثلا الگوریتم DBScan را انتخاب می کنید.
--> نتیجه بدست آمده شامل چند مورد بدون خوشه است که این موارد مشکوک به وضعیت های غیر عادی از جمله کلاهبرداری می توانند باشند.(حالا اگر داده هاتون شامل ویژگی هایی که وجه تمایز یک کلاهبردار است یا اصلا مطمئن نیستید که کلاهبرداری انجام شده می تونید این موارد را زیر ذره بین ببرید که معمولا نشاندهنده یکسری حساب های با رفتار خاص است)

حتما از این نوع پیش بردن مساله تعجب کرده اید :106: خوب هدفم این بود که ترس شما برای انجام یک پروسه اینجوری بریزه. حالا شما در مرحله بعد می خواهید ویژگی های حرفه ای تری انتخاب کنید که واقعا کلاهبردارها مشخص بشن یا مسائلی را مانند طبقه بندی مشتریان از نظر رفتار مالی و این قبیل مسائل پیش ببرید که پس از کمی مطالعات جهت دار که انجام می دهید و سوال براتون پیش میاد می توانیم بررسی کنیم و جلو ببریم.

موفق باشید

سلام دوست عزيز .
من تمام اين كارهايي كه گفتيد انجام دادم و از روش kmeans براي خوشه بندي استفاده كردم اما زماني كه از دو خوشه استفاده ميكنم جواب مي ده اما براي سه تا خوشه از برنامه مياد بيرون وپيغام كم اوردن حافظه مي دهد.اين مشكل از كجاست؟

article ۱۰-۱۴-۱۳۹۰ ۰۹:۲۶ قبل از ظهر

نقل قول:

نوشته اصلي بوسيله aminkop (پست 19522)
سلام
1.بطور کلی که شما باید با پیش پردازش و بعد مباحث مربوط به feature selection ویژگی های مناسب را شناسایی کنید یا اینکه در کاربرد هایی از خبره استفاده می کنند حالا اگر بخواهید از بعضی تکنیک های طبقه بندی(مثلا درخت های تصمیم, چون خودشون معیار تفکیک دارند) یا در مواردی که کاهش ابعاد می دهید دیگه ویژگی های مهم خودشون را بهتر نشان می دهند لازم نیست زیاد از ابتدای کار نگرانشون باشید منظورم این بود که در این مرحله با این مباحث زیاد درگیر نشوید (البته سریعترین راه این است که شما بر اساس مقاله معتبری وِیژگی هایی که استفاده کرده را انتخاب کنید و ببنید تا چه اندازه در اختیار دارید و یا می توانید استخراج کنید)

2.در داده کاوی نمیشه گفت از چه نرم افزاری دلم می خواد استفاده کنم بلکه ابتدا نیاز سنجی می کنید بعد میگید بر اساس کاربرد و کارائی کدام را بر میدارم مگر اینکه مورد مشترکی از لحاظ کارائی باشه که حالا بر اساس معیار های خودتون موردی را انتخاب می کنید.

سعی می کنم مختصر توضیحی برای نحوه انتخاب ابزار بدهم:
زمانی که شما نیاز دارید الگوریتم های متفاوتی را با هم مقایسه کنید یا کار پژوهشی است یا بیشترین ساپورت از الگوریتم ها مثلا از Weka استفاده می کنید. اگر کار تجاری است و ارتباط با پایگاه داده های متفاوت و یا داده کاوی آنلاین لازم دارید و خروجی جالب می خواهید می روید سراغ Celementine. اگر می خواهید در KDDCup یا مسابقات داده کاوی شرکت کنید شک نکنید که باید ازRapidMiner استفاده کنید.و موارد دیگر, البته موارد زیادی را برای تصمیم گیری در هر مرحله هم میشه در نظر گرفت و شاید لازم باشه الگوریتمی را تغییر دهید یا به نرم افزاری اضافه کنید که باید سهولت و امکان آن را در نظر بگیرید پس می بینید که صرف چندم بودن در یک رنکینگ نمیشه تصمیم گیری کرد.
هیچ اصراری برای استفاده از ابزار خاصی ندارم ولی مثلا همین جا در این کار شما فک نکنم چند الگوریتمی که می خواهیم ازش استفاده کنیم در celementine باشه.

3. Outlier Detection یکی از مباحث جالب در داده کاوی است اما outlier (یا برون هشته) یعنی داده ای خارج از بازه عمومی داده ها یا الگوی داده ای با رفتار متفاوت یا غیر طبیعی از الگوی عمومی داده ها که البته میتونه نشان دهنده داده نویز هم باشه . تشخیص این مورد یا موارد کاربرد های زیادی در حوزه های متفاوت داره مثلا در پزشکی رفتار غیر عادی یکسری پروتئین می تونه نشاندهنده بیماری جدیدی باشه در ورزش میشه یک بازیکن با کارائی بالا یا خیلی پائین را تشخیص داد در مباحث مرتبط با تجارت, بیمه, بانکداری میشه کلاهبرداری (fraud detection) انجام داد یک مثال جالب براتون از کلاهبرداری در بانکداری بزنم: اگر یک کارمند از حساب هر نفر روزانه فقط یک ریال برداره هیچ جستجوی آماری یا کوئری خاصی نمی توانید در نظر گرفته باشید که این کار را تشخیص بده حتی صاحبان حساب هم هرگز برای این کسری پیگیری نخواهند کرد ولی این فرد توانسته مبالغ هنگفتی کلاهبرداری کنه اما داده کاوی براحتی این الگوها را می تواند جدا کند.

اما تکنیک های مرسوم که البته بر اساس ساختارهایی دسته بندی می شوند که وارد بحثش نمی شوم که اغلب این موارد هستند:

box plot (اگر داده ها از یک محدوده خاصی از داده های عمومی دور باشه outlier هستند).
رگرسیون (یک خطی که بصورت رگرسیونی بیشتری پوشش روی داده ها را می دهد در نظر می گیرند و موارد خیلی دور افتاده مشکوک به outlier هستند ) که میتونه چند گانه هم باشه.
clustering (از روشهای خوشه بندی برای تعیین موارد outlier استفاده میشه) که در این میان بعضی روش ها نیاز به تعین تعداد خوشه ندارند و خودکار عمل می کنند مانند همان روش DBScan که قبلا گفتم.
مبتی بر توضیع (مثلا تعیین می کنید عموما داده هاتون از یک توضیع خاصی پیروی می کنه مثل توضیع نرمال بعد موارد خارج از آن میشه outlier)
classification (برای استفاده از این مورد باید قبلا در داده هاتون موارد و الگوهای خاص را شناسایی کرده باشید و لیبل زده باشید که آموزش بدهید و پس از آن بتوان موارد outlier را تشخیص داد )
منابع هم زیاد است کافی است در اینترنت جستجو کنید.

4. بله فعلا مناسب به نظر می رسه (البته نگاه به مقاله را هم تاکید کردم دیگه).


امیدوارم مفید واقع گردد.

سلام اقاي aminkop
ممنون از پاسختون:
مي خواستم بدونم اون قسمتي كه گفتيد اگر شخصي روزانه از حساب هركس 1000 تومان بردارد هيچ روش اماري و كويري نميتواند ان را شناسايي كند اما الگوريتم هاي داده كاوي اين كا رو انجام ميدن.منظورتون از الگوريتم هاي داده كاوي ميتون اين باشه كه اگه از خوشه بندي استفاده شده تعداد كم خوشه ها ميتون مورد مشكوك و ا جرم باشه؟اگه مورد مشكوك چه جوري اون مورد مشكوكو بررسي ميكنن؟؟؟؟ممنون

article ۱۰-۱۴-۱۳۹۰ ۰۹:۳۱ قبل از ظهر

4(ها)ضميمه
نقل قول:

نوشته اصلي بوسيله hony (پست 20814)
اگر تحلیل لینک بلد هستید می توان با ارتباط بین مشتریان و شعبه ها کلیک ها را استخراج کرد. اینها می توانند گزینه های تقلب باشند. یا با صفات کد شعبه، کد حساب یا زیر نوع حساب، بدهکار یا بستانکار در یک فیلد با علامت منفی و مبلغ و محصول را خوشه بندی یا قوانین انجمنی ان را بدست اورید و با استفاده از ان کشف تقلب کنید. در خوشه بندی به تعدادی خوشه تقسیم کنید و خوشه ای که تعداد رکوردهایش کم است مظنونان تقلب هستند. باید توجه کنید که صفات باید استانداردسازی شوند. یا با اسفاده از قوانینی انجمنی قوانینی که دارای سا÷ورت کم و کانفیدنس بالا با توجه به قوانین دیگر می تواند تقلب را کشف کرد. یا کار دیگر یک تحلیل رفتار مشتری یا فعالیت بانک را انجام دهید


سلام اقاي مهدي نصيري.
من با وكا خوشه بندي رو بر روي 4 تا متغيير انجام دادم نتيجه خروجي به صورت زير شد:
Clustered Instances

شماره كلاستر0 1359 ( 2%)
1 30501 ( 47%)
2 1728 ( 3%)
3 20515 ( 31%)
4 2812 ( 4%)
5 6252 ( 10%)
6 2368 ( 4%)
نتجه نموداري ان به ازاي چها متغيير متفاوت در نوع 7 خوشه به صورت زير است:
اين نتايج چه چيزي را نمايش مي دهند؟؟؟؟

Goee ۱۱-۱۲-۱۳۹۰ ۰۴:۱۴ قبل از ظهر

نقل قول:

نوشته اصلي بوسيله article (پست 22343)
سلام اقاي aminkop
ممنون از پاسختون:
مي خواستم بدونم اون قسمتي كه گفتيد اگر شخصي روزانه از حساب هركس 1000 تومان بردارد هيچ روش اماري و كويري نميتواند ان را شناسايي كند اما الگوريتم هاي داده كاوي اين كا رو انجام ميدن.منظورتون از الگوريتم هاي داده كاوي ميتون اين باشه كه اگه از خوشه بندي استفاده شده تعداد كم خوشه ها ميتون مورد مشكوك و ا جرم باشه؟اگه مورد مشكوك چه جوري اون مورد مشكوكو بررسي ميكنن؟؟؟؟ممنون


خوشه ها صرفا الگویی از تقلب ها میتونند باشند.تو به تصاویر بدست امده میتونی تجمع تراکنش ها را تحلیل کنی
مثلا 40 درصد از تراکنش ها در یک خوشه قرار دارند که این ویژگیها رو دارند محل انجام :شعبه های استان تهران و مبلغ بیش از 40 هزار تومان

خوب در مرحله بعد میتونی با الگوریتم های دسته بندی Classification پیش بینی تقلب تک تک تراکنش ها را بدست بیاری
اینکار را میتونی بر روی هر خوشه یا به صورت کلی انجام بدی البته انجام بر روی هر خوشه مطمئنا دقت بیشتری باید داشته باشه

sahra64 ۰۷-۲۷-۱۳۹۱ ۰۷:۲۷ بعد از ظهر

سلام مقاله جدیدتری در این زمینه دارید من خیلی علاقمند شدم نرم افزارهای دیگه ای هم برای کشف تقلب توی داده های مشتریان بانک وجود داره؟ ممکنه راهنمایی کنید. بنظرتون بهترین روش کشف پولشویی از بین الگوریتم های داده کاوی کدومه؟

banihosseini ۰۱-۲۶-۱۳۹۲ ۰۹:۲۴ قبل از ظهر

نقل قول:

نوشته اصلي بوسيله aminkop (پست 19455)
سلام
ابتدا عذرخواهی بابت اینکه چند وقتی بود که نبودم و پیامتون را ندیدم.
بجاش سعی می کنم با یک راهکار عملی سریع و ساده سعی کنم یک دید مختصر نسبتا جالب پیدا کنین.

ابتدا یک توصیه تجربی برای پیش پردازش داده هاتون معمولا هر ویژگی که دارای اعداد یک بار تکرار شدنی است دور ریختنی است (مانند شماره پرسنلی, اعداد ترتیبی برای id, کد های تکرار نشدنی و ...) البته اگه این کار را هم انجام ندهید بعدا می توانید موارد بی اثر یا کم اثر را تشخیص دهید.

اگه مورد مطالعه شده خاصی مد نظرتون هست که بگید مرحله به مرحله جلو ببریمش (که صحیح تر هم این است که موارد مطالعه و عملی شده ای در حداقل یک مقاله را بررسی کرده باشید) اگر نه که مثلا برای شروع می توانید با پیدا کردن موارد outlier dtection یک تستی بکنی معمولا از روش های کلاسترینگ استفاده می کنن.

یک شروع عملی ساده:
0. ابتدا ویژگی های شاخصی که معمولا می تواند شامل تعداد تراکنش های حسابها و موارد منحصرا مالی را جدا کنید (این موارد بنظر می رسه می تونن یک الگوی خوبی برای رفتارهای خاص مالی هستند را نمایش بدهند.)
1. حالا شما برای شروع داده هاتون را (پس از تبدیل به فرمت CSV یا arff) وارد نرم افزار weka می کنین.
2. از preprocess فیل-تر RemoveUseless را انتخاب می کنی و Apply.
3. از Cluster مثلا الگوریتم DBScan را انتخاب می کنید.
--> نتیجه بدست آمده شامل چند مورد بدون خوشه است که این موارد مشکوک به وضعیت های غیر عادی از جمله کلاهبرداری می توانند باشند.(حالا اگر داده هاتون شامل ویژگی هایی که وجه تمایز یک کلاهبردار است یا اصلا مطمئن نیستید که کلاهبرداری انجام شده می تونید این موارد را زیر ذره بین ببرید که معمولا نشاندهنده یکسری حساب های با رفتار خاص است)

حتما از این نوع پیش بردن مساله تعجب کرده اید :106: خوب هدفم این بود که ترس شما برای انجام یک پروسه اینجوری بریزه. حالا شما در مرحله بعد می خواهید ویژگی های حرفه ای تری انتخاب کنید که واقعا کلاهبردارها مشخص بشن یا مسائلی را مانند طبقه بندی مشتریان از نظر رفتار مالی و این قبیل مسائل پیش ببرید که پس از کمی مطالعات جهت دار که انجام می دهید و سوال براتون پیش میاد می توانیم بررسی کنیم و جلو ببریم.

موفق باشید



با سلام
دوستان پروژه من نيز در اين زمينه است data mining در حوزه بانكداري الكترونيك اگه از دوستان مقاله يا pdf دارند ممنون ميشم در اختيار من بذارند
با تشكر

kargaranfatima ۰۹-۳-۱۳۹۲ ۱۲:۰۷ بعد از ظهر

سلام به همه
 
موضوع منم داده کاوی هست و نرم افزار کلمنتاین
کسی هست که فایلی آموزشی از این نرم افزار داشته باشه که برای منم بفرسته تا بتونم با نرم افزار آشنا بشم
ممنون میشم کمکم کنین

s_mojtabahossini ۱۰-۲۱-۱۳۹۲ ۰۷:۰۳ بعد از ظهر

با سلام به همه دوستان
آیا برای داده کاوی در حوزه بانکی، به داده واقعی دسترسی دارید؟ چن سال پیش که من تو این زمینه کار می کردم که هیچ بانکی حاضر به همکاری نشد و هیچ داده ای در اختیار من قرار نداند.

منتظر جواب دوستان هستم

datamining2014 ۰۷-۲۱-۱۳۹۳ ۰۱:۳۶ بعد از ظهر

آیا ترجمه ی مقاله ی Dr.Madan Lal Bhasin, "Data Mining:A Competitive Tool in the Banking and Retail Industries",The Chartered Accountant October ,2006
را دارید؟
این مقاله را مطالعه کردم و بعضی از سوالاتی که در ذهن داشتم را حل کرد اما ترجمه ی فارسی اش را می خواهم داشته باشم.

tanri ۰۸-۱۲-۱۳۹۳ ۰۱:۵۲ بعد از ظهر

سلام دوستان
از اینکه این سایت را پیدا کردم بی نهایت خوشحالم
دوستان خیلی ضروری به کمکتون نیاز دارم, کمکم میکنید؟
موضوع پایان نامه من در مورد داده کاوی در صنعت بیمه است البته خودم هم نماینده بیمه هستم ولی زیاد با داده کاوی آشنا نیستم یعنی میخوام تازه آشنا بشم و استادمون برای اینکه این آشنایی را بهم بده لطف کرده و یک موردبرام داده تا روش کار کنم بدون اینکه هیچ راهنمایی بهم بکنه.
با اجازه تون من موضوع را مطرح میکنم میدونم تنهام نمیذارید
ما بودجه اختصاص یافته به حدود 6600مرکز بهداشتی را در سال 92 و شش ماهه اول سال 93 را داریم و حالا میخوایم برای سال 94 بودجه را پیش بینی کنیم!!!!!
لازم به توضیح که داده های شش ماهه اول 93 را برای شش ماهه دوم هم در نظر میگیریم

sama_ai ۰۹-۷-۱۳۹۳ ۱۲:۵۰ قبل از ظهر

به‌کارگيری الگوريتم‌های درخت تصميم‌گيری جهت کشف رفتارهای مشکوک در بانکداری اينترنتی - پژوهشنامه پردازش و مديريت اطلاعات
http://jipm.irandoc.ac.ir/browse.php...a&sid=1&ftxt=1


زمان محلي شما با تنظيم GMT +3.5 هم اکنون ۱۰:۵۴ بعد از ظهر ميباشد.

Powered by vBulletin® Version 3.8.3
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Search Engine Friendly URLs by vBSEO 3.1.0 ©2007, Crawlability, Inc.