Artificial Intelligence - هوش مصنوعی  
انجمن را در گوگل محبوب کنيد :

بازگشت   Artificial Intelligence - هوش مصنوعی > داده کاوی > داده كاوی(Data mining)


 
تبليغات سايت
Iranian Association for the Advancement of Artificial Intelligence
ارسال تاپيک جديد  پاسخ
 
LinkBack ابزارهاي تاپيک نحوه نمايش
قديمي ۰۵-۳-۱۳۹۰, ۱۱:۲۹ قبل از ظهر   #11 (لینک دائم)
عضو فوق فعال
 
آواتار article
 
تاريخ عضويت: مهر ۱۳۸۹
پست ها: 31
تشكرها: 7
14 تشكر در 7 پست
Question

نقل قول:
نوشته اصلي بوسيله aminkop نمايش پست
سلام
ابتدا عذرخواهی بابت اینکه چند وقتی بود که نبودم و پیامتون را ندیدم.
بجاش سعی می کنم با یک راهکار عملی سریع و ساده سعی کنم یک دید مختصر نسبتا جالب پیدا کنین.

ابتدا یک توصیه تجربی برای پیش پردازش داده هاتون معمولا هر ویژگی که دارای اعداد یک بار تکرار شدنی است دور ریختنی است (مانند شماره پرسنلی, اعداد ترتیبی برای id, کد های تکرار نشدنی و ...) البته اگه این کار را هم انجام ندهید بعدا می توانید موارد بی اثر یا کم اثر را تشخیص دهید.

اگه مورد مطالعه شده خاصی مد نظرتون هست که بگید مرحله به مرحله جلو ببریمش (که صحیح تر هم این است که موارد مطالعه و عملی شده ای در حداقل یک مقاله را بررسی کرده باشید) اگر نه که مثلا برای شروع می توانید با پیدا کردن موارد outlier dtection یک تستی بکنی معمولا از روش های کلاسترینگ استفاده می کنن.

یک شروع عملی ساده:
0. ابتدا ویژگی های شاخصی که معمولا می تواند شامل تعداد تراکنش های حسابها و موارد منحصرا مالی را جدا کنید (این موارد بنظر می رسه می تونن یک الگوی خوبی برای رفتارهای خاص مالی هستند را نمایش بدهند.)
1. حالا شما برای شروع داده هاتون را (پس از تبدیل به فرمت CSV یا arff) وارد نرم افزار weka می کنین.
2. از preprocess فیل-تر RemoveUseless را انتخاب می کنی و Apply.
3. از Cluster مثلا الگوریتم DBScan را انتخاب می کنید.
--> نتیجه بدست آمده شامل چند مورد بدون خوشه است که این موارد مشکوک به وضعیت های غیر عادی از جمله کلاهبرداری می توانند باشند.(حالا اگر داده هاتون شامل ویژگی هایی که وجه تمایز یک کلاهبردار است یا اصلا مطمئن نیستید که کلاهبرداری انجام شده می تونید این موارد را زیر ذره بین ببرید که معمولا نشاندهنده یکسری حساب های با رفتار خاص است)

حتما از این نوع پیش بردن مساله تعجب کرده اید خوب هدفم این بود که ترس شما برای انجام یک پروسه اینجوری بریزه. حالا شما در مرحله بعد می خواهید ویژگی های حرفه ای تری انتخاب کنید که واقعا کلاهبردارها مشخص بشن یا مسائلی را مانند طبقه بندی مشتریان از نظر رفتار مالی و این قبیل مسائل پیش ببرید که پس از کمی مطالعات جهت دار که انجام می دهید و سوال براتون پیش میاد می توانیم بررسی کنیم و جلو ببریم.

موفق باشید
سلام ممنون از لطفتون اما در رابطه با توضیحی که دادید سوالای زیادی برام پیش اومد همونطور که گفته بودم تازه دارم شروع میکنم اولس ساید یک کم مشکل داشته باشم.
حالا میریم سراغ سوالا اول اینکه لازم نیست داده های دور ریختنی را بدست بیارم؟
دوم من از نرم افزار spss clementine میخوام استفاده کنم.
سوم یک کم در مورد روش outlier detection توضیح میدید یا یه منبع معرفی کنید.
چهارمموارد منحصر مالی که گفتید میتون موارد زیر باش؟
کد حساب،کد شعبه،کد تراکنش،بدهکار ،بستانکار،مبلغ بریال،نوع حساب،شماره ژورنال
از اینکه تا این مرحله هم من راهنمایی کردید خیلی خیلی ممنونم.
__________________
انسان به دليل نداشتن حوصله، كارش به طلاق مي كشد و بر اثر نداشتن حافظه، دوباره ازدواج مي كند.((مارس گرانشو))
article آفلاين است   پاسخ با نقل قول
از article تشكر كرده است:
mamali1988 (۰۹-۲۲-۱۳۹۰)

  #ADS
نشان دهنده تبلیغات
تبليغگر
 
 
 
تاريخ عضويت: -
محل سكونت: -
سن: 2010
پست ها: -
 

نشان دهنده تبلیغات is online  
قديمي ۰۵-۴-۱۳۹۰, ۰۸:۵۳ قبل از ظهر   #12 (لینک دائم)
Active users
 
آواتار aminkop
 
تاريخ عضويت: آبان ۱۳۸۸
پست ها: 45
تشكرها: 7
123 تشكر در 35 پست
پيش فرض

نقل قول:
نوشته اصلي بوسيله article نمايش پست
سلام ممنون از لطفتون اما در رابطه با توضیحی که دادید سوالای زیادی برام پیش اومد همونطور که گفته بودم تازه دارم شروع میکنم اولس ساید یک کم مشکل داشته باشم.
حالا میریم سراغ سوالا اول اینکه لازم نیست داده های دور ریختنی را بدست بیارم؟
دوم من از نرم افزار spss clementine میخوام استفاده کنم.
سوم یک کم در مورد روش outlier detection توضیح میدید یا یه منبع معرفی کنید.
چهارمموارد منحصر مالی که گفتید میتون موارد زیر باش؟
کد حساب،کد شعبه،کد تراکنش،بدهکار ،بستانکار،مبلغ بریال،نوع حساب،شماره ژورنال
از اینکه تا این مرحله هم من راهنمایی کردید خیلی خیلی ممنونم.
سلام
1.بطور کلی که شما باید با پیش پردازش و بعد مباحث مربوط به feature selection ویژگی های مناسب را شناسایی کنید یا اینکه در کاربرد هایی از خبره استفاده می کنند حالا اگر بخواهید از بعضی تکنیک های طبقه بندی(مثلا درخت های تصمیم, چون خودشون معیار تفکیک دارند) یا در مواردی که کاهش ابعاد می دهید دیگه ویژگی های مهم خودشون را بهتر نشان می دهند لازم نیست زیاد از ابتدای کار نگرانشون باشید منظورم این بود که در این مرحله با این مباحث زیاد درگیر نشوید (البته سریعترین راه این است که شما بر اساس مقاله معتبری وِیژگی هایی که استفاده کرده را انتخاب کنید و ببنید تا چه اندازه در اختیار دارید و یا می توانید استخراج کنید)

2.در داده کاوی نمیشه گفت از چه نرم افزاری دلم می خواد استفاده کنم بلکه ابتدا نیاز سنجی می کنید بعد میگید بر اساس کاربرد و کارائی کدام را بر میدارم مگر اینکه مورد مشترکی از لحاظ کارائی باشه که حالا بر اساس معیار های خودتون موردی را انتخاب می کنید.

سعی می کنم مختصر توضیحی برای نحوه انتخاب ابزار بدهم:
زمانی که شما نیاز دارید الگوریتم های متفاوتی را با هم مقایسه کنید یا کار پژوهشی است یا بیشترین ساپورت از الگوریتم ها مثلا از Weka استفاده می کنید. اگر کار تجاری است و ارتباط با پایگاه داده های متفاوت و یا داده کاوی آنلاین لازم دارید و خروجی جالب می خواهید می روید سراغ Celementine. اگر می خواهید در KDDCup یا مسابقات داده کاوی شرکت کنید شک نکنید که باید ازRapidMiner استفاده کنید.و موارد دیگر, البته موارد زیادی را برای تصمیم گیری در هر مرحله هم میشه در نظر گرفت و شاید لازم باشه الگوریتمی را تغییر دهید یا به نرم افزاری اضافه کنید که باید سهولت و امکان آن را در نظر بگیرید پس می بینید که صرف چندم بودن در یک رنکینگ نمیشه تصمیم گیری کرد.
هیچ اصراری برای استفاده از ابزار خاصی ندارم ولی مثلا همین جا در این کار شما فک نکنم چند الگوریتمی که می خواهیم ازش استفاده کنیم در celementine باشه.

3. Outlier Detection یکی از مباحث جالب در داده کاوی است اما outlier (یا برون هشته) یعنی داده ای خارج از بازه عمومی داده ها یا الگوی داده ای با رفتار متفاوت یا غیر طبیعی از الگوی عمومی داده ها که البته میتونه نشان دهنده داده نویز هم باشه . تشخیص این مورد یا موارد کاربرد های زیادی در حوزه های متفاوت داره مثلا در پزشکی رفتار غیر عادی یکسری پروتئین می تونه نشاندهنده بیماری جدیدی باشه در ورزش میشه یک بازیکن با کارائی بالا یا خیلی پائین را تشخیص داد در مباحث مرتبط با تجارت, بیمه, بانکداری میشه کلاهبرداری (fraud detection) انجام داد یک مثال جالب براتون از کلاهبرداری در بانکداری بزنم: اگر یک کارمند از حساب هر نفر روزانه فقط یک ریال برداره هیچ جستجوی آماری یا کوئری خاصی نمی توانید در نظر گرفته باشید که این کار را تشخیص بده حتی صاحبان حساب هم هرگز برای این کسری پیگیری نخواهند کرد ولی این فرد توانسته مبالغ هنگفتی کلاهبرداری کنه اما داده کاوی براحتی این الگوها را می تواند جدا کند.

اما تکنیک های مرسوم که البته بر اساس ساختارهایی دسته بندی می شوند که وارد بحثش نمی شوم که اغلب این موارد هستند:

box plot (اگر داده ها از یک محدوده خاصی از داده های عمومی دور باشه outlier هستند).
رگرسیون (یک خطی که بصورت رگرسیونی بیشتری پوشش روی داده ها را می دهد در نظر می گیرند و موارد خیلی دور افتاده مشکوک به outlier هستند ) که میتونه چند گانه هم باشه.
clustering (از روشهای خوشه بندی برای تعیین موارد outlier استفاده میشه) که در این میان بعضی روش ها نیاز به تعین تعداد خوشه ندارند و خودکار عمل می کنند مانند همان روش DBScan که قبلا گفتم.
مبتی بر توضیع (مثلا تعیین می کنید عموما داده هاتون از یک توضیع خاصی پیروی می کنه مثل توضیع نرمال بعد موارد خارج از آن میشه outlier)
classification (برای استفاده از این مورد باید قبلا در داده هاتون موارد و الگوهای خاص را شناسایی کرده باشید و لیبل زده باشید که آموزش بدهید و پس از آن بتوان موارد outlier را تشخیص داد )
منابع هم زیاد است کافی است در اینترنت جستجو کنید.

4. بله فعلا مناسب به نظر می رسه (البته نگاه به مقاله را هم تاکید کردم دیگه).


امیدوارم مفید واقع گردد.

ويرايش شده توسط aminkop; ۰۵-۴-۱۳۹۰ در ساعت ۱۱:۴۹ قبل از ظهر
aminkop آفلاين است   پاسخ با نقل قول
از aminkop تشكر كرده اند:
article (۱۰-۱۴-۱۳۹۰), ayfer.a11 (۰۷-۱۴-۱۳۹۰)
قديمي ۰۵-۸-۱۳۹۰, ۰۷:۱۸ بعد از ظهر   #13 (لینک دائم)
Moderator
 
آواتار taha_mokfi
 
تاريخ عضويت: بهمن ۱۳۸۹
محل سكونت: تهران
پست ها: 88
تشكرها: 41
93 تشكر در 42 پست
پيش فرض

یه مقاله مروری خوب در زمینه کشف تقلبات مالی با استفاده از داده کاوی در لینک زیر قرار دادم

http://artificial.ir/intelligence/th...html#post19589
__________________
همه چیز آخرش به او ختم می شود
taha_mokfi آفلاين است   پاسخ با نقل قول
از taha_mokfi تشكر كرده اند:
article (۱۰-۱۴-۱۳۹۰), Astaraki (۰۸-۹-۱۳۹۰), ayfer.a11 (۰۷-۱۴-۱۳۹۰)
قديمي ۰۵-۱۰-۱۳۹۰, ۱۱:۰۸ قبل از ظهر   #14 (لینک دائم)
عضو فوق فعال
 
آواتار article
 
تاريخ عضويت: مهر ۱۳۸۹
پست ها: 31
تشكرها: 7
14 تشكر در 7 پست
پيش فرض

نقل قول:
نوشته اصلي بوسيله taha_mokfi نمايش پست
یه مقاله مروری خوب در زمینه کشف تقلبات مالی با استفاده از داده کاوی در لینک زیر قرار دادم

http://artificial.ir/intelligence/th...html#post19589
سلام ممنون.
من این مقاله رو دارم ترجمه میکنم .
اما یه نمونه کار شده در زمینه کشف جرایم مالی در بانک میخواستم البته با استفاده از داده کاوی.
اگر موردی دارید ممنون میشم در اختیار من قرار دهید.
__________________
انسان به دليل نداشتن حوصله، كارش به طلاق مي كشد و بر اثر نداشتن حافظه، دوباره ازدواج مي كند.((مارس گرانشو))
article آفلاين است   پاسخ با نقل قول
قديمي ۰۵-۱۲-۱۳۹۰, ۱۰:۱۶ بعد از ظهر   #15 (لینک دائم)
Moderator
 
آواتار taha_mokfi
 
تاريخ عضويت: بهمن ۱۳۸۹
محل سكونت: تهران
پست ها: 88
تشكرها: 41
93 تشكر در 42 پست
پيش فرض

فارسی یا انگلیسی؟
__________________
همه چیز آخرش به او ختم می شود
taha_mokfi آفلاين است   پاسخ با نقل قول
قديمي ۰۷-۱۴-۱۳۹۰, ۱۰:۴۵ بعد از ظهر   #16 (لینک دائم)
عضو فوق فعال
 
آواتار article
 
تاريخ عضويت: مهر ۱۳۸۹
پست ها: 31
تشكرها: 7
14 تشكر در 7 پست
پيش فرض

نقل قول:
نوشته اصلي بوسيله taha_mokfi نمايش پست
فارسی یا انگلیسی؟
فرقی نمیکن اما اگه فارسی باش بهتر
__________________
انسان به دليل نداشتن حوصله، كارش به طلاق مي كشد و بر اثر نداشتن حافظه، دوباره ازدواج مي كند.((مارس گرانشو))
article آفلاين است   پاسخ با نقل قول
قديمي ۰۸-۷-۱۳۹۰, ۱۱:۴۴ قبل از ظهر   #17 (لینک دائم)
عضو جدید
 
آواتار fataneh tabandeh
 
تاريخ عضويت: آبان ۱۳۹۰
پست ها: 3
تشكرها: 0
0 تشكر در 0 پست
پيش فرض

باسلام من تازه با سایتون آشناشدم استادمون پروژه ای باموضوع داده کاوی در بانک بهمون گفته اگه بشه کمک کنید ممنونتون میشم هیج اطلاعاتی ندارم
fataneh tabandeh آفلاين است   پاسخ با نقل قول
قديمي ۰۸-۹-۱۳۹۰, ۱۰:۲۲ قبل از ظهر   #18 (لینک دائم)
عضو فوق فعال
 
آواتار article
 
تاريخ عضويت: مهر ۱۳۸۹
پست ها: 31
تشكرها: 7
14 تشكر در 7 پست
پيش فرض

نقل قول:
نوشته اصلي بوسيله fataneh tabandeh نمايش پست
باسلام من تازه با سایتون آشناشدم استادمون پروژه ای باموضوع داده کاوی در بانک بهمون گفته اگه بشه کمک کنید ممنونتون میشم هیج اطلاعاتی ندارم
سلام دوست عزیز:
اگه میخوای تو این زمینه کار کنی باید باید بدونی دقیق روی چی میخئای کار کنی!
بعد بری ببینی تو این زمینه چه قدر کار شده و از چه تکنیک هایی استفاده شده؟؟
که فکر کنم سایتای ایرانی جوابگو نیستند.
__________________
انسان به دليل نداشتن حوصله، كارش به طلاق مي كشد و بر اثر نداشتن حافظه، دوباره ازدواج مي كند.((مارس گرانشو))
article آفلاين است   پاسخ با نقل قول
قديمي ۰۸-۹-۱۳۹۰, ۱۱:۵۲ قبل از ظهر   #19 (لینک دائم)
مهدی نصیری
 
آواتار hony
 
تاريخ عضويت: آذر ۱۳۸۸
پست ها: 25
تشكرها: 0
34 تشكر در 18 پست
پيش فرض

نقل قول:
نوشته اصلي بوسيله article نمايش پست
سلام ممنون از توجتون
نوع داده هایی که من در اختیار دارم به این صورتند:
اطلاعات گزارش اسنادی(کد شعبه،شماره ژورنال،کد حساب،کد تراکنش،کد زیر نوع حساب،بدهکار،بستانکار،نام صادرکننده)
(نوع حساب،مبلغ بریال،مبلغ ارز،شرح محصول،محصول،شرح حساب،کد دفتر کل، شماره حساب،شرح تراکنش،کد تراکنش،نام شعبه عمل کننده،کد شعبه،شماره ژورنال)
و با استفاده از این اطلاعات میخوام کشف جرایم مالی در داده کاوی را بررسی کنم با این داده ها میتونم؟

اگر تحلیل لینک بلد هستید می توان با ارتباط بین مشتریان و شعبه ها کلیک ها را استخراج کرد. اینها می توانند گزینه های تقلب باشند. یا با صفات کد شعبه، کد حساب یا زیر نوع حساب، بدهکار یا بستانکار در یک فیلد با علامت منفی و مبلغ و محصول را خوشه بندی یا قوانین انجمنی ان را بدست اورید و با استفاده از ان کشف تقلب کنید. در خوشه بندی به تعدادی خوشه تقسیم کنید و خوشه ای که تعداد رکوردهایش کم است مظنونان تقلب هستند. باید توجه کنید که صفات باید استانداردسازی شوند. یا با اسفاده از قوانینی انجمنی قوانینی که دارای سا÷ورت کم و کانفیدنس بالا با توجه به قوانین دیگر می تواند تقلب را کشف کرد. یا کار دیگر یک تحلیل رفتار مشتری یا فعالیت بانک را انجام دهید
hony آفلاين است   پاسخ با نقل قول
از hony تشكر كرده است:
article (۰۸-۱۰-۱۳۹۰)
قديمي ۰۸-۹-۱۳۹۰, ۱۱:۵۲ قبل از ظهر   #20 (لینک دائم)
مهدی نصیری
 
آواتار hony
 
تاريخ عضويت: آذر ۱۳۸۸
پست ها: 25
تشكرها: 0
34 تشكر در 18 پست
پيش فرض

اگر نمونه ای از داده را می توانید برای من ارسال کنید تا نظر قطعی تری بدم
hony آفلاين است   پاسخ با نقل قول
از hony تشكر كرده است:
article (۰۸-۱۰-۱۳۹۰)
پاسخ



كاربران در حال ديدن تاپيک: 3 (0 عضو و 3 مهمان)
 

قوانين ارسال
You may not post new threads
You may not post replies
You may not post attachments
You may not edit your posts

BB code is فعال
شکلکها فعال است
كد [IMG] فعال است
كدهاي HTML غير فعال است
Trackbacks are فعال
Pingbacks are فعال
Refbacks are فعال




زمان محلي شما با تنظيم GMT +3.5 هم اکنون ۰۹:۴۱ بعد از ظهر ميباشد.


Powered by vBulletin® Version 3.8.3
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Search Engine Friendly URLs by vBSEO 3.1.0 ©2007, Crawlability, Inc.

Teach and Learn at Hexib | Sponsored by www.Syavash.com and Product In Review

استفاده از مطالب انجمن در سایر سایت ها، تنها با ذکر انجمن هوش مصنوعي به عنوان منبع و لینک مستقیم به خود مطلب مجاز است

Inactive Reminders By Icora Web Design