Artificial Intelligence - هوش مصنوعی  
انجمن را در گوگل محبوب کنيد :

بازگشت   Artificial Intelligence - هوش مصنوعی > داده کاوی > داده كاوی(Data mining)


 
تبليغات سايت
Iranian Association for the Advancement of Artificial Intelligence
ارسال تاپيک جديد  پاسخ
 
LinkBack ابزارهاي تاپيک نحوه نمايش
قديمي ۰۲-۳۱-۱۳۹۰, ۰۹:۲۷ قبل از ظهر   #1 (لینک دائم)
Administrator
 
آواتار Astaraki
 
تاريخ عضويت: خرداد ۱۳۸۷
محل سكونت: تهران-کرج!
پست ها: 3,465
تشكرها: 754
16,337 تشكر در 3,127 پست
My Mood: Mehrabon
ارسال پيغام Yahoo به Astaraki
Cool به کار بردن داده کاوی در جنایات پولشویی

به کار بردن داده کاوی در جنایات پولشویی

امیر حدادی مقدم- عابد متینی

چکیده :
در این مقاله ، ما مشکل مطالعه با استفاده از داده کاوی به منظور تسهیل رسیدگی به جنایات پول شویی (MLCs) را مورد بررسی قرار می دهیم. ما یک پارادایم جدید از مشکلات را شناسایی کرده ایم --- که از نسل جامعه خودکار تک حزبی بر اساس اطلاعات و داده ها که در آن پیوند اطلاعات مستقیم قابل دسترسی می باشد وجود دارد. در نتیجه ، ما باید پیشنهاد یک روش جدید برای کشف پیوند بر اساس تجزیه و تحلیل ارتباط (LDCA)را داشته باشیم. در حال حاضر از MLC به عنوان یک برنامه کاربردی نمونه از الگوی این مشکل استفاده می شود ، و بر این نرم افزار به منظور توسعه یک روش خاص خودکار MLC گروه نسل مدل بر اساس جدول زمانی تجزیه و تحلیل با استفاده از روش LDCA ، مرجانی نامیده می شود. از روش مرجانی پیاده سازی شده است ، و آزمایش و بررسی های اولیه بر اساس داده ها که MLC واقعی هستند منتشر شده است. مشارکتهای این اثر عبارتند از : (1) شناسایی تک حزبی داده پارادایم جامعه ، (2) پیشنهاد روش جدید LDCA در این پارادایم را حل کند ، (3) فرمولاسیون گروه MLC به عنوان مثالی از این پارادایم ، (4) استفاده از روش LDCA در حال توسعه (5) توسعه ، ارزیابی ، و آزمایش نمونه اولیه مرجانی در مورد MLC واقعی داده ها باشد.


کلمات کلیدی
پول شویی جرائم MLCs) ، MLC گروه مدل ، دانشگاه جانبه داده ها ، بی حزب داده ، جامعه ایجاد ، لینک دیسکاوری در تحلیل همبستگی (LDCA) ، مرجان ، خوشه ، هیستوگرام ، گاهشمار تجزیه و تحلیل است.)
اجازه کپی دیجیتال و یا سخت از تمام یا بخشی از این کار برای استفاده شخصی یا کلاس درس است و بدون هزینه به شرطی که کپی ساخته می شوند و یا توزیع شده برای سود یا بهره که نسخه تجاری و خرس که این اعلان و استناد کامل در صفحه اول داده . برای کپی کردن در غیر این صورت ، یا مجددا ، به روی سرورهای پست برای توزیع مجدد و یا به لیست ها ، نیاز به قبل از اجازه خاص و / یا هزینه.
SIGKDD'03 ، 24-27 اوت 2003 ، واشنگتن ، دی سی ، ایالات متحده آمریکا.
کپی رایت 2003 ارایه 1-58113-737-0/03/0008... $ 5.00.






1. مقدمه
پول شویی به عنوان یک جرم اصلی ، و به عنوان یکی از جنایات گروه های برتر در جامعه امروز شناخته شده است. با توسعه اقتصاد جهانی ، افزایش برنامه های کاربردی از اینترنت و پیشرفت تجارت الکترونیک (ویژه نامه بانکی) ، پیش بینی شده است که جرم پول شویی (MLCs) شایع تر خواهد شد .
بررسی MLCs شامل خواندن و تجزیه و تحلیل هزاران نفر از اسناد متنی به منظور تولید (یا فرضیه) مدل جرم و جنایت گروه است. با چنین مدلی ، محققان شواهدی ارائه می کنند برای شناسایی نفر دیگر که او نیز ممکن است در جنایات دخیل بوده و برای پیش بینی و جلوگیری از جنایات مشابه با الگوهای از او پشتیبانی می کند. در حال حاضر ، این نسل مدل فرایند بسیار گران و بسیار خسته کننده است . با انجام این کار به میزان فراوان از صرفه جویی های قابل توجهی نیروی انسانی و کاهش زمان پیگرد قانونی به وجود می آید.
این مقاله بخشی از پروژه تحقیقاتی با حمایت دولت شامل چند دانشگاه ، آزمایشگاه های صنعتی ، و نهادهای دولتی برای توسعه نظریه و ابزار مربوط به نیمه اتوماتیک MLC و مدل تجزیه و تحلیل است.

2. کار و چالش های مرتبط
به تازگی از استخراج داده های ساخت یافته سنتی به یک مدل ساختار توسعه یافته داده کاوی شده است ، از جمله سری زمانی ، متن و وب سایت. این کار به طور خاص به صورت خودکار آدرس های نسل جامعه از اقلام داده ها را در یک کاربرد خاص (MLC) گذاشته شده و توسط داده های متنی رایگان برای تولید مدل های گروه MLC را پیش بیتی می کند. هر چند تحقیقات گسترده ای در سال های اخیر وجود دارد ،اما به طور کلی هنوز به عنوان یکی از مشکلات باز کردن و به چالش کشیدن در تحقیقات داده کاوی در نظر گرفته می شود.

نمونه هایی از این تلاش ها ، استخراج از معادن در جامعه وب [8] یا موضوع اسناد مربوط [2] ، مشترک فیلتر [7] ، و تجزیه و تحلیل شبکه های اجتماعی است .ما به این پارادایم به عنوان یکی از دو منبع اطلاعات مشکلات نسل جامعه مراجعه کنیم.
در این تحقیق ، ما یک پارادایم جدید از مشکلات که در آن رابطه ای صریح و روشن داده دودویی بین آیتم های داده وجود دارد را شناسایی کردیم، در حالی که هدف این است که برای ایجاد جوامع بر اساس یک رابطه دودویی هنوز به توان تعیین شده بین آیتم های داده. چنین الگوی تعریف نمی کنیم .

در اسناد MLC جمع آوری شده توسط آژانس های اجرای قانون ، بسیاری از آنها شامل تنها حزب تک داده ها ، به عنوان مثال ، فعالیت های پولی از یک نفر نمونه ای از فعالیت های تک حزبی شامل : "جان اسمیت هوندا با استفاده از 1100 $ پول نقد در فوریه 4 خریداری ، 1994" "فرد براون نقدی 950 $ از حساب بانکی خود را در 1994 فوریه 2 در زمان" # :. واضح است و رابطه ای صریح بین فرد براون و جان اسمیت منعکس در اسناد وجود دارد. علاوه بر این ، حتی برای برخی از اسناد ممکن است رابطه دوتایی موجود برای معاملات مالی (پول و ارتباط فرستنده گیرنده) وجود داشته باشد . تکنولوژی فعلی از استخراج اطلاعات (اینترنت اکسپلورر) قادر است به ضبط robustly افعال از متن ، و در نتیجه صریح و روشن رابطه دوتایی شدن در دسترس نیست. از سوی دیگر ، نسلی از مدل MLC گروه اساسا ساختن جوامع از گروهی از افراد بر اساس روابط خاص بین آنها، استنباط از سند وجود دارد. از این رو ، این داده ها تک حزب معمولی جامعه مشکل نسل است. یکی دیگر از نمونه ای از این مشکل این است که برای تولید جوامع از کشور بر اساس فعالیت های قاچاق از تسلیحات کشتار عظیم بین آنها از داده های اخبار وجود دارد. در اینجا روابط قاچاق ممکن است از اینترنت اکسپلورر داده نشده باشد و یا ممکن است حتی به صراحت در اخبار منتشر شده ، اما راه حل مشکل این است که به "استنتاج" این روابط را از طریق داده ها برای تولید جوامع از این روابط در میان گروهی از کشورها بپردازیم.
یکی دیگر از استفادهای الگوی مشکل این است که اطلاعات در هر سه ،ذاتا تک حزب داده شود. مثالها عبارتند از : نسل از مدل نفوذ شبکه نفوذ از داده های رکورد را در تمام گره های شبکه ؛ نسل از ترافیک مدل حادثه ارتباط از ثبت اطلاعات ترافیک نظارت در همه نقاط در ترافیک شبکه. توجه داشته باشید که مشکلات در این سناریو در واقع یک مشکل کلی برای پیدا کردن انجمن ها بر اساس "استنباط میشود" روابط دوتایی ناشناخته در میان یک گروه از اقلام داده هااست.
در حالی که روش های استخراج از معادن داده شده است در تحقیقات و بخش های تجاری از جمله در برنامه های کاربردی مربوط به کشف تقلب های مالی به مناطق استفاده شود [3،5] است ، کار در برنامه های کاربردی در جامعه اجرای قانون منتشر شده است ، و به دانش ما ، پژوهشی در استفاده از تحقیقات MLC به طور خاص انجام می شود.



3. مشکل بیانیه
هدف از نسل مدل اتوماتیک در بررسی MLC برای تولید یک جامعه از اقلام داده ها است. در اینجا کسانی هستند که اقلام داده افراد درگیر و متعهد به MLC خاص قرار گرفته است. در عمل اجرای قانون ، MLC مدل گروه اغلب به گروهی از افراد با هم توسط برخی داده شده است ، ارتباط طلا نامیده می شود. این طلا به طور معمول توسط محققان بر اساس تجارب و تخصص، خود را شناسایی و به تبع آن ذهنی هستند. آنها همچنین ممکن است در موارد مختلف MLC شده توسط محققان مختلف متفاوت باشد.
از آنجا که هیچ کس تا به این مشکل قبل از خطاب ، استفاده از ارتباط خاص به عنوان ، طلا برای کشف لینک ما به منظور ساخت جامعه برای تولید مدل پیشنهاد می کنیم. ارتباط این است که در مشکلات مختلف تعریف شود ، و در این مدل مشکل MLC گروه نسل ، ما را توسعه داده اند استفاده از روش های خاص برای تعریف و تعیین همبستگی ، که یکی از مشارکت در این کار. با توجه به ارتباط ، ما به طور رسمی MLC مدل گروه به عنوان نمایندگی های گرافیکی با اطلاعات زیر تعریف : (1) همه اعضای این گروه از جرم و جنایت ؛ (2) هر عضو نقش مختلفی بازی در گروه (به عنوان مثال ، که در اتهام از گروه ؛ اعضای اصلی گروه که ؛ گروه جنایت بزرگ ممکن است پیچیده ساختار سازمانی) داشته باشد ؛ (3) روابط همبستگی بین اعضای گروه های مختلف ؛ (4) تمام تاریخ معامله مالی از هر عضو در گروه و (5) اطلاعات شخصی از اعضای هر گروه.

4. روش عمومی

با توجه به بیانیه مشکل ، راه حل عمومی مشکل مدل MLC گروه نسل شامل دو مرحله است : پردازش متن (از جمله تبدیل او سی آر و برچسب زدن اینترنت اکسپلورر) ، نسل و جامعه است. پردازش متن تمرکز از این نمی باشد.

در این بخش ، روش کلی را پیشنهاد می کنیم ، پیوندی به نام کشف ارتباط در تجزیه و تحلیل (LDCA) ، بر اساس عنوان راه حلی برای اطلاعات تک حزبی مشکل جامعه نسل به طور کلی. LDCA اندازه گیری برای تعیین همبستگی "شباهت" از الگوهای بین دو اطلاعات ،قدرت و صلابت خود را به پیوندی استنباط ؛ منطق فازی ممکن است در اندازه گیری ارتباط به جای impreciseness معمولی استفاده می شود .







شکل. 1. نمونه ای از مدل MLC گروه نسل.



شکل 2 نشان می دهد که اجزای LDCA و همچنین گردش داده ها از این مولفه ها. در اصل ، LDCA شامل سه مرحله اصلی می باشد. برای هر مشکل در تک حزبی داده پارادایم جامعه ، فرض کنیم به طوری که برای هر جفت از موارد در دهه وجود دارد، تابع ریاضی (یا رویه ای وجود دارد الگوریتم) ج که شامل این جفت از آیتم ها جهت تولید ارزش ارتباط در محدوده [0 ، 1] ، یعنی ، این مرحله را تعریف می کند ارتباط بین هر جفت از موارد در دهه :]. مدت زمان ایجاد پیوند است و سپس با استفاده از تابع به هر جفت از موارد موجود در ثانیه به واقع تولید ارزش های همبستگی نگران کرده است. این نتایج در یک گراف کامل گرم (س ، ه) که در آن الکترونیکی است لبه مجموعه ای با ارزش های همبستگی محاسبه شد.




5.1 پیوند فرضیه
فرضیه لینک ایالات مرجانی به شرح زیر است : (1) مجموعه اطلاعات زیر مجموعه ای از تمام افراد استخراج شده از مجموعه ای از اسناد داده شده ، (2) برای هر فرد ، مربوط به مالی معامله بردار تاریخ وجود دارد (ممکن است پوچ ) به همراه جدول زمانی ؛ (3) ارتباط بین دو نفر از طریق تابع همبستگی بین دو بردار معامله مربوطه سابقه مالی تعیین می شود ، (4) اگر دو نفر در همان گروه MLC هستند ، آنها باید الگوهای مشابه معامله مالی نمایشگاه ، و بنابراین ، باید بالاتر ارتباط ارزش داشته باشد ؛ و (5) هر دو نفر ممکن است یک مقدار همبستگی (شامل 0) ، یعنی ، ثانیه = U. اند

بر اساس این اصل تجزیه ، تعریف کنیم و ایجاد رویداد رانده می شود ، ساختار تو در تو داده برای داده های کل زیر مجموعه: هر زمان که نام یک فرد جدید است مواجه می شوند ، جدید ورود شخص ایجاد شده است ؛ هر زمان که به عنوان مثال هم جدید است مواجه می شوند ، زمان رویداد جدید تحت یک نوشته است که شخص ایجاد شده ؛ هر زمان که معامله مالی جدید است مواجه می شوند ، معامله یک رویداد جدید ایجاد شده است به هر دو رویداد مربوط به زمان و ورود شخص مرتبط است. همه حوادث و مدخل به عنوان بردارهای ، بیان کرد.

شکل 3 نشان میدهد که ساختار داده ها. پس از تجزیه مجموعه کامل از اسناد ، نقشه ما ساختار داده ها را به جدول زمانی نقشه نشان داده شده در شکل 4 ، جایی که هر جدول زمانی نشان دهنده مالی معامله بردار سابقه هر فرد. محور زمان از جدول زمانی است که "گسسته" را در موارد زمان.




در حالی که بالا "یکی از راه های نزدیک ترین همسایه" تجزیه اصل ممکن است لزوما واقعی در همه شرایط ، این اصل مبتنی بر دو به دلایل زیر ما پیشنهاد می کنیم : (1) این بهترین ما می توانیم با عدم وجود اطلاعات پیوند واقعی انجام شده است در داده ها ، (2) ارزیابی های تجربی نشان می دهد که مدل های تولید شده بر اساس این اصل منطقی دقیق بوده است.


5.2 ا لگوریتم خوشه
با توجه به نقشه، جدول زمانی ایجاد می شود ، بر اساس فرضیه لینک ، به منظور دقت اندازه ارتباط معامله مالی میان دو نفر ، ایده آل ما دوست داریم که قادر به تعیین بردارهای پولی باشیم (به عنوان مثال ، آنها واقعا به MLC مرتبط مورد توجه قرار گرفت) ، و فقط سر و صدا (به عنوان مثال ، "عادی" فعالیت های خرید ، و یا ارتباط بین فعالیت های نادرست پولی خود و شخص دیگری با توجه به راه یک نزدیکترین همسایه اصل تجزیه است.


5.3 همبستگی برای مدت زمان ایجاد لینک
پس از خوشه مالی هر فرد، معامله بردار تاریخ می تواند به عنوان هیستوگرام جدول زمانی تقسیم به خوشه کردن کند ، که به نوبه خود ممکن است به عنوان توابع هیستوگرام هم باشد ، جایی که هیستوگرام معامله مالی این فرد در خوشه اول است. از این رو ، ارتباط بین دو نفر <x،y>به عنوان همبستگی جهانی ترکیبی از همه ارتباط محلی میان دو نفر ، که در آن ارتباط محلی به عنوان ارتباط بین دو خوشه از نمودار جدول زمانی از دو نفر تعریف شده تعریف شده است. شکل 5 نشان می دهد روند تعیین همبستگی جهانی از ارتباط محلی میان دو نفر Xو y به همین دلیل این ارتباط به عنوان "سطح دو" تابع تعریف شده است با توجه به ماهیت منحصر به فرد از مشکل --- افراد در گروه MLC همان الگوهای مشابهی ممکن است معامله مالی در زمان های مختلف "مناطق" نمایشگاه (که محدودیتهای ارتباط محلی ) ، اما تفاوت در جدول زمانی از فعالیت های مالی خود را نباید بیش از حد بزرگ (که محدودیتهای همبستگی جهانی .

6. نتایج تجربی
ما به پیاده سازی روش مرجانی به مدل اولیه سیستم رسیدیم. در این بخش ما اولین سناریو از یک مورد واقعی MLC در آزمایش های با اطلاعات داده شده توسط NIJ استفاده می شود صحبت کردیم. مرجانی مدل اولیه سیستم را تست شده و ارزیابی بر اساس این اطلاعات مجموعه است. از آنجا که داده ها به عنوان داده های مالکیت عمومی در نظر گرفته شود ، ما باید به جای تمام اسامی واقعی افراد شرکت کننده و سازمان با نام ساختگی در این مقاله به منظور بحث و پیوند به بیرون نیز ارتباط داشته باشیم.



6.1 سناریو مورد
اسناد مورد استفاده در این پروژه جمع آوری شده در مورد شیوه ، از یک گروه از شرکت های تجاری ، مشتریان و همکاران خود را که در مورد پول شویی به دست نمیدهد بودند. اسناد از بررسی طرح جعلی به ارائه و فروش اوراق بهادار ثبت نشده بانک نخست در سراسر ایالات متحده به دست آمد. ایالات متحده کمیسیون بورس و اوراق بهادار ، اوراق بهادار بخش از مدینه فاضله شرکت کمیسیون ، ایالات متحده خدمات گمرکی و دفتر آرمانشهر دادستان کل به طور مشترک مورد بررسی قرار مورد.







7. نتیجه گیری
بر خلاف مشکلات جامعه نسل سنتی از قبیل استخراج معادن وب ، فیلتر های مشترک ، و تجزیه و تحلیل شبکه های اجتماعی ، که در آن مجموعه داده ها به عنوان دو حزب با توجه به داده هااست ، در اینجا ما دسترسی مستقیم و صریح به اطلاعات پیوند بین آیتم های داده ها را نداریم. در حال حاضر پیشنهاد روش عمومی برای حل مشکلات موجود در این پارادایم ، به نام پیوند کشف ارتباط بر اساس تجزیه و تحلیل (LDCA). به عنوان نمونه ای از این مشکلات ، ما در تدوین و فرموله کردن و آدرس پول شویی جرم (MLC) گروه مدل مشکل نسل ، و بر اساس روش LDCA ، ما را توسعه داده اند و ارائه یک روش خاص برای تولید مدل MLC گروه تجزیه و تحلیل در ارتباط همراه بر اساس جدول زمانی به نام مرجانی. ما به پیاده سازی یک نمونه اولیه مرجان ، و آزمایش و ارزیابی نمونه اولیه با استفاده از مجموعه ای از داده ها مورد MLC واقعی ارائه شده توسط NIJ. آزمایش مقدماتی و ارزیابی کرده اند وعده مرجانی در به طور خودکار تولید مدل MLC گروه نشان داد ، و همچنین اعتبار روش LDCA.



منبع
Astaraki آفلاين است   پاسخ با نقل قول

  #ADS
نشان دهنده تبلیغات
تبليغگر
 
 
 
تاريخ عضويت: -
محل سكونت: -
سن: 2010
پست ها: -
 

نشان دهنده تبلیغات is online  
پاسخ



كاربران در حال ديدن تاپيک: 1 (0 عضو و 1 مهمان)
 

قوانين ارسال
You may not post new threads
You may not post replies
You may not post attachments
You may not edit your posts

BB code is فعال
شکلکها فعال است
كد [IMG] فعال است
كدهاي HTML غير فعال است
Trackbacks are فعال
Pingbacks are فعال
Refbacks are فعال




زمان محلي شما با تنظيم GMT +3.5 هم اکنون ۰۹:۰۸ بعد از ظهر ميباشد.


Powered by vBulletin® Version 3.8.3
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Search Engine Friendly URLs by vBSEO 3.1.0 ©2007, Crawlability, Inc.

Teach and Learn at Hexib | Sponsored by www.Syavash.com and Product In Review

استفاده از مطالب انجمن در سایر سایت ها، تنها با ذکر انجمن هوش مصنوعي به عنوان منبع و لینک مستقیم به خود مطلب مجاز است

Inactive Reminders By Icora Web Design