Artificial Intelligence - هوش مصنوعی  
انجمن را در گوگل محبوب کنيد :

بازگشت   Artificial Intelligence - هوش مصنوعی > داده کاوی > داده كاوی(Data mining)


 
تبليغات سايت
Iranian Association for the Advancement of Artificial Intelligence
ارسال تاپيک جديد  پاسخ
 
LinkBack ابزارهاي تاپيک نحوه نمايش
قديمي ۰۶-۲۰-۱۳۹۰, ۰۵:۵۴ بعد از ظهر   #1 (لینک دائم)
Administrator
 
آواتار Astaraki
 
تاريخ عضويت: خرداد ۱۳۸۷
محل سكونت: تهران-کرج!
پست ها: 3,465
تشكرها: 754
16,337 تشكر در 3,127 پست
My Mood: Mehrabon
ارسال پيغام Yahoo به Astaraki
Wink استفاده از تکنيک هاي داده کاوي براي کشف فعاليت هاي تروريستي روي شبکه اينترنت

استفاده از تکنيک هاي داده کاوي براي کشف فعاليت هاي تروريستي روي شبکه اينترنت

مترجم:فرهاد شاه ميري

کارشناس ارشد مديريت تکنولوژي

دانشگاه علامه طباطبايي

Farhad_sh1983@yahoo.com

خلاصه:

يک روش شناسي مبتني بر دانش نوآورانه براي کشف ترور با استفاده از محتواي ترافيکي وب مانند اطلاعات حسابرسي ارائه مي شود.روش شناسي پيشنهاد شده رفتار نوعي تروريست ها را به وسيله به کارگيري يک ا لگوريتم داده کاوي در رابطه با محتواي وب سايت هاي مرتبط با ترور مد نظر قرار مي دهد.پروفايل حاصل شده به وسيله سيستم براي اجراي يک کشف بلا درنگ از کاربران مشکوک به ارتباط با فعاليت هاي تروريستي به کار گرفته مي شود.تجزيه و تحليل ويژگي هاي عملگر-دريافت کننده نشان مي دهد که اين روش شناسي مي تواند بيشتر از يک سيستم کشف پيشراني مورد استفاده واقع شود.

کلمات کليدي:داده کاوي، مدل سازي کاربر، کشف روند تروريستي، کشف ناسازگاري، مانيتورينگ فعاليت

معرفي:

سلول هاي تروريستي زير ساخت هاي اينترنتي را براي مبادله اطلاعات و استخدام اعضا و پشتيبانان جديد به کار مي برند.براي مثال، ارتباطات با سرعت بالا به طور گسترده اي به وسيله اعضا غير معروف "HAMBURG CELL" که به طور گسترده اي براي اماده سازي حملات 11 سپتامبر عليه ايالات متحده مسئول بودند به کار گرفته شد.اين يک دليل عمده براي تلاش هاي گسترده اي است که به وسيله آژانس هاي اجرايي حکومتي در سراسر دنيا براي جمع آوري اطلاعات از وب در مورد فعاليت هاي تروريستي در حال انجام است.تصور مي شود که کشف تروريست ها بر روي وب به طور گسترده اي بتواند از حملات تروريستي جلوگيري به عمل آورد.يک راه براي کشف فعاليت هاي تروريستي برروي وب استراق سمع کليه ترافيک وب در همه وب سايت هاي مرتبط با سازمان هاي تروريستي است تا بدين ترتيب بتوان با استفاده از IP کاربران به آنها دسترسي پيدا کرد.متاسفانه مانيتورينگ سايت هاي تروريستي دشوار است زيرا آنها IP ها و URL هاي ثابتي را به کار نمي برند.موقعيت جغرافيايي وب سرور هايي نيز که اين سايت ها را ميزباني مي کنند به طور مکرر به منظور جلوگيري از استراق سمع در حال تغيير است.براي غلبه بر اين مشکل، آژانس هاي اجرايي قانوني در حال تلاش براي کشف تروريست ها از طريق مانيتورينگ ترافيک همه سرويس دهنده هاي اينترنت هستند اگر چه مسائل مربوط به امور شخصي همچنان از اجراي قوانين مربوطه جلوگيري به عمل مي آورد.در اين مقاله يک روش شناسي جديدي براي کشف کاربراني که به اطلاعات مفيد براي تروريست ها دسترسي دارند به وسيله پردازش ترافيکي همه سرويس دهندگان اينترنتي پيشنهاد مي گردد..معيار هاي طراحي اصلي براي روش شناسي انجام شده به شرح زير است:

1)آموزش الگوريتم کشف بايد مبتني بر محتواي سايت هاي تروريستي موجود باشد .

2)کشف بايد به صورت بلادرنگ انجام گيرد .اين هدف تنها زماني مي تواند حاصل شود که اطلاعات مورد علاقه تروريست ها به حالت فشرده براي پردازش موثر در اختيار آنها قرار گيرد.

3)حساسيت کشف بايد به وسيله پارامتر هايي که توسط کاربر تعربف مي گردد کنترل گردد که اين امر مدرج سازي عمليات کشف مطلوب را فراهم مي آورد.

اين مقاله به صورت زير سازماندهي مي گردد.در بخش دوم يک بازبيني مختصر سيستم هاي کشف ، تجزيه و تحليل خوشه اي و مدل تجزيه و تحليل برداري که بنياد تئوريکي روش شناسي را تشکيل مي دهد ارائه مي گردد.در بخش سوم روش شناسي کشف محتوا مدار جديد همراه با جزئيات توضيح داده مي شود.بخش چهارم روش شناسي را از طريق يک مطالعه موردي اوليه که براي بررسي امکانپذيري آن انجام شده توضيح مي دهد.بخش پنجم راه هايي را مورد بررسي قرار مي دهد که يک سيستم بر مبناي روش شناسي جديد مي تواند گسترش يابد.و در انتها در بخش ششم راهنما هايي براي گام هاي بعدي پژوهش مورد بحث قرار مي گيرد.

زمينه

اين پژوهش، مسائلي از زمينه هاي پژوهشي امنيت کامپيوتر و بازيابي اطلاعات و داده کاوي را با يکديگر تلفيق مي کند.زير بخش هاي زير يک دورنماي مختصري از اين عناوين و رابطه آنها با روش شناسي پيشنهاد شده را بيان مي دارد.

سيستم کشف مزاحمت

يک سيستم کشف پيشراني ، به طور مداوم عمليات را در يک محيط معين مانيتورينگ کرده و تصميم مي گيرد و معين مي کند که آيا بخشي از يک حمله خصمانه احتمالي است يا استفاده مشروع از محيط مي باشد.محيط ممکن است يک کامپيوتر يا چندين کامپيوتر متصل به شبکه يا يک شبکه باشد.سيستم کشف پيشراني انواع مختلفي از اطلاعات را درباره اعمالي که از محيط نشات مي گيرد تجزيه و تحليل کرده و احتمال اينکه آنها نشانه هايي از مزاحمت باشند را ارزيابي مي کند.يک چنان اطلاعاتي براي مثال شامل اطلاعات پيکره بندي درباره وضعيت جاري سيستم مي باشد.

معيار هاي متفاوتي براي ارزيابي يک سيتم کشف مزاحمت پيشنهاد شده است.اين معيار ها دقت ، تماميت ، عملکرد، کارآيي ، تحمل خطا ، زمان بندي و انطباق پذيري را شامل مي گردد.معيار هاي با کاربرد بيشتر نرخ مثبت حقيقي هستند که درصد اعمال خصمانه کشف شده توسط سيستم است و نرخ منفي اشتباه درصد فعاليت هاي معمولي است که سيستم به اشتباه به عنوان مخرب شناسايي مي کند.دقت، درصد هشدار هاي يافت شده براي نماياندن رفتار غير معمولي خارج از تعداد کل هشدار ها مي باشد.

مدل فضاي برداري

يک مساله اساسي در اين پژوهش ، نشان دادن متن بافت گونه صفحات وب مي باشد.به طور مشخص، نيازي براي نماياندن محتواي صفحات مرتبط با تروريست ها در برابر محتواي صفحات تازه بازديد شده به منظور محاسبه کارآي مشابهت بين آنها وجود دارد.اين مطالعه از مد ل فضاي برداري که به طوور معمول در کاربرد هاي بازيابي اطلاعات به کار مي رود استفاده مي کند. در مدل

فضاي برداري يک سند به وسيله يک تابع بردار n بعدي نمايش داده مي شود d=(w1،w2w3…) که در آن wiوزن تکرار مبناي قلم i ام را نمايش مي دهد.مشابهت بين دو سند ارائه شده به وسيله بردار ها ممکن است به وسيله استفاده از يک مقياس اندازه گيري شناخته شده برداري مانندEuclidian محاسبه گردد.علايق تروريست ها نيز به وسيله توابع برداري متفاوتي نمايش داده مي شود.مقياس مشابهت کسينوسي به طور معمول براي ارزيابي بين صفحات وب بازبيني شده و مجموعه اي از مسائل مورد علاقه تروريست ها به کار مي رود.

تکنيک هاي خوشه بندي

تجزيه و تحليل خوشه اي، فرآيند بخش بندي داده ها به گروه ها يا خوشه هاي معنا دار است به طوري که محتويات يک خوشه ويژگي هاي مشابهي دارند و در عين حال نسبت به اشيا در ديگر خوشه ها غير مشابه هستند.خوشه بندي مي تواند به عنوان يک طبقه بندي از الگوهاي فاقد برچسب ديده شود.زيرا هيچ برچسب گروهي از پيش تعين شده اي مرتبط با اشيا در مجموعه آموزش نيست.خوشه بندي منجر به ارائه فشرده اي از مجموعه هاي بزرگ اطلاعاتي مي شود.کاربرد هاي خوشه بندي از جمله در داده کاوي و بازيابي سند، بخش بندي تصوير و طبقه بندي الگو ها مي باشد.بنابر اين خوشه بندي اسناد ملاقات شده توسط کاربران اينترنتي مي تواند مجموعه اي ازاسنادي را که تعلق به موضوع واحدي دارند را آشکار کند.خوشه بندي همچنين مي تواند براي کشف ناهنجاري نيز استفاده شود.در اين مطالعه خوشه بندي صفحات وب بازيابي شده به وسيله سايت هاي مرتبط با فعاليت هاي تروريستي براي پيدا کردن مجموعه اي از موضوعات مورد علاقه تروريست ها به کار مي رود.براي هر مجموعه يک مرکز جرم محاسبه مي گردد و به وسيله مدل فضاي برداري نشان داده مي شود.

کشف محتوا مبناي فعاليت هاي تروريستي

محيط کشف

اين مطالعه يک نوع جديدي از روش شناسي کشف دانش مبنا را که از محتواي وب صفحات بازديد شده به وسيله تروريست ها استفاده مي کند بهره مي برد.

در اين مطالعه فقط به محيط بافتي صفحت وب اشاره مي گردد و تصاوير و موزيک و ويدئو کليپ ها و ديگر انواع پيچيده اطلاعات ناديده گرفته مي شود.فرض مي شود که محتواي مرتبط با ترور که به وسيله تروريست ها و پشتيبانان آنها ديده مي شود مي تواند به عنوان اطلاعات آموزشي براي فرآيند يادگيري به منظور بدست آوردن رفتار نوعي تروريست ها استفاده شود.اين رفتار نوعي براي کشف تروريست هاي بالقوه و پشتيبانان آنها مورد استفاده واقع مي گردد.يک رفتار نوعي تروريستي به صورت زير تعريف مي گردد:دسترسي به اطلاعات مرتبط با تروريست ها و پشتيبانان انها.يک تعريف مبتني بر سيستم در روش شناسي پيشنهاد شده در شکل 1 نشان داده شده است.هر کاربر تحت نظارت ،به عنوان يک کامپيوتر کاربر که يک IP ادرس معين دارد شناسايي مي گردد.در مورد يک هشدار بلادرنگ IP کشف شده مي تواند براي تعيين موقعيت کامپيوتر به کار رود و به طور اميدوارانه اي تروريست مزبور ممکن است که همچنان در حال با ان کامپيوتر باشد.

روش شناسي پيشنهاد شده 2 مد براي عمل دارد:

شناسايي رفتار نوعي تروريست ها:در اين حالت مجموعه اي از صفحات وب که مرتبط با فعاليت هاي تروريستي مي باشند دانلود شده و در قالب يک مجموعه از بردارهاا با استفاده از مدل برداري قرار داده مي شود.اطلاعات جمع آوري شده براي استنباط و نماياندن رفتار نوعي تروريست ها وپشتيبانان آنها مورد استفاده قرار مي گيرد.از آنجا که IPآدرس صفحات دانلود شده ناديده گرفته مي شود لذا محتواي يکسان يا مشابه به آدرس هاي جديد که مکررا به وسيله سايت هاي تروريستي انجام مي گيرد اثري بر روي دقت کشف روش جديد نخواهد داشت.

مانيتورينگ کاربرها:اين روش مبتني بر کشف کاربران تروريست به وسيله مقايسه محتواي صفحات ملاقات شده با رفتار نوعي تروريست ها مي باشد.محتواي بافتي اطلاعات بازبيني شده به وسيله يک کاربر روي شبکه به يک بردار به نام بردار دسترسي تبديل مي شود.هنگامي که مشابهتي بين بردار دسترسي و رفتار نوعي تروريست ها مشاهده مي گردد يک هشدار صادر مي گردد.از حقوق خصوصي کاربران معمولي پاسداري مي گردد زيرا سيستم احتياجي به ذخيره IP آدرس هاي ملاقات شده يا محتواي واقعي صفحات ديده شده ندارد.به علت رويه هاي کاهش بعديت گسترده بردار هاي دسترسي اطلاعات کافي را براي بازيابي محتواي واقعي صفحات وب ذخيره نمي کنند.

ظاهرا وظيفه ايجاد تمايز بين کاربران مشروع و تروريست ها در اينجا يک مساله است همراه با 2 طبقه بندي :تروريست و غير تروريست.اما مشهور ترين الگوريتم هاي طبقه بندي نيز ذاتا مبتني بر احتمالات هستند به علاوه آنها معمولا اختلافات بين هزينه هاي طبقه بندي نا درست اشيايي را که به طبقات ديگر تعلق دارند ناديده مي گيرند.همه اين مفروضات در مجموع هنگام ارتباط با تروريست ها بر روي وب اشتباه خواهد بود.جمعيت مانيتور شده به طور کامل غير متعادل است به طوري که درصد واقعي کل تروريست ها بر روي وب در مقاسبه با کل جمعيت وب در حد صفر خواهد بود.انتظار نمي رود که مقدار فعاليت هاي تروريستي برروي وب ثابت باشد يا در حقيقت اين مطالعه علاقه مند به نوسانات در اين مورد مي باشد. و البته از دست دان يک تروريست در انبار کاه از کاربران مشروع ممکن است هزينه بر تر از هزاران کاربر مشکوک به فعاليت هاي تروريستي باشد. بنا بر اين اين مطالعه اختصاص به پيروي از رويکرد خوشه بندي منعطف تري در کشف فعاليت هاي تروريستي دارد. و اين در حالي است که بررسي روش هاي طبقه بندي را به مطالعات آينده اختصاص مي دهد.(شکل اول-قابل دسترس ازطریق اصل مقاله)



زير بخش هاي زير مقياس فراگيري رفتار نوعي تروريست ها و الگوريتم کشف آن را نشان مي دهد.

فراگيري رفتار نوعي تروريست ها

بخش يادگيري رفتار نوعي تروريست ها روش شناسي را تعريف مي کند و و رفتار نوعي کاربران تروريستي را بر مبناي فعاليت آنها روي شبکه مورد بررسي قرار مي دهد.شکل 2 مقياس يادگيري را نشان مي دهد.فرض مي گردد که جمع آوري صفحات وب از سايت هاي تروريستي ممکن است.محتواي صفحات وب جمع اوري شده به عنوان مقياس ورودي توليد کننده در نظر گرفته مي شود و اين مقياس اين اطلاعات را به اطلاعات وزن دار تبديل مي کند.(هر صفحه به يک بردار تبديل مي شود.)بردار ها براي پردازش آينده ذخيره مي گردند.

مقياس خوشه بندي به بردار هاي مورد نظر دسترسي دارد و اين عمليات خوشه بندي منجر به n خوشه مي گردد که عناوين نوعي مشاهده شده به وسيله تروريست ها را نشان مي دهد.براي هر خوشه، مقياس نماينده تروريست ، بردار مرکز جرم را محاسبه مي کند که يک عنوان نوعي که توسط تروريست بازديد شده است را نشان مي دهد.در نتيجه مجموعه اي از بردارهاي مرکز جرم مجموعه اي از علايق تروريست ها را که نماينده رفتار نوعي آنها مي باشد نشان مي دهد.

رفتار نوعي تروريست ها بر مبناي صفحاتي از وب مي باشد که از سايت هاي مرتبط با تروريست دانلود شده است و ورودي اصلي براي الگوريتم کشف مي باشد.به منظور دقيق تر ساختن الگوريتم کشف فرآيند توليد رفتار نوعي تروريست ها بايد به طور دوره اي به علت تغييرات در محتواي سايت هاي تروريستي تکرار شود.رفتار نوعي تروريست ها به تعدادي از شاخه ها وابسته مي باشد.وقتي تعداد شاخه ها بالاتر است ،رفتار نوعي تروريست ها شامل عناوين بيشتري از موضوعات مورد علاقه تروريست ها مي گرددو وقتي که اين امر رخ مي دهد هر عنوان بر تعداد کمتري از صفحات وب استوار است.تعين تعداد مطلوب شاخه ها براي نظريه پردازي دشوار است. در مطالعه موردي ارائه شده در فصل بعد عملکرد کشف براي دو مجموعه از تعداد خوشه ها ارائه شده است.(شکل دوم-قابل دسترس از طریق اصل مقاله)



کشف رفتار نوعي تروريست ها:

در مانيتورينگ مقياس که در شکل 3 آمده است،تبديل کننده برداري ، محتواي هر يک از صفحات بازبيني شده به وسيله يک کاربر را تبديل به يک ارائه برداري مي کند.(که از آن به عنوان بردار دسترسي نام برده مي شود.)اين کشف کننده بردار دسترسي و رفتار نوعي تروريست را به کار برده و تلاش مي کند تا تعيين کند که آيا بردار دسترسي متعلق به يک تروريست است يا خير.اين امر به وسيله محاسبه مشابهت ميان بردار دسترسي و همه بردار هاي با مرکز جرم رفتار نوعي تروريست ها صورت مي گيرد.مقياس کسينوسي براي مقايسه مشابهت به کار مي رود.

کشف کننده هنگامي که مشابهتي بين بردار دسترسي و نزديکترين مرکز جرمي که بالاتر از آستانه تعريف شده به وسيله فرمول زير بدست مي آيد آلارمي را صادر مي کند.

(فرمول -قابل دسترس از طریق اصل مقاله)

Cvi در حقيقت iامين بردار مرکز جرم است.tcvi بردار دسترسي است.و m تعداد جملات در هر بردار مي باشد.

Tr پارامتر آستانه حساسيت کشف را کنترل مي کند.ارزش بالاتر tr حساسيت فرآيند کشف را مي کاهد ،تعدا آلارم ها را کاهش مي دهد،دقت را افزايش ،و تعداد آلارم هاي اشتباه را کاهش مي دهد.ارزش پايين تر tr حساسيت فرآيند کشف را افزايش مي دهد.،تعداد آلارم ها و آلارم هاي اشتباه را افزايش مي دهد.و از دقت مي کاهد.ارزش بهينه tr بستگي به ترجيحات کاربر سيستم دارد.در فصل بعدي امکان پذيري روش شناسي جديد با استفاده از يک مطالعه موردي بحث مي گردد.

(شکل سوم-قابل دسترس از طریق اصل مقاله)

مطالعه مورديچارچوب هاي آزمايشي

يک ارزيابي اوليه،از روش شناسي کشف دانش مبناي پيشنهاد شده ،توسط يک سيستم نمونه اوليه اجرا مي گردد.محيط آزمايش شامل يک شبکه کوچک از 9 کامپيوتر مي باشد که هر کامپيوتري يک IP آدرس دائم و يک سرور پراکسي دارد که از طريق آن همه کامپيوتر ها به وب دسترسي دارند.در آزمايش،سرور پراکسي به عنوان يک فراهم آورنده خدمت اينترنت (ISP)در نظر گرفته شد.به8 دانشجو در مهندسي سيستم هاي اطلاعاتي دستور داده شد تا به وب سايت هاي مرتبط به موضوعات عمومي دسترسي برقرار کنند .و در اين ميان حدود 800 مبادله را ايجاد کردند.از چندين کاربر ديگر خواسته شد تا به سايت هاي مرتبط با اطلاعات تروريستي ارتباط برقرار کنند .و در اين ميان حدود 214 مبادله را ايجاد کردند.در اين آزمايش،کاربران فقط به صفحات با زبان انگليسي دسترسي داشتند اگر چه اين روش شناسي به آساني قابل کاربرد در ديگر زبان ها نيز مي باشد.توليد کننده بردار،و مقياس هاي کشف و خوشه بندي و مقياس هاي کشف کننده اي که در بالا توضيح داده شد، پياده سازي و در داخل سرور نصب شدند.برنامه Vcluster از Cluto Clustering Tool براي پياده سازي مقياس خوشه بندي چايي که الگوريتم خوشه بندي مورد استفاده واقع شد استفاده گرديد.يک مشکل در رابطه با اين الگوريتم ها ،اين است که پيدا کردن حد بهينه K(تعدااد خوشه ها) که سبب بهترين نتيجه خوشه بندي مي گردد ،کمي دشوار است.آزمايشاتي با مقادير مختلف K انجام گرفت و نتايج مقايسه شدند.

مقياس هاي ارزيابي

براي ارزيابي عملکرد سيستم،ابزار هاي زير مورد استفاده واقع شدند:

نرخ مثبت حقيقي(که همچنين به عنوان نرخ کشف يا تکميل گري نيز شناخته مي شود.)درصد معيني از صفحات تروريستي نرخي در حول و حوش آستانه را به خود اختصاص مي دهند. که در اينجا به عنوان tr در مدل شناخته شد.در آزمايشات،صفحات تروريست ها از کاربران شبيه سازي شده بدست آمد.

نرخ مثبت اشتباه:درصد صفحات بازبيني شده منظم اينترنت که سيستم به طور غير اشتباهي به عنوان يک صفحه اينترنتي آن را منظور مي کند.براي مثال در صد صفحات غير تروريستي که نرخي در حدود آستانه دريافت مي کنند وبه طور اشتباهي به عنوان تروريست در نظر گرفته مي شوند.

دقت:درصدي از هشدار هاي مرتبط با فعاليت هاي تروريستي از تعداد کل آلارم هاي صادر شده؛

از آنجا که هيچ داده مشابه محتوا مداري هم اکنون در دسترس نمي باشد، نتايج در مقايسه با بهترين اعداد حاصل شده،از طريق ADMIT بدست آمد.

خلاصه نتايج

همان طور که در بالا گزارش داده شد،800 بردار، صفحات بازبيني شده به وسيله غير تروريست ها و 240 بردار صفحات بازبيني شده به وسيله تروريست ها را نشان مي دادند.صفحاتي که به وسيله تروريست ها بازبيني شده بودند از سايت هاي مختلف مرتبط با موضوعات تروريستي جمع آوري شده بودندو براي آموزش سيستم در روش يادگيري مورد استفاده واقع شدند.اين آزمايش و بررسي شامل گام هاي زير بود:

1. تنظيم آستانه اوليه پارامتر آستانه tr برروي صفر و تعداد اوليه خوشه بر روي عدد 9

2. انتخاب تصادفي 43 بردار از 800 بردار از مجموعه صفحاتي که توسط غير تروريست ها باز بيني شده بود. اين بردار ها براي امتحان کردن توانايي سيستم در ناديده انگاري کابران غير تروريست مورد استفاده واقع شد.تعداد يکساني از صفحات مرتبط با فعاليت هاي تروريستي نيز براي ارزيابي توانايي کشف سيستم مورد استفاده واقع شد.(گام بعدي را ببينيد.)

3. به طور تصادفي 43 بردار از 240 برداري که در رابطه با فعاليت هاي تروريستي بودند نيزبه عنوان يک مجموعه اعتبار بخش انتخاب شد.اين بردار ها براي کشف توانايي سيستم در شناسايي فعاليت هاي تروريستي مورد استفاده واقع شدند.

4.آموزش سيستم (فاز يادگيري) با استفاده از 171 بردار باقيمانده که صفحات مرتبط با فعاليت هاي تروريستي را نمايش مي دهد.به کار بردن الگوريتم خوشه بندي براي توليد مجمو عه اي از خوشه ها که عناوين مورد علاقه تروريست ها را نشان مي دهند و محاسبه مرکز جرم هر عنوان(خوشه). اين امر منجر به توليد مجموعه k بردار مي گردد که رفتار نوعي تروريست ها را نمايش مي دهد.

5.استفاده از 43 برداري که صفحات باز بيني شده به وسيله کاربر تروريست را نشان مي دهند به عنوان ورودي براي کشف کننده و مشاهده درصد بردار هاي مرتبط با فعاليت هاي تروريستي که آلارم را به صدا در مي آورند.

6 .استفاده از 43 برداري که صفخات بازبيني شده به وسيله کاربران منظم را نشان مي دهند به عنوان ورودي براي کشف کننده و و مشاهده درصدبردار هايي که به طور اشتباهي آلارم را به صدا در مي آورند. در انتها محاسبه درصد آلارم هايي که مرتبط با فعاليت هاي تروريستي هستند از کل تعداد آلارم ها(مقياس دقت)

7.تکرار گام هاي 5 و 6 براي ارزش هاي متفاوت آستانه tr بين صفر و يک.

8.تکرار گام هاي 3 تا 7 به تعداد پنج بار(هر بار مجموعه هاي متفاوتي از بردار هاي تروريستي در گام 3 براي سنجش اعتبار انتخاب مي گردد.)

9.تکرار کل فرآيند براي ارزش هاي متفاوتي از k (تعداد خوشه ها) براي ارزيابي حساسيت عملکرد سيستم نسبت به اين پارامتر.

منحني ROC(ويژگي هاي عملگر-دريافت کننده)در شکل 4،کل فرآيند ارزيابي را براي 5 و 9 خوشه توضيح مي دهد.محور X نمايانگر مثبت خطا و محور Y نمايانگر مثبت صحيح مي باشد. هر نقطه اي روي نمودار ROC يک نتيجه مثبتي از 5 جريان اعتبار متقاطع را که در هر جريان 43 بردار مرتبط با فعاليت هاي تروريستي را که براي اعتبار بخشي انتخاب شدند را نمايش مي دهد.اين گراف يک تغيير اساسي را در عملکرد در نتيجه کاستن تعداد خوشه ها از 9 به 5 نشان نمي دهد.

گراف شکل 5 ،دقت را به عنوان يک تابعي از پارامتر آستانه tr نمايش مي دهد.نتايج نشان مي دهند که دقت ،تابعي از افزايش يکنواخت آستانه است.براي يک ارزش به اندازه کافي tr نرخ مثبت اشتباه به صفر نزديک مي گردد.اما اين گراف بهترين آستانه را پيشنهاد نمي کند زيرا ،انتخاب آن بستگي به ترجيحات کاربران متفاوت دارد.(مانند آلارم اشتباه و تابع هزينه کشف)

بررسي موردي اوليه به وضوح پيشنهاد مي کند که روش شناسي پيشنهاد شده منطقي و ممکن است و سيستمي که اين روش شناسي را پياده سازي مي کند، فعاليت هاي تروريستي روي شبکه اينترنت را بر مبناي محتواي ترافيکي صفحات وب کشف مي کند.در آزمايشات ،سيستم نمونه ،به طور متوسط به tp=93% و fp=11.7% رسيد که اين امر در مقايسه با tp=70% و fp=15% که از سيستم ADMIT به دست آمد سطح عملکرد بهتر و مطلوب تري را نمايش مي دهد.(جدول۱،شکل چهارم وشکل پنجم-قابل دسترس از طریق اصل مقاله)

مسائل استقرار(گسترش):

پياده سازي سيستمي روش شناسي جديد ، مي تواند به وسيله آژانس هاي اعمال قانون به 2 طريق مختلف که هر کدام مزايا و معايب خاص خود را دارند انجام گيرد.

سيستم مبتني بر خدمات دهندگان سرويس اينترنت:پياده سازي سيستمي روش شناسي جديد، مي تواند از طريق زيرساخت هاي شرکت هاي ارائه دهنده خدمات اينترنت گسترش يابد.مزيت عمده اين گسترش اين است که ارائه دهنده خمت اينترنت قادر است تا هويت دقيق کاربر مشکوکي را که به وسيله سيستم کشف شده است از طريق IP اختصاص دادده شده به کاربر شناسايي کند.عيب يک چنان گسترشي نيز اين است که اين کار نياز به آگاهي و همکاري خدمت دهنده اينترنت دارد اين امر منجر به نقض حقوق خصوصي کاربر خدمت دهنده اينترنتي مي گردد.

سيستم مبتني بر شبکه:سيستمي که روش شناسي جديد را پياده سازي مي کند،خطوط ارتباطي را که شرکت هاي خدمت دهنده سرويس اينترنت را به پيکره بندي اينترنت متصل مي کند ،استراق سمع مي کند.در يک چنان گسترشي ،مزيت اصلي اين است که همکا ري شرکت هاي ارائه دهنده خدمت اينترنت الزامي نيست،و از حقوق خصوصي کاربران اين شرکت ها نيز حمايت مي گردد.زيرا اغلب شرکت هاي ارائه دهنده خدمت اينترنت يک IP موقت را به کاربران خود اختصاص مي دهند.عيب اصلي يک چنان گسترشي نيز اين است که،هويت دقيق کاربراني که از يک IP معين استفاده مي کنند ناشناخته بافي مي ماند.

گسترش يک سيستم به طور موثر بر مبناي يک روش شناسي جديد روي سايت ها ،که دسترسي به اينتر نت را براي کاربران تصادفي مانند کافي نت ها فراهم مي کند ،دشوار است زيرا کاربران ملزم نمي گردند تا هويت خود را براي عملگر خدمت آشکار کنند.

نتايج

در اين مقاله، يک روش شناسي نوآورانه مبتني بر دانش ،براي کشف فعاليت هاي تروريستي روي اينترنت ارائه مي گردد.نتايج بررسي موردي اوليه پيشنهاد مي کند که ،اين روش شناسي مي تواند براي کشف فعاليت هاي تروريست ها و پشتيبانان آنها که از طريق راه هاي مشروع دسترسي به اينتر نت براي مشاهده محتواي تروريستي يک سري از سايت هاي دير کشف استفاده مي کنند مورد استفاده واقع شود.

تحقيق جاري شامل 5 مسالئه اصلي زير مي گردد:

1. ارائه سند:براي اجراي يک مقايسه بين مدل فضاي برداري معمولي و مدل مبتني بر گراف جديد که مي تواند روابط بين سند متني را مشخص کند برنامه ريزي مي گردد.اين مساله مهم است زيرا تصور مي گردد که موفقيت روش شناسي مورد نظر وابسته به دقت محتواي مورد ارائه مي باشد.

2. مقياس هاي مشابهتي:در فاز مانيتورينگ ،طبقه بندي محتوا در هر صفحه بازبيني شده،وابسته به محاسبه مشابهت بين بردار دسترسي و مراکز جرم خوشه مي باشد.نيازي براي مقايسه نتايج مقياس کسينوسي با ديگر مقياس ها وجود دارد.

3. روش شناسي کشف:در محيط دنياي واقعي،نتايج واقعي تري ممکن است به وسيله مانيتورينگ صفحات به جاي زدن يک آلارم بعد از هر صفحه مشکوک حاصل شود.ايجاد يک سيستم کشف نا هنجاري،براي کشف محتواي غير عادي،که ممکن است يک نشانه اي از يک تروريست يا ديگر فعاليت هاي جنايي باشد، موضوع پژوهشي مهم ديگري است که آغاز شده است.به کار گيري روش هاي طبقه بندي براي مساله کشف تروريست ها يک موضوع جالب ديگر در اين زمينه است.

4. پيچيدگي محاسباتي:يک سيستم مبتني بر روش شناسي جديد،بايد هر صفحهHTML را که به وسيله هر مشترک ISP در حال بازبيني است مورد پردازش قرار دهد.نيازي براي کار روي کاهش محاسبات روش شناسي پيشنهاد شده وجود دارد.يک راه براي رسيدن به اين هدف،کاستن اندازه هر بردار دسترسي مي باشد.(کاهش در جهت بعد) بدون کاستن معنا دار از عملکرد سيستم.

5. چارچوب ها و تنظيمات بهينه:تجزيه و تحليل بيشتري براي تعيين چارچوب هاي سيستمي مانند تعداد خوشه ها،و آستانه کشف وجود دارد.

6. تجزيه و تحليل دو دويي ها و تصاوير:کشف ممکن است بر مبناي آميزه هايي از MD5 از تصاوير و دودويي هايي باشد که از سايت هاي مرتبط با فعاليت هاي تروريستي قابل دانلود است .اين امر ممکن است مجددا اطلاعاتي را براي خوشه بندي الگوريتم ها فراهم آورد.ويژگي هاي ديگري نيز ممکن است به وسيله دستي قابل استخراج باشد.

روش شناسي کشف ارائه شده در اينجا،ممکن است براي کشف ديگر انواع فعاليت هاي جنايي که از طريق وب انجام مي گيرد،مانند آزار جنسي کودکان از طريق دسترسي به سايت هاي هرزه نگاري قابل کاربرد باشد.



منابع:

Balasubramaniyan، J.S.، Garcia-Fernandez، J.O.، Isacoff، D.، Spafford، E.، Zamboni، D.(1998) An
architecture for intrusion detection using autonomous agents، Proceedings 14th Annual
Computer Security Applications Conference، IEEE Comput. Soc، Los Alamitos، CA، USA،
xiii+365، pp. 13-24.
Boger، Z.، Kuflik، T.، Shoval، P.، Shapira، B.(2001) Automatic keyword identification by artificial
neural networks compared to manual identification by users of filtering systems، Information
Processing and Management، 37:187-198.
Corbin، J. (2002) Al-Qaeda: In Search of the Terror Network that Threatens the World، Thunder’s
Mouth Press / Nation Books، New York.
Debar، H.، Dacier، H.، Dacier، M.، Wespi، A. (1999) Towards a taxonomy of intrusion-detection
systems، Computer Networks، 31، pp. 805–822.
Han، J.، Kamber، M. (2001) Data Mining: Concepts and Techniques، Morgan Kaufmann.
Ingram، M. (2001) Internet privacy threatened following terrorist attacks on US، URL:
http://www.wsws.org/articles/2001/sep2001/isps24.shtml
Jain، A.K.، Murty، M.N.، Flynn، P.J. (1999) Data Clustering: A Review، ACM Computing Surveys، 31،
3:264-323.
Karypis، G. (2002) CLUTO - A Clustering Toolkit، Release 2.0، University of Minnesota، URL:
http://www.users.cs.umn.edu/~karypis.../download.html.
Kelley، J. (2002) Terror Groups behind Web encryption، USA Today، URL:
http://www.apfn.org/apfn/WTC_why.htm
Last، M.، Shapira، B.، Elovici، Y. Zaafrany، O.، Kandel، A. (2001) Content-Based Methodology for
Anomaly Detection on the Web، submitted to AWIC'03، Atlantic Web Intelligence
Conference، Madrid، Spain.
Lemos، R. (2002) What are the real risks of cyberterrorism?، ZDNet، URL:
http://zdnet.com.com/2100-1105-955293.html.
Pierrea، S.، Kacanb، C.، Probstc، W. (2000) An agent-based approach for integrating user profile into a
knowledge management process، Knowledge-Based Systems، 13:307-314.
Provost، F.، Fawcett، T. (2001). Robust Classification for Imprecise Environments. Machine Learning
42،3:203-231.
Richards، K. (1999) Network Based Intrusion Detection: A Review of Technologies، Computers &
Security، 18:671-682.
Salton، G. (1989) Automatic Text Processing: the Transformation، Analysis، and Retrieval of
Information by Computer، Addison-Wesley، Reading.
Salton، G.، Wong، A.، Yang C.S.A. (1975) Vector Space Model for Automatic Indexing،
Communications of the ACM ، 18: 613-620.
Schenker، A.، Last، M.، Bunke، H.، Kandel، A. (2003) Clustering of Web Documents using a Graph
Model، to appear in: Web Document Analysis: Challenges and Opportunities، eds: A.
Antonacopoulos، J Hu. World Scientific.
Sequeira، K.، Zaki، M. (2002) ADMIT: Anomaly-based Data Mining for Intrusions، Proceedings of
SIGKDD 02، pp. 386-395، ACM.
Shapira، B.، Shoval، P.، Hanani، U. (1997) Stereotypes in Information Filtering Systems، Information
Processing & Management، 33، 3:273-287.
Spafford، E.H.، Zamboni، D. (2000) Intrusion detection using autonomous agents، Computer
Networks، 34:547-570.
Astaraki آفلاين است   پاسخ با نقل قول
از Astaraki تشكر كرده اند:
fire4love (۰۷-۱۸-۱۳۹۰), mahza (۰۸-۲-۱۳۹۱)

  #ADS
نشان دهنده تبلیغات
تبليغگر
 
 
 
تاريخ عضويت: -
محل سكونت: -
سن: 2010
پست ها: -
 

نشان دهنده تبلیغات is online  
پاسخ



كاربران در حال ديدن تاپيک: 1 (0 عضو و 1 مهمان)
 

قوانين ارسال
You may not post new threads
You may not post replies
You may not post attachments
You may not edit your posts

BB code is فعال
شکلکها فعال است
كد [IMG] فعال است
كدهاي HTML غير فعال است
Trackbacks are فعال
Pingbacks are فعال
Refbacks are فعال




زمان محلي شما با تنظيم GMT +3.5 هم اکنون ۰۹:۴۵ بعد از ظهر ميباشد.


Powered by vBulletin® Version 3.8.3
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Search Engine Friendly URLs by vBSEO 3.1.0 ©2007, Crawlability, Inc.

Teach and Learn at Hexib | Sponsored by www.Syavash.com and Product In Review

استفاده از مطالب انجمن در سایر سایت ها، تنها با ذکر انجمن هوش مصنوعي به عنوان منبع و لینک مستقیم به خود مطلب مجاز است

Inactive Reminders By Icora Web Design