شناسایی بدافزار با داده کاوی
ظهور گسترده بد افزار به عنوان وسیله ای برای جرائم اینترنتی و ناتوانی روش های قدیمی ضد بدافزار در مقابل جریان پیوسته تولید انواع ناشناخته و تراریخته آن، رقابتی دائم را در زمینه مبارزه با این پدیده ایجاد نموده است. از این رو پژوهشهای اخیر در حال گام برداشتن به سوی شناخت بدافزار با استفاده از مشخصات غیر قابل تغییر آن هستند. در روش های متداول کنونی برای شناخت بد افزار ها از روشهای مقایسه الگوهایی که در فایل اجرایی بد افزار موجود است با پایگاه داده نرم افزار ضد بد افزار استفاده می شود. که این نوع شناسایی برای بد افزار های که به صورت پویا فایل اجرایی خود را تغییر می دهند مناسب نیستند. ما روش جدیدی برای ردیابی بدافزار با استفاده از اطلاعات موجود در سرآیند فایلهای اجرایی قابل حمل ویندوز معرفی کرده ایم که در صورت هر گونه تغییر در فایل اجرایی بد افزار قابل شناسایی است. روش ما ابتدا توابع رابط برنامه نویسی استفاده شده توسط هر فایل اجرایی را از سرآیند فایل خوانده ، سپس شاخص های جداکننده و مرتبط با دامنه پژوهش را استخراج می نماید و از این شاخص ها برای کلاس بندی بدافزار نا شناخته استفاده می کند. در صورت تغییر در فایل اجرایی فقط ترتیب شناسه ها عوض میشود که بر روی مدل ساخته شده تاثیری ندارد . آزمایش های انجام شده بر روی تعداد زیادی بدافزار و برنامه های بی ضرر نشان دهنده برتری این روش نسبت به روش های گذشته بوده، بطوریکه این تکنیک بر اساس سه فاکتور نرخ رهگیری ، میزان هشدار های نادرست و دقت کلاس بندی از پژوهشهای دیگر پیشی گرفته است.
ما در این مقاله روشی را برای آنالیز و دسته بندی کردن فایل های قابل اجرا ارائه می دهیم. روشی که ارائه شده است بر پایه استفاده از تکنیک های داده کاوی استوار شده است. روش ارائه شده در این مقاله بر این ایده بنا شده که فراخوانی های API در فایل های اجرایی می توانند دانش خوبی از رفتار و هدف فایل های اجرایی در
اختیار قرار دهد. داده ای که در این تحقیق جمع آوری شده، بر خلاف کارهای صورت گرفته بسیار بزرگتر است و انواع مختلف بدافزارها از جمله ویروس ها، کرم ها، جاسوس افزارها و ... را در بر می گیرد. مجموعا تعداد 32000 فایل مخرب از انواع بدافزارها و حدود 3000 فایل سالم که شامل فایل های سیستم عامل ویندوز از ویراست های مختلف این سیستم عامل و تعداد زیادی ابزار قابل حمل می شود، جمع آوری شده است. نرخ رهگیری که در این تحقیق بدست آمده حدود 99.3% است که از نتایج بدست آمده از تمام روش های قبلی بهتر است. نتایج بدست آمده در این تحقیق نشان می دهد که روش ارائه شده در این مقاله روشی است قابل اعتماد برای مقابله با حملات مخرب بدافزارها.
بسته ارائه شده در این مقاله شامل سه بخش کلی است. بخش اول شامل آنالیز کننده فایل های اجرایی است که فایل ها را خوانده سپس فراخوانی های API را که در فایل های اجرایی وارد شده، از آن ها استخراج می کند. بخش دوم وظیفه تولید و انتخاب خصیه ها را دارد. خصیصه هایی که در این بخش تولید می شوند خصیصه هایی تمییز دهنده و قابل تفسیر بر اساس دانش این زمینه هستند. این خصیصه ها از اطلاعاتی که از بخش اول بدست آمده تولید و انتخاب می شوند.
سومین بخش شامل (Classifier) است که فایل ها را بر اساس خصیصه های آن ها به دو بخش فایل های سالم و مخرب دسته بندی می کند. ما در این بخش تعداد زیادی از روش های دسته بندی کردن از جمله نیو بیز و درخت تصمیم را مورد آزمون قرار دادیم.
ساختار مقاله به این صورت است: در بخش 2 بطور خلاصه کار های انجام شده را بررسی می کند، معماری کامل بسته در بخش 3 ارائه می شود. نحوه جمع آوری داده و خصوصیات آن در بخش 4 بحث می شود. نحوه تولید و انتخاب خصیصه ها در بخش 5 توضیح داده شده است. آزمایشات و نتایج بدست آمده نیز در بخش 6 آمده و بخش 7 نتیجه گیری می کند.