انتخاب ویژگی به این معناست که از میان ویژگیهای زیادی که در اختیار دارید (هر داده دارای تعدادی ابعاد است به هر بعد یک ویژگی می گویند) بهترین ویژگیها را انتخاب کنید و بقیه را دور بریزید که میتوان آن را به صورت کاهش بعد نیز بیان کرد. یعنی داده ها ابتدا دارای m بعد هستند و بعد از عمل انتخاب ویژگیها تعداد ابعاد به n تقلیل می یابد n<m
مثلا برای همین مساله، شما برای هر متن تعدادی ویژگی استخراج میکنید که می تونین از اونها برای دسته بندی و افتراق میان متنها استفاده کنین. مثلا 100 تا ویزگی برای هر متن (همون داده)
که باید عمل دسته بندی داده ها (متنها) در این 100 بعد صورت بگیرد.
به دلیل اینکه ابعاد بالاست و ممکن است تعدادی از این ویژگیها نامرتبط باشند (نتیجه دسته بندی را بدتر میکنند) و یا به هم وابسته باشند(میتوان یک ویژگی را بر اساس ویژگی دیگر تعریف کرد) میخواهیم ابعاد را بکاهیم (با استفاده از روشهای انتخاب ویژگی)
من تو این زمینه دقیق نمیدونم چه ویژگیهایی مناسبند. مثلا ویژگیهای مورد استفاده میتونه تعداد کلمات خاص باشه یا گروهها و category ها و چیزهای دیگه.
مثلا تو زمینه شناسایی چهره ویژگیها میتونه رنگ چهره، فاصله بین چشمها، قطر چشم، فاصله از پیشانی تا نوک بینی، طول و عرض بینی، طول و عرض دهان، طول و عرض صورت و بقیه چیزها باشه. حالا شما تصور کن ما از ویژگی فاصله دو نقطه نزدیک به هم مربوط به چشمها و طول چشم و فاصله دو نقطه مربوط به چشم ها که در دورترین هستند استفاده کرده ایم. واضح است که میتوانیم با استفاده از ویژگی اول و دوم، ویژگی سوم را به دست آوریم. این یک مثال بود تو بعضی مسائل نمیشه انقدر راحت وابستگیا رو پیدا کرد و دستی اون ویژگی را حذف کرد. بلکه باید به وسیله روشهای انتخاب ویژگی این کارو کرد. که یکیش بر اساس الگوریتمهایی هست که تعدادی از ویژکیهارو انتخاب میکنه داده ها رو دسته بندی میکنه و بعدش دوباره یک مجموعه دیکرو انتخاب میکنه و دوباره عمل دسته بندی انجام میده تا ببینه کدوم مجموعه از ویژگیها بهترین نتیجه رو میده. میتونیم از روشهای بهینه سازی مانند ژنتیک و ... هم استفاده کرد.
|