ارتقاي كيفيت دستهبندي متون با استفاده از كميته دستهبند دو سطحي
چکیده:
امروزه با توجه به رشد روز افزون دسترسي به اسناد الكترونيكي، دستهبندي خودكار اهميت ويژهاي يافته است. روشهاي معمول در اين زمينه، روشهاي يادگيري ماشين هستند. روشهاي بر اساس كميته كارايي بهتري نسبت به ساير روشها از خود نشان دادهاند. در اين مقاله، دو ايده در زمينه كميتههاي دستهبند ارائه شده است. ايده اول برمبناي كميته bagging كه در آن هركدام از اعضاي كميته روي زيرمجموعهاي از مجموعه سندهاي آموزشي، ساخته ميشوند، ارائه شده است. بر اساس اين ايده، ابتدا مجموعه آموزش با يك روش خوشهبندي به چند خوشه، بر اساس مشابهت يا عدم مشابهت كلاسهاي اسناد آموزشي، تقسيم ميشود و سپس از روي هر خوشه از اسناد، يك دستهبند ساخته شده و به عنوان عضو كميته قرار داده ميشود (روش يادگيري اعضاي كميته يكسان است). در ايده دوم ساخت كميتهاي دو سطحي مطرح شده است. در اين ايده اعضاي كميتههاي سطح دوم خود كميتههايي هستند كه بر مبناي ايده اول ساخته ميشوند. در ارزيابي ايده اول مشخص شد كه افزايش كارايي بر مبناي معيار دقت و معيار بازخواني در كميته بيزين ساده نوع اول، بيشتر از ساير كميتههاي نوع اول بوده و به ترتيب 12 درصد و 1/5 درصد ميباشد. ارزيابيها در كميته نوع دوم (برمبناي ايده دوم)، افزايش كارايي را نسبت به كميته نوع اول نشان ميدهند كه بيشترين آن نسبت به كميته Rocchio نوع اول بوده، كه معيار دقت را در حدود 8/3 درصد و معيار بازخواني را در حدود 8/18 درصد افزايش داده است.
کلمات کلیدی :
دستهبندي متون – Rocchio ، بيزين ساده – SVM ، خوشهبندي متن ، كميته دستهبندي ، كميته bagging ، Text Classification – Rocchio ، Naïve Bayesian ، SVM ، Text Clustering ، Classification Committee ، Bagging Committee
چکیده (انگلیسی):
Nowadays, the automated text classification has witnessed special importance due to the increasing availability of documents in digital form and ensuing need to organize them. Although this problem is in the Information Retrieval (IR) field, the dominant approach is based on machine learning techniques. Approaches based on classifier committees have shown a better performance than the others. In this research, in addition to study text classification techniques and classification committees, two ideas in this field are proposed. The first idea, is proposed based on Bagging committees. According to this idea, first, a training set by one of clustering techniques automatically is divided into several clusters based on class similarity (or dissimilarity). So for documents of every cluster, a classifier is trained and put in the committee as a member. In this approach the members of committee are created by the same technique. In our experiments for this idea, Naïve Bayesian, Rocchio and SVM learning techniques are used. In the second idea, the creation of two layered committee is discussed. Based on this idea, one committee can be created that its members are itself a committee. Members of subcommittees are creating based on the first idea. This idea is based on the fact that if Naïve Bayesian committee acts better than Naïve Bayesian classifier and so, a committee out of these committees will improve the performance of classification. Evaluation of the first idea showed that the improvement in performance based on precision and recall in Naïve Bayesian committee is exceeded the other committees (respectively 12 and 5.1 percent). Evaluation of the second idea showed that the improvement in performance in the second type of committee (based on the second idea) is more than that in the first type of committee (based on the first idea). Most improvement of performance in the second type of committee is referred to the Rocchio’s committee (based on precision and recall 3.8 and 18.8 percent, respectively).