عنوان
بهبود برچسب گذاري داده هاي کلاس اقليت با استفاده از روش ترکيبي
نویسنده (گان)
پناهنده شهرکي,فهيمه;زارع ميرک آباد,محمدرضا
چکیده مقاله
سرطان سينه يکي از شايع ترين انواع سرطان در ميان زنان مي باشد. پيش بيني زودهنگام اين بيماري مي تواند کمک قابل توجهي در روند بهبود درمان ايجاد نمايد. بنابراين الگوريتم هاي متفاوت داده کاوي و يادگيري ماشين براي پيش بيني خوش خيمي يا بدخيمي تومورهاي سرطان سينه مورد استفاده قرار گرفته اند. يکي از چالش ها در اين حوزه، توزيع نامتوازن داده ها است، يعني داده هاي کلاس تومورهاي بدخيم (کلاس اقليت) داراي تعدادي به مراتب کمتر از داده هاي کلاس ديگر (کلاس اکثريت) هستند . از طرفي الگوريتم هاي داده کاوي اغلب براي کار با داده هاي متوازن طراحي شده اند. اين امر ممکن است منجر به برچسب گذاري نادرست داده هاي کلاس اقليت شود. براي برخورد با اين مشکل، روش هايي براي برجسته سازي داده هاي کلاس اقليت ارائه شده است. اين روش ها عموماً از تکرار داده هاي کلاس اقليت و يا حذف داده هاي کلاس اکثريت، در راستاي توازن داده ها، استفاده مي کنند. اين مکانيزم ها ممکن است منجر به برچسب گذاري نادرست داده هاي کلاس اکثريت شود، ضمن آن که ماهيت طبيعي داده ها نيز تغيير مي کند. در اين مقاله روشي ارائه مي شود که با استفاده از الگوريتم هاي طبقه بندي ترکيبي، بدون تکرار داده هاي کلاس اقليت و يا حذف داده هاي کلاس اکثريت، به برچسب گذاري صحيح داده هاي کلاس اقليت پرداخته شود. الگوريتم ارائه شده با استفاده از خوشه بندي داده ها به سه دسته پرت، خوش آموزش و بدآموزش، ابتدا به شناسايي داده هاي پرت مي پردازد. سپس به دنبال راهکاري براي برخورد با داده هاي بدآموزش (که عمدتاً متعلق به کلاس اقليت مي باشند) مي پردازد که با اين روند خطاي ايجاد شده براي داده هاي کلاس اقليت به صورت چشمگيري کاهش مي يابد.

متن کامل مقاله