Unlabeling data can improve classification accuracy

In this study we focus on the effects of sample limitations on partially supervised learning algorithms. We analyze the performance of these types of learning algorithms on small datasets under varying trade-offs between labeled and unlabeled samples. In contrast to the typical settings for partially supervised learning algorithms, the number of available unlabeled samples is also restricted.
We utilize gene expression datasets, which are typical examples of data collections of small sample size. DNA microarrays are used to generate these profiles by measuring thousands of mRNA values simultaneously. These profiles are increasingly used for tumor categorization. Partially labeled microarray datasets occur naturally in the diagnostic setting if the corresponding labeling process is time consuming or expensive (i.e., ‘‘early relapse’’ vs. ‘‘late relapse’’).
Surprisingly, the best classification results in our study were not always achieved for a maximal proportion of labeled samples. This is unexpected as asymptotical results for an unlimited amount of samples suggest that a labeled sample is of an exponentially higher value than an unlabeled one. Our analysis shows that in the case of finite sample sizes a more balanced trade-off between labeled and unlabeled samples is optimal. This trade-off was not unique over all experiments. It could be shown that the optimal trade-off between unlabeled and labeled samples is mainly dependent on the chosen learning algorithm.

در این تحقیق ما بر تأثیرات محدودیتهای نمونه بر الگوریتم های یادگیری تا حدی نظارتی متمرکز می شویم. ما عملکرد این انواع الگوریتم های یادگیری، در مجموعه داده های کوچک را تحت معاوضه های مختلف بین نمونه های برچسب دار و بدون برچسب تحلیل و بررسی می کنیم. در مقابل زمینه های خاص برای الگوریتم های یادگیری تا حدی نظارتی، تعداد نمونه های بدون برچسب موجود همچنین محدود می شود.
ما مجموعه  داده های نمایش ژنی، که مثال های خاصی از نمونه مجموعه های داده کوچک اندازه هستند، را به کار می گیریم. ریز دستهDNA برای تولید پروفیل ها، به واسطه سنجش هزاران مقدارmRNA، به طور همزمان مورد استفاده قرار می گیرد. این پروفیل ها، به طور فزایده ای برای دسته بندی تومور مورد استفاده قرار می گیرند. تا حدی مجموعه داده های برچسب دار ریز دسته ، به طور طبیعی در زمینه تشخیصی رخ می¬دهد، اگر که فرایند برچسب زنی متناظر وقت گیر و پر هزینه باشد.
به طور جالب توجهی، بهترین نتایج دسته بندی در تحقیق ما، همیشه برای یک نسبت حداکثری نمونه¬های برچسب دار حاصل نمی شود. این غیر منظره است، از آنجایی که نتایج مجانبی برای یک مقدار نامحدود از نمونه ها پیشنهاد می کند که یک نمونه برچسب دار، نسبت به یک مورد بدون برچسب، یک مقدار بالاتر به لحاظ نمایی است. تحلیل ما نشان می دهد که در یک مورد اندازه های نمونه محدود، یک معاوضه متعادلتر بین نمونه های برچسب دار و بدون برچسب بهینه و مطلوب است. این معاوضه در سراسر کل آزمایشات منحصر به فرد نمی باشد. می توان نشان داد که معاوضه بهینه بین نمونه های برچسب دار و بدون برچسب عمدتاً مستقل از الگوریتم یادگیری انتخابیست.

قیمت: 30000 تومان

300,000 ریال – خرید

همچنین ببینید

کار تحقیقی بررسی حقوقی تملک آپارتمانها

قانون تملک آپارتمان‌ها ازمصادیق قوانین تحدید مالکیت می‌باشد مفاد این قانون درصدد ایجاد رفاه حال …