Robust clustering around regression lines with high density regions
Andrea Cerioli · Domenico Perrotta
Abstract: Robust methods are needed to fit regression lines when outliers are present. In a clustering framework, outliers can be extreme observations, high leverage points, but also data points which lie among the groups. Outliers are also of paramount importance in the analysis of international trade data, which motivate our work, because they may provide information about anomalies like fraudulent transactions. In this paper we show that robust techniques can fail when a large proportion of non-contaminated observations fall in a small region, which is a likely occurrence in many international trade data sets. In such instances, the effect of a high-density region is so strong that it can override the benefits of trimming and other robust devices.We propose to solve the problem by sampling a much smaller subset of observations which preserves the cluster structure and retains the main outliers of the original data set. This goal is achieved by defining the retention probability of each point as an inverse function of the estimated density function for the whole data set. We motivate our proposal as a thinning operation on a point pattern generated by different components. We then apply robust clustering methods to the thinned data set for the purposes of classification and outlier detection. We show the advantages of our method both in empirical applications to international trade examples and through a simulation study.
خوشه بندی مطمئن حول خطوط رگرسیون با ناحیه شدت بالا
Andrea Cerioli · DomenicoPerrotta
چکيده
وقتی نقاط دو ر افتاده در مجموعه دادههاموجود باشد، روشهای قوی برای متناسب سازی خطوط رگرسیون مورد نیاز میباشد.در یک چارچوب خوشه بندی، دور افتاده ها یا نقاط پرت،، میتوانند شامل مشاهدات زیاد، نقاط با قدرت بالاو همچنین نقاط با قدرت بالا و همچنین نقاط دادهای که در میان گروهها قرار دارند، باشند.نقاط پرت یا دورافتاده ها از اهمیت خاصی در بررسی دادهها در معاملات بینالمللی برخوردارند که انگیزه تحقیق ما را به خود جلب کردهاند، زیرا ممکن است ، اطلاعات درباره غیر متعارف مانند معاملات فریب آمیز را فراهم سازند. در این مقاله ، نشان خواهیم داد که تکنیک روشهای قوی، زمانی که بخش اعظمی از مشاهدات غیر واقعی در یک مقیاس کوچک بررسی شوند میتوانند شکست پذیر باشند. مثال آن در وقوع رخدادهای در حجم زیادی از جایگاهها در معاملات بینالمللی میباشد. در چنین مثالهایی تاثیر یک ناحیه با شدت بالا، آنچنان قوی است که میتواند، بر مزایایBenefits وtrimming ابزارهی قوی برتری جوید.ما سعی در حل مشکل با نمونه گیری از یک زیرمجموعه کوچکتر از مشاهدات داریم که ساختار مجموعه داده را حفظ نماید و دور افتادههای اصلی مجموعه را نیز مشخص میسازد.
این هدف را ابتدا با تعین احتمالات هر نقطه به عنوان یک تابع برآورد معکوس شده بر میانگیزیم و سپس روشهای خوشه بندی قوی را برای مجموعه داده های کم تولید شده به منظور طبقه بندی و تشخیص نقاط دور افتاده، اعمال مینماییم. همچنین مزایای این روش را در دو حالت از کاربردهای تجربی برای مثالهای تجارت بینالمللی و از طریق یک تحقیق شبیه سازی نشان میدهیم.
قیمت : 30000 تومان
دانلود اصل مقاله رایگان
دانلود ترجمه مقاله