Robust clustering around regression lines with high density regions

Robust clustering around regression lines with high density regions
Andrea Cerioli · Domenico Perrotta

Abstract: Robust methods are needed to fit regression lines when outliers are present. In a clustering framework, outliers can be extreme observations, high leverage points, but also data points which lie among the groups. Outliers are also of paramount importance in the analysis of international trade data, which motivate our work, because they may provide information about anomalies like fraudulent transactions. In this paper we show that robust techniques can fail when a large proportion of non-contaminated observations fall in a small region, which is a likely occurrence in many international trade data sets. In such instances, the effect of a high-density region is so strong that it can override the benefits of trimming and other robust devices.We propose to solve the problem by sampling a much smaller subset of observations which preserves the cluster structure and retains the main outliers of the original data set. This goal is achieved by defining the retention probability of each point as an inverse function of the estimated density function for the whole data set. We motivate our proposal as a thinning operation on a point pattern generated by different components. We then apply robust clustering methods to the thinned data set for the purposes of classification and outlier detection. We show the advantages of our method both in empirical applications to international trade examples and through a simulation study.

خوشه­ بندی مطمئن حول خطوط رگرسیون با ناحیه شدت بالا

Andrea Cerioli · DomenicoPerrotta

 

چکيده

وقتی نقاط دو ر افتاده در مجموعه داده­هاموجود باشد، روشهای قوی برای متناسب سازی خطوط رگرسیون مورد نیاز می­باشد.در یک چارچوب خوشه بندی، دور افتاده ها یا نقاط پرت،، می­توانند شامل مشاهدات زیاد، نقاط با قدرت بالاو هم­چنین نقاط با قدرت بالا و هم­چنین نقاط داده­ای که در میان گروه­ها قرار دارند، باشند.نقاط پرت یا دورافتاده ها از اهمیت خاصی­ در بررسی داده­ها در معاملات بین­المللی برخوردارند که انگیزه تحقیق ما را به خود جلب کرده­اند، زیرا ممکن است ، اطلاعات درباره غیر متعارف مانند معاملات فریب آمیز را فراهم سازند. در این مقاله ، نشان خواهیم داد که تکنیک روشهای قوی، زمانی که بخش اعظمی از مشاهدات غیر واقعی در یک مقیاس کوچک بررسی شوند می­توانند شکست پذیر باشند. مثال آن در وقوع رخداد­های در حجم زیادی از جایگاه­ها در معاملات بین­المللی می­باشد. در چنین مثال­هایی تاثیر یک ناحیه با شدت بالا، آنچنان قوی است که می­تواند، بر مزایایBenefits وtrimming ابزار­هی قوی برتری جوید.ما سعی در حل مشکل با نمونه گیری از یک زیرمجموعه کوچکتر از مشاهدات داریم که ساختار مجموعه داده را حفظ نماید و دور افتاده­های اصلی مجموعه را نیز مشخص می­سازد.

این هدف را ابتدا با تعین احتمالات هر نقطه به عنوان یک تابع برآورد معکوس شده بر می­انگیزیم و سپس روش­های خوشه بندی قوی را برای مجموعه داده های کم تولید شده به منظور طبقه بندی و تشخیص نقاط دور افتاده، اعمال می­نماییم. هم­چنین مزایای این روش را در دو حالت از کاربردهای تجربی برای مثال­های تجارت بین­المللی و از طریق یک تحقیق شبیه سازی نشان می­دهیم.

قیمت : 30000 تومان

300,000 ریال – خرید

همچنین ببینید

کار تحقیقی بررسی حقوقی تملک آپارتمانها

قانون تملک آپارتمان‌ها ازمصادیق قوانین تحدید مالکیت می‌باشد مفاد این قانون درصدد ایجاد رفاه حال …