داده های پرت: شناسایی و اصول حذف آن ها
داده پرت چیست؟
دادههای پرت، مقادیر غیرمعمول در مجموعه دادههای شما هستند و میتوانند تحلیلهای آماری را تحریف کرده و فرضیات آنها را نقض کنند. متأسفانه، همه تحلیلگران با دادههای پرت مواجه میشوند و مجبور میشوند در مورد نحوه برخورد با آنها تصمیم بگیرند. با توجه به مشکلاتی که میتوانند ایجاد کنند، ممکن است فکر کنید که بهتر است آنها را از دادههای خود حذف کنید. اما، همیشه اینطور نیست. حذف دادههای پرت فقط به دلایل خاص قانونی است.
در زیر نموداری را می بینیم که یک داده پرت را نمایش میدهد.

دادههای پرت میتوانند در مورد موضوع و فرآیند جمعآوری دادهها بسیار آموزنده باشند. درک چگونگی وقوع دادههای پرت و اینکه آیا ممکن است دوباره به عنوان بخشی عادی از فرآیند یا حوزه مطالعه رخ دهند، ضروری است. متأسفانه، مقاومت در برابر وسوسه حذف نامناسب دادههای پرت میتواند دشوار باشد. دادههای پرت، تغییرپذیری دادههای شما را افزایش میدهند که قدرت آماری را کاهش میدهد. در نتیجه، حذف دادههای پرت میتواند باعث شود نتایج شما از نظر آماری معنادار شوند.
در پست دیگری، پنج روش برای شناسایی دادههای پرت نشان خواهیم داد. با این حال، شناسایی فقط اولین قدم است. تصمیمگیری در مورد نحوه برخورد با دادههای پرت به بررسی علت اصلی آنها بستگی دارد.
در این پست، به شما کمک میکنیم تا تصمیم بگیرید که آیا باید دادههای پرت را از مجموعه دادههای خود حذف کنید یا خیر و چگونه دادههای خود را هنگامی که نمیتوانید آنها را حذف کنید، تجزیه و تحلیل کنید. اقدام مناسب به علت ایجاد دادههای پرت بستگی دارد. به طور کلی، سه دلیل برای دادههای پرت وجود دارد – خطاهای ورود دادهها یا اندازهگیری، مشکلات نمونهگیری و شرایط غیرمعمول و تغییرات طبیعی.
سه دلیل وجود داده های پرت
1- خطاهای ورود دادهها و اندازهگیری و دادههای پرت
خطاها میتوانند در طول اندازهگیری و ورود دادهها رخ دهند. در طول ورود دادهها، اشتباهات تایپی میتوانند مقادیر عجیبی ایجاد کنند. تصور کنید که ما در حال اندازهگیری قد مردان بالغ هستیم و مجموعه دادههای زیر را جمعآوری میکنیم.

در این مجموعه دادهها، مقدار ۱۰.۸۱۳۵ به وضوح یک داده پرت است. نه تنها این مقدار برجسته است، بلکه یک مقدار ارتفاع غیرممکن نیز هست. با بررسی دقیقتر اعداد، به این نتیجه میرسیم که صفر ممکن است تصادفی بوده باشد. امیدواریم بتوانیم یا به رکورد اصلی برگردیم یا حتی موضوع را دوباره اندازهگیری کنیم تا ارتفاع صحیح را تعیین کنیم.
این نوع خطاها، مواردی هستند که به راحتی قابل درک هستند. اگر تشخیص دادید که یک مقدار پرت، خطا است، در صورت امکان مقدار را اصلاح کنید. این میتواند شامل اصلاح غلط املایی یا احتمالاً اندازهگیری مجدد مورد یا فرد باشد. اگر این امکان وجود ندارد، باید نقطه داده را حذف کنید زیرا میدانید که مقدار نادرستی است.
2- مشکلات نمونهگیری میتواند باعث ایجاد موارد پرت شود
آمار استنباطی از نمونهها برای نتیجهگیری در مورد یک جمعیت خاص استفاده میکند. مطالعات باید یک جمعیت را به دقت تعریف کنند و سپس یک نمونه تصادفی از آن به طور خاص انتخاب کنند. این فرآیندی است که یک مطالعه میتواند در مورد یک جمعیت اطلاعات کسب کند.
متأسفانه، مطالعه شما ممکن است به طور تصادفی یک مورد یا شخصی را که از جمعیت هدف نیست، به دست آورد. چندین دلیل برای وقوع این امر وجود دارد. به عنوان مثال، رویدادها یا ویژگیهای غیرمعمول میتوانند رخ دهند که از جمعیت تعریف شده منحرف میشوند. شاید آزمایشگر، مورد یا موضوع را تحت شرایط غیرعادی اندازهگیری کند. در موارد دیگر، میتوانید به طور تصادفی موردی را جمعآوری کنید که خارج از جمعیت هدف شما قرار میگیرد و بنابراین، ممکن است ویژگیهای غیرمعمولی داشته باشد.
نمونههایی از مسائل نمونهگیری
بیایید با چند مثال این موضوع را روشن کنیم!
فرض کنید یک مطالعه، قدرت یک محصول را ارزیابی میکند. محققان، جمعیت را به عنوان خروجی فرآیند تولید استاندارد تعریف میکنند. فرآیند عادی شامل مواد استاندارد، تنظیمات تولید و شرایط است. اگر در بخشی از مطالعه اتفاق غیرمعمولی رخ دهد، مانند قطع برق یا خارج شدن تنظیمات دستگاه از مقدار استاندارد، میتواند بر محصولات تأثیر بگذارد. این شرایط غیرعادی تولید میتواند با ایجاد محصولاتی با مقادیر قدرت غیرمعمول، باعث ایجاد دادههای پرت شود. محصولاتی که تحت این شرایط غیرمعمول تولید میشوند، منعکسکننده جمعیت هدف شما از محصولات فرآیند عادی نیستند. در نتیجه، میتوانید این نقاط داده را به طور قانونی از مجموعه دادههای خود حذف کنید.
تصویر اشعه ایکس از پاها. در طول یک مطالعه تراکم استخوان، محققین متوجه یک داده پرت در رشد تراکم استخوان برای یک آزمودنی شدند. مقدار رشد او بسیار غیرمعمول بود. هماهنگکننده آزمودنی مطالعه متوجه شد که آزمودنی دیابت دارد که بر سلامت استخوان تأثیر میگذارد. هدف مطالعه مدلسازی رشد تراکم استخوان در دختران قبل از نوجوانی بدون هیچ بیماری مؤثر بر رشد استخوان بود. در نتیجه، دادههای او از تجزیه و تحلیل ما حذف شدند زیرا او عضوی از جمعیت هدف نبود.
اگر بتوانید ثابت کنید که یک مورد یا شخص، نماینده جمعیت هدف شما نیست، میتوانید آن نقطه داده را حذف کنید. با این حال، باید بتوانید علت یا دلیل خاصی را برای اینکه چرا آن مورد نمونه با جمعیت هدف شما مطابقت ندارد، نسبت دهید.
3- تغییرات طبیعی میتواند دادههای پرت ایجاد کند
علل قبلی دادههای پرت، چیزهای بدی هستند. آنها انواع مختلفی از مشکلاتی را نشان میدهند که باید آنها را اصلاح کنید. با این حال، تغییرات طبیعی نیز میتوانند دادههای پرت ایجاد کنند – و این لزوماً یک مشکل نیست.
همه توزیعهای دادهها دارای پراکندگی مقادیر هستند. مقادیر حدی میتوانند رخ دهند، اما احتمال وقوع آنها کمتر است. اگر حجم نمونه شما به اندازه کافی بزرگ باشد، مطمئناً مقادیر غیرمعمولی به دست خواهید آورد. در یک توزیع نرمال، تقریباً از هر ۳۴۰ مشاهده، ۱ مورد حداقل سه انحراف معیار از میانگین فاصله خواهد داشت. با این حال، احتمال تصادفی ممکن است شامل مقادیر حدی در مجموعه دادههای کوچکتر باشد! به عبارت دیگر، فرآیند یا جمعیتی که شما در حال مطالعه آن هستید، ممکن است به طور طبیعی مقادیر عجیبی تولید کند. هیچ مشکلی با این نقاط داده وجود ندارد. آنها غیرمعمول هستند، اما بخش عادی توزیع دادهها هستند.

مثالی از تغییرات طبیعی که باعث ایجاد یک داده پرت میشود

عکسی از ترومن که روزنامهای را در دست دارد. به عنوان مثال، ما مدلی را برازش میدهم که از رتبهبندیهای تاریخی محبوبیت روسای جمهور ایالات متحده برای پیشبینی اینکه مورخان بعدی در نهایت چگونه هر رئیس جمهور را رتبهبندی میکنند، استفاده میکند. معلوم میشود که پایینترین رتبهبندی محبوبیت یک رئیس جمهور، رتبهبندی مورخ را پیشبینی میکند. با این حال، یک نقطه داده به شدت بر مدل تأثیر میگذارد. رئیس جمهور ترومن با مدل برازش ندارد. او پایینترین رتبهبندی محبوبیت بسیار پایین ۲۲٪ را داشت، اما مورخان بعدی رتبه نسبتاً خوبی از شماره ۶ به او دادند. اگر آن مشاهده واحد را حذف کنیم، ضریب تعیین (R) بیش از ۳۰ درصد افزایش مییابد!
با این حال، هیچ دلیل موجهی برای حذف آن نقطه وجود نداشت. اگرچه این یک چیز عجیب و غریب بود، اما به طور دقیق شگفتیها و عدم قطعیت بالقوه ذاتی در سیستم سیاسی را منعکس میکند. اگر آن را حذف کنیم، مدل باعث میشود که فرآیند قابل پیشبینیتر از آنچه در واقع است به نظر برسد. اگرچه این مشاهده غیرمعمول تأثیرگذار است، ما آن را در مدل باقی گذاشتم. حذف نقاط داده صرفاً برای تولید یک مدل برازش بهتر یا نتایج آماری معنیدار، عمل نادرستی است.
اگر مقدار حدی (extreme value)، مشاهدهای مشروع و بخشی طبیعی از جمعیتی است که شما مطالعه میکنید، باید آن را در مجموعه دادهها باقی بگذارید. به زودی توضیح خواهم داد که چگونه مجموعه دادههایی را که حاوی دادههای پرت هستند و نمیتوانید آنها را حذف کنید، تجزیه و تحلیل کنید!
دستورالعملهایی برای برخورد با دادههای پرت
گاهی اوقات بهتر است دادههای پرت را در دادههای خود نگه دارید. آنها میتوانند اطلاعات ارزشمندی را که بخشی از منطقه مورد مطالعه شماست، ثبت کنند. حفظ این نکات میتواند دشوار باشد، به خصوص هنگامی که اهمیت آماری را کاهش میدهد! با این حال، حذف مقادیر حدی صرفاً به دلیل افراطی بودن آنها میتواند با حذف اطلاعات مربوط به تغییرپذیری ذاتی در منطقه مورد مطالعه، نتایج را تحریف کند. شما منطقه مورد مطالعه را مجبور میکنید که کمتر از آنچه در واقعیت است، متغیر به نظر برسد.
هنگام بررسی اینکه آیا یک داده پرت را حذف کنید، باید ارزیابی کنید که آیا به طور مناسب منعکس کننده جمعیت هدف، منطقه موضوعی، سوال تحقیق و روش تحقیق شما است یا خیر. آیا هنگام اندازهگیری این مشاهدات اتفاق غیرمعمولی رخ داده است، مانند قطعی برق، شرایط آزمایشگاهی غیرطبیعی یا هر چیز دیگری خارج از هنجار؟ آیا چیز اساساً متفاوتی در مورد یک مشاهده، چه یک شخص، یک کالا یا یک تراکنش، وجود دارد؟ آیا خطاهای اندازهگیری یا ورود دادهها رخ داده است؟
اگر داده پرت مورد نظر:
- خطای اندازهگیری یا خطای ورود دادهها، در صورت امکان خطا را اصلاح کنید. اگر نمیتوانید آن را اصلاح کنید، آن مشاهده را حذف کنید زیرا میدانید که نادرست است.
- اگر بخشی از جمعیتی که شما در حال مطالعه آن هستید (یعنی ویژگیها یا شرایط غیرمعمول) نباشد، میتوانید به طور قانونی داده پرت را حذف کنید.
- اگر بخشی طبیعی از جمعیتی که شما در حال مطالعه آن هستید، نباید آن را حذف کنید.
هنگامی که تصمیم به حذف دادههای پرت میگیرید، نقاط داده حذف شده را مستند کنید و دلیل خود را توضیح دهید. باید بتوانید دلیل خاصی را برای حذف دادههای پرت ذکر کنید. رویکرد دیگر این است که تجزیه و تحلیل را با و بدون این مشاهدات انجام دهید و تفاوتها را مورد بحث قرار دهید. مقایسه نتایج به این روش به ویژه زمانی مفید است که در مورد حذف یک داده پرت مطمئن نیستید و زمانی که اختلاف نظر قابل توجهی در یک گروه در مورد این سوال وجود دارد.
تحلیلهای آماری که میتوانند دادههای پرت را مدیریت کنند
وقتی نمیتوانید دادههای پرت را به طور قانونی حذف کنید، اما آنها فرضیات تحلیل آماری شما را نقض میکنند، چه میکنید؟ شما میخواهید آنها را در نظر بگیرید اما نمیخواهید نتایج را تحریف کنند. خوشبختانه، تحلیلهای آماری مختلفی برای این کار وجود دارد. در اینجا چندین گزینه وجود دارد که میتوانید امتحان کنید.
آزمونهای فرضیه ناپارامتری در برابر دادههای پرت مقاوم هستند. برای این جایگزینها برای آزمونهای پارامتری رایجتر، دادههای پرت لزوماً فرضیات آنها را نقض نمیکنند یا نتایج آنها را تحریف نمیکنند.
در تحلیل رگرسیون، میتوانید دادههای خود را تبدیل کنید یا از یک تحلیل رگرسیون قوی موجود در برخی از بستههای آماری استفاده کنید.
در نهایت، تکنیکهای بوتاسترپ از دادههای نمونه به همان شکلی که هستند استفاده میکنند و فرضیاتی در مورد توزیعها ایجاد نمیکنند.
این نوع تحلیلها به شما امکان میدهند بدون نقض فرضیات و ایجاد انحراف در نتایج، کل تغییرپذیری مجموعه دادههای خود را ثبت کنید.
پاسخگوی سوالات و نظرات شما هستیم