با ما تماس بگیرید

0912 484 6329

ایمیل ما

editacdmy@gmail.com

داده های پرت - اصلی

داده های پرت: شناسایی و اصول حذف آن ها

64 Views

داده پرت چیست؟

داده‌های پرت، مقادیر غیرمعمول در مجموعه داده‌های شما هستند و می‌توانند تحلیل‌های آماری را تحریف کرده و فرضیات آنها را نقض کنند. متأسفانه، همه تحلیلگران با داده‌های پرت مواجه می‌شوند و مجبور می‌شوند در مورد نحوه برخورد با آنها تصمیم بگیرند. با توجه به مشکلاتی که می‌توانند ایجاد کنند، ممکن است فکر کنید که بهتر است آنها را از داده‌های خود حذف کنید. اما، همیشه اینطور نیست. حذف داده‌های پرت فقط به دلایل خاص قانونی است.

در زیر نموداری را می بینیم که یک داده پرت را نمایش می‌دهد.

داده پرت در نمودار

داده‌های پرت می‌توانند در مورد موضوع و فرآیند جمع‌آوری داده‌ها بسیار آموزنده باشند. درک چگونگی وقوع داده‌های پرت و اینکه آیا ممکن است دوباره به عنوان بخشی عادی از فرآیند یا حوزه مطالعه رخ دهند، ضروری است. متأسفانه، مقاومت در برابر وسوسه حذف نامناسب داده‌های پرت می‌تواند دشوار باشد. داده‌های پرت، تغییرپذیری داده‌های شما را افزایش می‌دهند که قدرت آماری را کاهش می‌دهد. در نتیجه، حذف داده‌های پرت می‌تواند باعث شود نتایج شما از نظر آماری معنادار شوند.

در پست دیگری، پنج روش برای شناسایی داده‌های پرت نشان خواهیم داد. با این حال، شناسایی فقط اولین قدم است. تصمیم‌گیری در مورد نحوه برخورد با داده‌های پرت به بررسی علت اصلی آنها بستگی دارد.

در این پست، به شما کمک می‌کنیم تا تصمیم بگیرید که آیا باید داده‌های پرت را از مجموعه داده‌های خود حذف کنید یا خیر و چگونه داده‌های خود را هنگامی که نمی‌توانید آنها را حذف کنید، تجزیه و تحلیل کنید. اقدام مناسب به علت ایجاد داده‌های پرت بستگی دارد. به طور کلی، سه دلیل برای داده‌های پرت وجود دارد – خطاهای ورود داده‌ها یا اندازه‌گیری، مشکلات نمونه‌گیری و شرایط غیرمعمول و تغییرات طبیعی.

سه دلیل وجود داده های پرت

1- خطاهای ورود داده‌ها و اندازه‌گیری و داده‌های پرت

خطاها می‌توانند در طول اندازه‌گیری و ورود داده‌ها رخ دهند. در طول ورود داده‌ها، اشتباهات تایپی می‌توانند مقادیر عجیبی ایجاد کنند. تصور کنید که ما در حال اندازه‌گیری قد مردان بالغ هستیم و مجموعه داده‌های زیر را جمع‌آوری می‌کنیم.

داده پرت 2

در این مجموعه داده‌ها، مقدار ۱۰.۸۱۳۵ به وضوح یک داده پرت است. نه تنها این مقدار برجسته است، بلکه یک مقدار ارتفاع غیرممکن نیز هست. با بررسی دقیق‌تر اعداد، به این نتیجه می‌رسیم که صفر ممکن است تصادفی بوده باشد. امیدواریم بتوانیم یا به رکورد اصلی برگردیم یا حتی موضوع را دوباره اندازه‌گیری کنیم تا ارتفاع صحیح را تعیین کنیم.

این نوع خطاها، مواردی هستند که به راحتی قابل درک هستند. اگر تشخیص دادید که یک مقدار پرت، خطا است، در صورت امکان مقدار را اصلاح کنید. این می‌تواند شامل اصلاح غلط املایی یا احتمالاً اندازه‌گیری مجدد مورد یا فرد باشد. اگر این امکان وجود ندارد، باید نقطه داده را حذف کنید زیرا می‌دانید که مقدار نادرستی است.

2- مشکلات نمونه‌گیری می‌تواند باعث ایجاد موارد پرت شود

آمار استنباطی از نمونه‌ها برای نتیجه‌گیری در مورد یک جمعیت خاص استفاده می‌کند. مطالعات باید یک جمعیت را به دقت تعریف کنند و سپس یک نمونه تصادفی از آن به طور خاص انتخاب کنند. این فرآیندی است که یک مطالعه می‌تواند در مورد یک جمعیت اطلاعات کسب کند.

متأسفانه، مطالعه شما ممکن است به طور تصادفی یک مورد یا شخصی را که از جمعیت هدف نیست، به دست آورد. چندین دلیل برای وقوع این امر وجود دارد. به عنوان مثال، رویدادها یا ویژگی‌های غیرمعمول می‌توانند رخ دهند که از جمعیت تعریف شده منحرف می‌شوند. شاید آزمایشگر، مورد یا موضوع را تحت شرایط غیرعادی اندازه‌گیری کند. در موارد دیگر، می‌توانید به طور تصادفی موردی را جمع‌آوری کنید که خارج از جمعیت هدف شما قرار می‌گیرد و بنابراین، ممکن است ویژگی‌های غیرمعمولی داشته باشد.

نمونه‌هایی از مسائل نمونه‌گیری

بیایید با چند مثال این موضوع را روشن کنیم!

فرض کنید یک مطالعه، قدرت یک محصول را ارزیابی می‌کند. محققان، جمعیت را به عنوان خروجی فرآیند تولید استاندارد تعریف می‌کنند. فرآیند عادی شامل مواد استاندارد، تنظیمات تولید و شرایط است. اگر در بخشی از مطالعه اتفاق غیرمعمولی رخ دهد، مانند قطع برق یا خارج شدن تنظیمات دستگاه از مقدار استاندارد، می‌تواند بر محصولات تأثیر بگذارد. این شرایط غیرعادی تولید می‌تواند با ایجاد محصولاتی با مقادیر قدرت غیرمعمول، باعث ایجاد داده‌های پرت شود. محصولاتی که تحت این شرایط غیرمعمول تولید می‌شوند، منعکس‌کننده جمعیت هدف شما از محصولات فرآیند عادی نیستند. در نتیجه، می‌توانید این نقاط داده را به طور قانونی از مجموعه داده‌های خود حذف کنید.

تصویر اشعه ایکس از پاها. در طول یک مطالعه تراکم استخوان، محققین متوجه یک داده پرت در رشد تراکم استخوان برای یک آزمودنی شدند. مقدار رشد او بسیار غیرمعمول بود. هماهنگ‌کننده آزمودنی مطالعه متوجه شد که آزمودنی دیابت دارد که بر سلامت استخوان تأثیر می‌گذارد. هدف مطالعه مدل‌سازی رشد تراکم استخوان در دختران قبل از نوجوانی بدون هیچ بیماری مؤثر بر رشد استخوان بود. در نتیجه، داده‌های او از تجزیه و تحلیل ما حذف شدند زیرا او عضوی از جمعیت هدف نبود.

اگر بتوانید ثابت کنید که یک مورد یا شخص، نماینده جمعیت هدف شما نیست، می‌توانید آن نقطه داده را حذف کنید. با این حال، باید بتوانید علت یا دلیل خاصی را برای اینکه چرا آن مورد نمونه با جمعیت هدف شما مطابقت ندارد، نسبت دهید.

3- تغییرات طبیعی می‌تواند داده‌های پرت ایجاد کند

علل قبلی داده‌های پرت، چیزهای بدی هستند. آنها انواع مختلفی از مشکلاتی را نشان می‌دهند که باید آنها را اصلاح کنید. با این حال، تغییرات طبیعی نیز می‌توانند داده‌های پرت ایجاد کنند – و این لزوماً یک مشکل نیست.

همه توزیع‌های داده‌ها دارای پراکندگی مقادیر هستند. مقادیر حدی می‌توانند رخ دهند، اما احتمال وقوع آنها کمتر است. اگر حجم نمونه شما به اندازه کافی بزرگ باشد، مطمئناً مقادیر غیرمعمولی به دست خواهید آورد. در یک توزیع نرمال، تقریباً از هر ۳۴۰ مشاهده، ۱ مورد حداقل سه انحراف معیار از میانگین فاصله خواهد داشت. با این حال، احتمال تصادفی ممکن است شامل مقادیر حدی در مجموعه داده‌های کوچکتر باشد! به عبارت دیگر، فرآیند یا جمعیتی که شما در حال مطالعه آن هستید، ممکن است به طور طبیعی مقادیر عجیبی تولید کند. هیچ مشکلی با این نقاط داده وجود ندارد. آنها غیرمعمول هستند، اما بخش عادی توزیع داده‌ها هستند.

داده پرت 3

مثالی از تغییرات طبیعی که باعث ایجاد یک داده پرت می‌شود

ترومان داده پرت

عکسی از ترومن که روزنامه‌ای را در دست دارد. به عنوان مثال، ما مدلی را برازش می‌دهم که از رتبه‌بندی‌های تاریخی محبوبیت روسای جمهور ایالات متحده برای پیش‌بینی اینکه مورخان بعدی در نهایت چگونه هر رئیس جمهور را رتبه‌بندی می‌کنند، استفاده می‌کند. معلوم می‌شود که پایین‌ترین رتبه‌بندی محبوبیت یک رئیس جمهور، رتبه‌بندی مورخ را پیش‌بینی می‌کند. با این حال، یک نقطه داده به شدت بر مدل تأثیر می‌گذارد. رئیس جمهور ترومن با مدل برازش ندارد. او پایین‌ترین رتبه‌بندی محبوبیت بسیار پایین ۲۲٪ را داشت، اما مورخان بعدی رتبه نسبتاً خوبی از شماره ۶ به او دادند. اگر آن مشاهده واحد را حذف کنیم، ضریب تعیین (R) بیش از ۳۰ درصد افزایش می‌یابد!

با این حال، هیچ دلیل موجهی برای حذف آن نقطه وجود نداشت. اگرچه این یک چیز عجیب و غریب بود، اما به طور دقیق شگفتی‌ها و عدم قطعیت بالقوه ذاتی در سیستم سیاسی را منعکس می‌کند. اگر آن را حذف کنیم، مدل باعث می‌شود که فرآیند قابل پیش‌بینی‌تر از آنچه در واقع است به نظر برسد. اگرچه این مشاهده غیرمعمول تأثیرگذار است، ما آن را در مدل باقی گذاشتم. حذف نقاط داده صرفاً برای تولید یک مدل برازش بهتر یا نتایج آماری معنی‌دار، عمل نادرستی است.

اگر مقدار حدی (extreme value)، مشاهده‌ای مشروع و بخشی طبیعی از جمعیتی است که شما مطالعه می‌کنید، باید آن را در مجموعه داده‌ها باقی بگذارید. به زودی توضیح خواهم داد که چگونه مجموعه داده‌هایی را که حاوی داده‌های پرت هستند و نمی‌توانید آنها را حذف کنید، تجزیه و تحلیل کنید!

دستورالعمل‌هایی برای برخورد با داده‌های پرت

گاهی اوقات بهتر است داده‌های پرت را در داده‌های خود نگه دارید. آنها می‌توانند اطلاعات ارزشمندی را که بخشی از منطقه مورد مطالعه شماست، ثبت کنند. حفظ این نکات می‌تواند دشوار باشد، به خصوص هنگامی که اهمیت آماری را کاهش می‌دهد! با این حال، حذف مقادیر حدی صرفاً به دلیل افراطی بودن آنها می‌تواند با حذف اطلاعات مربوط به تغییرپذیری ذاتی در منطقه مورد مطالعه، نتایج را تحریف کند. شما منطقه مورد مطالعه را مجبور می‌کنید که کمتر از آنچه در واقعیت است، متغیر به نظر برسد.

هنگام بررسی اینکه آیا یک داده پرت را حذف کنید، باید ارزیابی کنید که آیا به طور مناسب منعکس کننده جمعیت هدف، منطقه موضوعی، سوال تحقیق و روش تحقیق شما است یا خیر. آیا هنگام اندازه‌گیری این مشاهدات اتفاق غیرمعمولی رخ داده است، مانند قطعی برق، شرایط آزمایشگاهی غیرطبیعی یا هر چیز دیگری خارج از هنجار؟ آیا چیز اساساً متفاوتی در مورد یک مشاهده، چه یک شخص، یک کالا یا یک تراکنش، وجود دارد؟ آیا خطاهای اندازه‌گیری یا ورود داده‌ها رخ داده است؟

اگر داده پرت مورد نظر:

  • خطای اندازه‌گیری یا خطای ورود داده‌ها، در صورت امکان خطا را اصلاح کنید. اگر نمی‌توانید آن را اصلاح کنید، آن مشاهده را حذف کنید زیرا می‌دانید که نادرست است.
  • اگر بخشی از جمعیتی که شما در حال مطالعه آن هستید (یعنی ویژگی‌ها یا شرایط غیرمعمول) نباشد، می‌توانید به طور قانونی داده پرت را حذف کنید.
  • اگر بخشی طبیعی از جمعیتی که شما در حال مطالعه آن هستید، نباید آن را حذف کنید.

هنگامی که تصمیم به حذف داده‌های پرت می‌گیرید، نقاط داده حذف شده را مستند کنید و دلیل خود را توضیح دهید. باید بتوانید دلیل خاصی را برای حذف داده‌های پرت ذکر کنید. رویکرد دیگر این است که تجزیه و تحلیل را با و بدون این مشاهدات انجام دهید و تفاوت‌ها را مورد بحث قرار دهید. مقایسه نتایج به این روش به ویژه زمانی مفید است که در مورد حذف یک داده پرت مطمئن نیستید و زمانی که اختلاف نظر قابل توجهی در یک گروه در مورد این سوال وجود دارد.

تحلیل‌های آماری که می‌توانند داده‌های پرت را مدیریت کنند

وقتی نمی‌توانید داده‌های پرت را به طور قانونی حذف کنید، اما آنها فرضیات تحلیل آماری شما را نقض می‌کنند، چه می‌کنید؟ شما می‌خواهید آنها را در نظر بگیرید اما نمی‌خواهید نتایج را تحریف کنند. خوشبختانه، تحلیل‌های آماری مختلفی برای این کار وجود دارد. در اینجا چندین گزینه وجود دارد که می‌توانید امتحان کنید.

آزمون‌های فرضیه ناپارامتری در برابر داده‌های پرت مقاوم هستند. برای این جایگزین‌ها برای آزمون‌های پارامتری رایج‌تر، داده‌های پرت لزوماً فرضیات آنها را نقض نمی‌کنند یا نتایج آنها را تحریف نمی‌کنند.

در تحلیل رگرسیون، می‌توانید داده‌های خود را تبدیل کنید یا از یک تحلیل رگرسیون قوی موجود در برخی از بسته‌های آماری استفاده کنید.

در نهایت، تکنیک‌های بوت‌استرپ از داده‌های نمونه به همان شکلی که هستند استفاده می‌کنند و فرضیاتی در مورد توزیع‌ها ایجاد نمی‌کنند.

این نوع تحلیل‌ها به شما امکان می‌دهند بدون نقض فرضیات و ایجاد انحراف در نتایج، کل تغییرپذیری مجموعه داده‌های خود را ثبت کنید.

مطالب مرتبط مفید

آکادمی ویرایش ایران

آکادمی ویرایش ایران از سال 1395 فعالیت حرفه ای خود را در زمینه ویرایش تخصصی مقالات علمی (ویرایش نیتیو)، ترجمه فارسی به انگلیسی حرفه ای مقالات برای ارسال به ژورنال های ISI و آموزش مقاله نویسی تخصصی و جامع آغاز کرد.

بدون نظر

پاسخگوی سوالات و نظرات شما هستیم

•   •   •   •   •   •   •   •   •   •   •   •   •   •   •   •   •   •   •   •   •   •   •   •   •   •   •   •   •   •   •  

نظرات شما