
هک کردن p یا p-hacking در آمار
تعریف هک P
هک P مجموعهای از تصمیمات آماری و انتخابهای روششناسی در طول تحقیق است که به طور مصنوعی نتایج آماری معناداری تولید میکند. این تصمیمات احتمال مثبت کاذب را افزایش میدهد – یعنی مطالعه نشان میدهد اثری وجود دارد در حالی که در واقع وجود ندارد. هک P همچنین به عنوان لایروبی دادهها (data dredging)، ماهیگیری دادهها (data fishing) و جاسوسی دادهها (data snooping) یا سلاخی/ذبح داده ها (data butchery) شناخته میشود.
هک P دستکاری تجزیه و تحلیل دادهها تا زمانی است که نتایج آماری معناداری تولید کند و صحت یافتهها را به خطر بیندازد. این عمل مشکلساز، یکپارچگی تحقیقات علمی را تضعیف میکند.
این امر به این دلیل رخ میدهد که مجلات با ضریب تأثیر بالا، در چشمانداز علمی امروز، به شدت از نتایج آماری معنادار حمایت میکنند. برای محققان، انتشار مقاله در این رسانههای معتبر، یک دستاورد شغلی است. با این حال، این اعتبار با فشاری همراه است که میتواند محققان را به سمت مسیر خطرناک هک کردن p یا لایروبی داده ها وسوسه کند.
تاریخچه هک کردن p
اصطلاح هک کردن p در طول یک بحران در جامعه علمی متولد شد. دانشمندان در تلاش بودند زیرا برخی از یافتههای برجسته آنها در تکرار شکست میخورد. یک پروژه تحقیقاتی در مقیاس بزرگ که ۱۰۰ مطالعه مهم قبلی را تکرار کرد، نشان داد که ۶۴٪ از آنها بار دوم معنادار نبودند. شکست عظیم در تکرار دو سوم از نتایج معنادار نشان میدهد که اکثر مطالعات اولیه مثبت کاذب بودهاند. مطلب ما راجع به تکرارپذیری را بخوانید.
با افزایش نگرانی، محققان سعی کردند علل نتایج مثبت کاذب را پیدا کنند. مظنون؟ برخی از شیوههای تحقیقاتی عمیقاً ریشهدار. با پیچیدهتر شدن طرح، مشخص شد که هک کردن p نقش اصلی را در این بحران تکرار در حال وقوع داشته است.
همه مطالعات نرخ مثبت کاذب دارند: یعنی احتمال نتیجهگیری از وجود یک اثر یا رابطه (یعنی نتایج معنادار) ، در حالی که وجود ندارد. آمارشناسان از آن به عنوان نرخ خطای نوع اول در آزمایش فرضیه یاد میکنند. وقتی همه چیز را به درستی انجام میدهید، نرخ خطا برابر با سطح معناداری شما است (مثلاً 0.05 یا 5٪).
هک کردن p این نرخ مثبت کاذب را، گاهی اوقات به شدت افزایش میدهد! مطالعات مثبت کاذب معمولاً وقتی دانشمندان آنها را تکرار میکنند، نتایج معناداری را تولید نمیکنند – که بحران تکرار را توضیح میدهد. واضح است که شکست 64 درصدی تکرارپذیری در مطالعه فوقالذکر بسیار بیشتر از حد انتظار است!
نکتهی کلیدی این است که اثرات مضر هک کردن p واقعی هستند و نه نظری. دانشمندان پیش از این تأثیر آن را در ادبیات مربوط به بحران تکرار مشاهده کردهاند. علاوه بر این، تحقیقات، فراوانی بیش از حد مقادیر p را درست زیر 0.05 نشان دادهاند. این نتایج نشان میدهد که محققان مطالعات خود را تا زمانی که مقادیر p خود را درست زیر آستانهی اهمیت استاندارد 0.05 قرار دهند، اصلاح کردهاند.
دربارهی خطای نوع اول و نوع دوم در آزمون فرضیه بیشتر بدانید.
منشا و بحث پیرامون اصطلاح هک کردن p
سیمونسون، نلسون و سیمونز نویسندگان مطالعات برجستهای در زمینهی هک کردن p یا لایروبی داده ها هستند و این اصطلاح را در یک کنفرانس روانشناسی در سال 2012 معرفی کردند. آنها میخواستند نامی به یاد ماندنی برای مجموعهی این شیوهها ایجاد کنند. اگرچه این اصطلاح جذاب است، اما بحثی را در بین آمارشناسان برانگیخته است. منتقدان استدلال میکنند که کلمهی «هک کردن» به این معنی است که فقط به دستکاری عمدی فریبنده اشاره دارد. در واقع، این کلمه هم برای موارد غیرعمدی و هم برای موارد عمدی کاربرد دارد.
- هک کردن غیرعمدی دادهها: بسیاری از محققان کاملاً متوجه نمیشوند که در حال هک کردن دادهها هستند. با وجود روشهای بسیار زیاد برای تجزیه و تحلیل دادهها (تصور کنید که در میان هزارتوی مسیرها سرگردان هستید)، به راحتی میتوان ناآگاهانه به سمت تصمیمات جانبدارانه منحرف شد. این مانند متقاعد کردن خودمان است که مسیر کوتاهتر و آسانتر، مسیر «درست» است، حتی زمانی که اینطور نیست.
- هک کردن عمدی دادهها: هک کردن دادهها میتواند دستکاری عمدی با استفاده از یک روش آزمون و خطای تکراری باشد که به نتایج قابل توجهی دست مییابد. در اینجا، محققان آگاهانه تحلیل خود را برای ایجاد نتایج دلخواه خود تغییر میدهند. این شبیه تغییر عمدی شواهد در صحنه جرم برای ایجاد یک روایت گمراهکننده است.
هک کردن دادهها، چه آگاهانه انجام شود و چه نباشد، حقیقت را مبهم میکند و جستجوی دانش را به خطر میاندازد. بیایید نگاهی به نحوه وقوع هک کردن دادهها و بهترین شیوهها برای جلوگیری از آن بیندازیم.
روشهای هک P
هک P طیف گستردهای از روشها را پوشش میدهد. مشکل این است که همه مطالعات مستلزم آن است که محققان تصمیمات متعددی در مورد جمعآوری دادهها، دستکاری متغیرها، تکنیکهای تجزیه و تحلیل و گزارش نتایج بگیرند. انتخابهای صحیح برای تولید نتایج معتبر بسیار مهم است.
برخی از روشهای زیر در صورت انجام صحیح میتوانند تصمیمات مشروعی باشند. هک P به مواردی اشاره دارد که محققان انتخابهای ضعیفی انجام میدهند که نتایج آماری معنیداری را به همراه دارد.
تحقیقات، رایجترین روشهای هک P زیر را شناسایی کردهاند. با این حال، روشهای متعدد دیگری نیز مانند استفاده از متغیر کمکی (covariates)، حذف شرکت کنندگان و غیره وجود دارد.
قوانین توقف
پی-هکرها ممکن است پس از دستیابی به یک نتیجه قابل توجه، جمعآوری دادهها را متوقف کنند و نیاز به حجم نمونه از پیش تعیینشده را نادیده بگیرند.
توقف اختیاری، یا همانطور که برخی آن را «سرک کشیدن به دادهها» مینامند، زمانی است که یک محقق همزمان با جمعآوری دادهها، به آزمایش فرضیه خود ادامه میدهد. به محض اینکه به یک نتیجه قابل توجه میرسند، جمعآوری دادهها را متوقف میکنند. این مانند اعلام زودهنگام پیروزی در یک بازی قبل از پایان رسمی آن است.
این خاتمه زودهنگام جمعآوری دادهها، یک تکنیک p-hacking است که میتواند خطاهای نوع اول را افزایش دهد.
دادههای پرت
دادههای پرت میتوانند به طور قابل توجهی بر دادههای شما تأثیر بگذارند. هکرهای P ممکن است بر اساس اینکه آیا به آنها در دستیابی به معناداری کمک میکند یا خیر، حذف دادههای پرت را انتخاب کنند. تصمیمگیری در مورد دادههای پرت در حالت ایدهآل باید بر اساس مبانی نظری در مورد متغیر و مسائل اندازهگیری مربوط به مشاهدات خاص باشد. تأثیر دادههای پرت بر مقدار p نباید به هیچ وجه یک عامل باشد.
“پیرایش دادهها” یک شکل رایج از p-hacking است که در آن محققان به طور انتخابی دادههای پرت را حذف میکنند. با وجود روشهای بسیار زیاد برای شناسایی دادههای پرت (39 روش رایج!)، امکان دور زدن قوانین وجود دارد. به علاوه، گزارش در مورد نحوه برخورد محققان با دادههای پرت اغلب ناقص است و پنهان کردن پیرایش دادهها را آسانتر میکند. برخی از مطالعات حتی به آن اشاره نمیکنند و منجر به تفاوتهای غیرقابل توضیح در اندازه نمونهها و درجه آزادی میشوند. بنابراین، مراقب دادههای پرت مبهم باشید!
حذف دادههای پرت، تغییرپذیری دادهها را کاهش میدهد و در نتیجه قدرت آماری را افزایش میدهد. با این حال، شما به طور بالقوه نقاط داده مشروع را حذف میکنید و تحلیل خود را بر اساس یک مجموعه داده غیرطبیعی بنا میکنید.
دستکاری متغیر
محققان اغلب به دلایل موجه مختلف نیاز به دستکاری متغیرهای خود دارند. اما هکرهای p برای ایجاد معناداری آماری تغییراتی ایجاد میکنند.
در حوزه هک p، تحلیلگران ممکن است برای ایجاد معناداری، دادههای خود را به روشهایی برش دهند، زیرگروهبندی کنند یا زیرمجموعهبندی کنند در حالی که چیدمان اولیه این حالت را ایجاد نمی کرد. به عنوان مثال، ترکیب گروههای مقایسه، کدگذاری مجدد یک متغیر پیوسته به یک متغیر گسسته و بررسی تنها زیرمجموعهای از نمونه میتواند معناداری آماری ایجاد کند که در غیر این صورت وجود نداشت. در تحلیل رگرسیون، تبدیل غیرضروری متغیرهای مستقل و وابسته میتواند معناداری بیموردی ایجاد کند.
به گفته استفان و شونبروت، یکی از رایجترین اشکال هک p، تغییر متغیر پیامد اولیه در حین انجام مطالعه است. محققان دادهها را بررسی میکنند و سپس پیامد اولیه خود را به متغیری تغییر میدهند که به نظر میرسد احتمال بیشتری برای دستیابی به معناداری دارد. به عنوان مثال، یک مطالعه پزشکی دیابت با ردیابی سطح گلوکز خون شروع میشود، اما پس از شش ماه به معیار پیامد دیگری تغییر میکند زیرا احتمال بیشتری دارد که نتایج آماری معناداری ایجاد کند.
این «جابجایی goal posts یا اصطلاحا دبه کردن!» نمونهای کلاسیک از هک کردن p است که متغیر پیامد یا نتیجه مطالعه را در میانه جریان برای دستیابی به معناداری آماری تغییر میدهد.
در بدترین موارد، محققان از رویکرد آزمون و خطا برای دستکاری متغیرها تا زمانی که معناداری آماری ایجاد شود، استفاده میکنند. تغییر طراحی و تحلیل مطالعه برای دستیابی به معناداری، نرخ مثبت کاذب را افزایش میدهد.
آزمایش فرضیه بیش از حد و مقایسههای چندگانه
وقتی محققان آزمونهای فرضیه زیادی انجام میدهند، احتمال برخورد تصادفی با یک نتیجه آماری معنادار را صرفاً به صورت تصادفی افزایش میدهند. یک آزمون فرضیه واحد، مثبت کاذب (نرخ خطای نوع اول) برابر با سطح معناداری (مثلاً 0.05) دارد. برای مجموعهای از آزمونهای فرضیه، نرخ خطای خانواده برای هر آزمون اضافی افزایش مییابد.
مثل این است که چندین بار یک سکه را پرتاب کنید؛ دیر یا زود یک سری شیر خواهید داشت. اما به یاد داشته باشید، این به معنای سوگیری سکه نیست، همانطور که یک نتیجه معنادار در میان آزمونهای متعدد لزوماً به معنای یک یافته معنادار نیست.
به همین ترتیب، هرچه گروههای بیشتری توسط محققان مقایسه شوند، شانس یافتن یک نتیجه معنادار صرفاً تصادفی بیشتر میشود. اصلاح مقایسههای چندگانه برای حفظ یکپارچگی نتایج ضروری است.
علاوه بر این، هکرهای p ممکن است چندین نوع از یک تحلیل را اجرا کنند، تحلیلهای مشابه را امتحان کنند، فرضیات را کنار بگذارند و هر بار چیزهای کوچکی را تغییر دهند – مانند متغیرهای کنترل یا زیرمجموعههای دادههای مورد استفاده. آنها این فرآیند را تا زمانی که به یک نتیجه معنادار برسند، ادامه میدهند.
محققان باید آزمایشهایی را که در طول یک مطالعه انجام میدهند محدود کنند و از اصلاحات مناسب برای مقایسههای چندگانه و آزمونهای فرضیه استفاده کنند.
درباره مقایسههای چندگانه Post Hoc و اصلاح Bonferroni بعدا مطلبی خواهیم نوشت.
برازش بیش از حد مدل
این مشکل مانند آزمایش فرضیه بیش از حد است، اما به برازش مدلهای رگرسیون مختلف زیادی مربوط میشود. هکرهای P میتوانند با مدلهای آماری متعددی آزمایش کنند تا زمانی که مدلی را پیدا کنند که نتایج مطلوب را ارائه دهد. این فرآیند زمانی مشکلساز میشود که انتخاب مدل به جای مناسب بودن برای دادهها و سوال تحقیق، بر اساس اهمیت آماری باشد.
در حالی که کنترل متغیرهای مخدوشکننده با گنجاندن آنها در مدل ضروری است، میتواند یک شمشیر دولبه باشد. تصمیمگیری در مورد اینکه کدام متغیرها را کنترل کنیم، میتواند به شکل دیگری از هک p تبدیل شود، به خصوص اگر محققان تصمیم خود را بر اساس دنبال کردن اهمیت آماری به جای دلایل نظری و موضوعی بنا کنند.
اگر مدلهای زیادی را برازش دهید و از اهمیت آماری برای راهنمایی خود استفاده کنید، میتوانید مدلهایی تولید کنید که روابط را در دادههای تولید شده تصادفی “توضیح” دهند.
این تکنیک هک p مخفیانه محدود به تحلیلهای رگرسیون نیست؛ میتواند هر زمان که گزینهای برای انتخاب متغیرها وجود داشته باشد، اتفاق بیفتد.
گزارش گزینشی نتایج
این روش p-hacking شامل گزینش گزینشی نتایج و آزمونهای فرضیه برای گزارش است، در حالی که از بحث در مورد نتایج غیرمعنیدار و تغییرات در طراحی مطالعه خودداری میکند. این روش با تأکید بیش از حد بر اهمیت و کماهمیت جلوه دادن نقاط ضعف و یافتههای غیرمعنیدار، تصور نادرستی از قدرت نتایج ایجاد میکند.
به عنوان مثال، یک مطالعه ممکن است نتایج مختلف زیادی را اندازهگیری کند و فقط برای یکی از آنها نتیجهی معناداری پیدا کند. یا آنها آزمونهای فرضیهی زیادی انجام میدهند و فقط تعداد کمی را که نتایج آماری معناداری دارند ارائه میدهند و به راحتی آنهایی را که معناداری ندارند، کنار میگذارند. این رویکرد شبیه نشان دادن یک فیلم کوتاه بدون نمایشهای بیاهمیت است.
اگر یک مطالعه عمدتاً نتایج غیرمعنیدار پیدا کند، دلیل خوبی برای زیر سوال بردن یافتههای اندک و مهم آن خواهید داشت. با این حال، اگر گزارش، انبوهی از نتیجهگیریهای غیرمعنیدار را مورد بحث قرار ندهد، شما زمینهی مناسب برای ارزیابی نتایج را نخواهید دانست.
علاوه بر این، مجموعهای از یافتههای بیمعنی که به دنبال آن نتیجهای معنادار حاصل میشود، زنگ خطری برای روشهای آزمون و خطای قبلی است که در بالا توضیح دادیم.
بهترین شیوهها برای جلوگیری از هک کردن P
هرچه عمیقتر به روشهای هک کردن P میپردازیم، به طور فزایندهای مشخص میشود که چقدر آسان میتوان عمداً یا سهواً به این شیوهها روی آورد. این امر اهمیت آموزش آماری صحیح و تعهد تزلزلناپذیر به صداقت علمی را برجسته میکند. هدف این است که داستان دادهها را آنطور که هست بیان کنید، نه آنطور که دوست داریم باشد.
هک کردن P میتواند بیسروصدا پایههای تحقیقات علمی را از بین ببرد. اما ناامید نشوید. در اینجا چند شیوه برتر برای نگه داشتن شما در مسیر درست آورده شده است.
یک برنامه تحقیقاتی شفاف تدوین کنید
قبل از انجام تحقیق، یک برنامه دقیق ایجاد کنید. این برنامه باید شامل فرضیهها، روشهای جمعآوری دادهها و تجزیه و تحلیلهای شما باشد. این نقشه راه روشن به شما کمک میکند تا از رویکرد آزمون و خطای هک کردن P برای انجام دستکاری متغیرها و تغییرات تجزیه و تحلیل دادهها تا زمانی که به نتایج قابل توجهی نرسیدهاید، جلوگیری کنید.
مطالعات خود را از قبل ثبت کنید
قبل از انجام مطالعه، برنامه تحقیقاتی خود را به صورت عمومی مشخص کنید. این رویکرد وسوسه انحراف بر اساس یافتههای موقت را بیشتر کاهش میدهد. و به سایر محققان نشان میدهد که میتوانند تحقیقات شما را جدیتر بگیرند. میتوانید مطالعات را در مکانهایی مانند مرکز علوم باز (cos.io) از قبل ثبت کنید.
گزارشدهی شفاف
تمام مراحل خود، حتی مراحل نه چندان موفق را گزارش دهید. صداقت بهترین متحد شما در تحقیق است. این شفافیت شامل تعریف گروههای مقایسه از قبل، گزارش همه متغیرها، همه شرایط، همه استثنائات دادهها، همه آزمایشها و همه معیارها است.
آموزش و پرورش
بسیاری از مطالعات هک شده توسط p ناشی از عدم درک مشکلات است نه فریبکاریهای مخرب. اطمینان حاصل کنید که درک قوی از اصول آماری دارید و از مشکلات هک شدن توسط p آگاه هستید. یادگیری مداوم ابزاری ضروری در مجموعه هر محققی است. این یکی از دلایل زیادی است که فکر میکنم درک آمار حیاتی است.
راه های دیگر هم تصحیح بونفرونی، روش شفه و نرخ کشف کاذب هستند.
در نهایت، به یاد داشته باشید که هر تصمیمی که در طول تجزیه و تحلیل آماری گرفته میشود، بر نتایج تأثیر میگذارد. هک شدن توسط p ممکن است همیشه یک عمل عمدی فریب نباشد. این اغلب میتواند ناشی از عدم درک اصول آماری باشد.
رعایت این شیوههای برتر میتواند تحقیقات ما را قوی و یافتههای ما را معتبر نگه دارد. اجتناب از هک کردن دادهها فقط به معنای تضمین نتایج معتبر نیست؛ بلکه به معنای حفظ یکپارچگی فرآیند علمی است.
پاسخگوی سوالات و نظرات شما هستیم