
مقدمه:
پدیده داده های گمشده یکی از واقعیت های اجتناب ناپذیر در فرایند گردآوری اطلاعات آماری به شمار می رود؛ واقعیتی که از همان مراحل آغازین کار میدانی و تلاش برای دریافت پاسخ از واحدهای انتخاب شده در نمونه شکل می گیرد. در عمل، دستیابی به مجموعه ای کامل از داده ها به ندرت رخ می دهد و همواره بخشی از اطلاعات به دلایل گوناگون ثبت نمی شود یا در دسترس قرار نمی گیرد. این وضعیت که با عنوان بی پاسخی نیز شناخته می شود، نه تنها بر حجم داده های قابل استفاده اثر می گذارد، بلکه می تواند ساختار برآوردهای آماری و تفسیر نتایج را نیز دگرگون سازد. به همین دلیل، مسئله مقادیر گمشده به تدریج به یکی از محورهای مهم در مباحث روش شناسی آمارگیری تبدیل شده و توجه گسترده ای را در پژوهش های مرتبط با خطاهای نمونه گیری و اریبی برآوردها به خود اختصاص داده است.
در دهه های اخیر، تمرکز بر سازوکارهای ایجاد داده های گمشده چشم انداز تازه ای در فهم این پدیده ایجاد کرده است. تمایز میان گمشدگی کاملاً تصادفی، گمشدگی تصادفی وابسته به متغیرهای مشاهده شده و مقادیر گمشده ای که نادیده گرفتن آن ها پیامدهای جدی در برآوردها به همراه دارد، نشان می دهد که ماهیت فقدان داده صرفاً یک کمبود عددی ساده نیست، بلکه با ساختار احتمالی جامعه آماری و روابط میان متغیرها پیوند دارد. چنین برداشتی سبب شده است که تحلیل داده در حضور مقادیر ناقص، به حوزه ای تخصصی با چارچوب های نظری و روش های محاسباتی متنوع تبدیل شود؛ حوزه ای که در آن انتخاب شیوه مواجهه با داده های گمشده می تواند مسیر نتایج آماری را به طور معناداری تغییر دهد.
روش های گوناگونی برای برخورد با این وضعیت شکل گرفته اند که هر یک بر مبنای مفروضات متفاوتی درباره الگوی گمشدگی داده ها استوار هستند. رویکردهای مبتنی بر مورد کامل، اگرچه ساده و مستقیم به نظر می رسند، اما در بسیاری از شرایط با کاهش کارایی و افزایش اریبی همراه می شوند. در مقابل، روش های مبتنی بر مدل با بهره گیری از ساختارهای احتمالی و روابط میان متغیرها، بازسازی اطلاعات از دست رفته را در قالب چارچوب های تحلیلی دنبال می کنند. همچنین شیوه های جانشینی مانند میانگین گذاری، هات دک، رگرسیون ذهنی و عینی، جانشینی چندگانه و تجدید وزن دهی، هر یک تلاشی برای حفظ انسجام داده ها و کاهش پیامدهای ناشی از بی پاسخی محسوب می شوند. تنوع این روش ها بازتابی از پیچیدگی مسئله ای است که در ظاهر به نبود چند مقدار محدود می شود، اما در سطح نظری با بنیان های استنباط آماری گره خورده است.
گسترش کاربرد داده های آماری در حوزه های مختلف علمی و اجرایی، اهمیت پرداختن دقیق به مسئله مقادیر گمشده را بیش از پیش برجسته کرده است. تحلیل روش های جایگزین در چنین بستری، تصویری از تحول تدریجی رویکردهای آماری در مواجهه با عدم قطعیت اطلاعات ارائه می دهد؛ تحولی که از حذف ساده داده های ناقص آغاز شده و به توسعه چارچوب های پیشرفته مدل سازی و جانشینی انجامیده است. در این فضا، هر روش نه تنها یک تکنیک محاسباتی، بلکه بازتابی از نگرش خاص نسبت به ماهیت داده، احتمال و استنباط آماری تلقی می شود و همین تنوع نگرش ها، چشم انداز گسترده ای از شیوه های تحلیل در حضور داده های گمشده را ترسیم می کند.
فهرست مطالب:
مقدمه
I: سازوکارهایی که مقادیر گمشده از آنها ناشی می شود
گمشده کاملاً تصادفی
گمشده تصادفی
مقادیر گمشده غیر قابل چشم پوشی
مثال تشریحی
II: روش های تحلیل داده با وجود داده های گمشده
روش های مربوط به مورد کامل
روش های مبتنی بر مدل
روش های مبتنی بر جانهی
شرح روش های جانهی
جانشین کردن میانگین
روش بی درنگ یا هات – دک
مثال تشریحی
جانهی از روی افرادی که به طور تصادفی انتخاب شده اند
رگرسیون ذهنی
رگرسیون عینی
جانهی چند گانه
روش های تجدید وزن دهی
III: خلاصه
منابع