مقاله رگرسیون لجستیک

25 بازدید

رگرسیون لجستیک

چکیده:
رگرسیون لجستیک به عنوان یکی از اعضای مهم خانواده الگوهای خطی تعمیم یافته، جایگاهی اساسی در مدل سازی داده هایی دارد که متغیر پاسخ آن ها ماهیتی طبقه ای یا نشانگر دارد. این روش با استفاده از تابع پیوند لجیت، رابطه میان متغیرهای پیشگو و احتمال وقوع یک رویداد را توصیف می کند و به دلیل انعطاف پذیری و ساختار نظری روشن، در بسیاری از تحلیل های آماری کاربرد دارد.

مقاله حاضر، پس از معرفی مبانی الگوهای خطی، غیرخطی و مفهوم کلی الگوهای خطی تعمیم یافته، رگرسیون لجستیک را گام به گام از نظر مفاهیم پایه، ویژگی های منحنی لجیت، فرض های موجود و روش های برآورد پارامترها بررسی می کند. علاوه بر تشریح رویکرد درستنمایی ماکزیمم و ارتباط آن با کمترین مربعات موزون، استنباط های آماری در چارچوب روش های والد و درستنمایی نیز توضیح داده شده اند. در بخش پایانی، پیاده سازی رگرسیون لجستیک در نرم افزار SAS و مثال های عددی ارائه می شود تا ساختار نظری و کاربردی آن کامل تر روشن شود.

مقدمه:
بررسی رابطه میان متغیرها یکی از موضوعات پایه ای و در عین حال گسترده در آمار است و تحلیل رگرسیونی یکی از مهم ترین ابزارهایی به شمار می آید که برای درک و مدل سازی این روابط به کار گرفته می شود. در میان روش های گوناگون تحلیل رگرسیونی، رگرسیون لجستیک به ویژه در شرایطی اهمیت پیدا می کند که متغیر پاسخ از نوع طبقه ای یا نشانگر باشد؛ حالتی که در بسیاری از مطالعات علمی مشاهده می شود. برای درک بهتر رگرسیون لجستیک، لازم است ابتدا جایگاه آن را در میان الگوهای خطی، غیرخطی و الگوهای خطی تعمیم یافته بررسی کنیم؛ زیرا این روش در حقیقت حالت ویژه ای از همین خانواده بزرگ به شمار می رود.

مدل سازی آماری در ساده ترین تعریف، تلاش برای نمایش رفتار یک فرآیند واقعی در قالب یک رابطه ریاضی است. زمانی که متغیرهای گوناگون بر یک پدیده اثر دارند، رگرسیون ابزاری فراهم می کند تا بتوان روند کلی داده ها را در قالب یک مدل مشخص نشان داد. مدل های رگرسیونی بسته به نوع رابطه میان متغیرها به دو دسته کلی خطی و غیرخطی تقسیم می شوند. مدل خطی مدلی است که تابعی خطی بر حسب پارامترهای خود باشد، حتی اگر شکل ظاهری آن در نگاه اول خطی به نظر نرسد. بسیاری از مدل هایی که برای تحلیل فرآیندهای واقعی استفاده می شوند، در همین دسته قرار می گیرند؛ زیرا ساختار ساده تر آن ها امکان برازش و بررسی دقیق تر را فراهم می کند.

یکی از دلایلی که مدل های خطی همچنان کاربرد گسترده ای دارند، قابلیت برآورد مستقیم پارامترهاست. روش کمترین مربعات، رویکردی است که از دیرباز برای حل معادلات خطی و برآورد پارامترهای ناشناخته به کار رفته و امروز نیز بخش اصلی تحلیل بسیاری از مدل های رگرسیونی به شمار می رود. در این روش تحلیلگر فقط نیاز دارد مجموعه ای از معادلات خطی را برای استخراج مقادیر پارامترها حل کند. علاوه بر دسترسی آسان به این تکنیک، نظریه آماری دقیق و توسعه یافته ای نیز برای مدل های خطی وجود دارد که امکان محاسبه فواصل اطمینان، انجام آزمون های آماری و استنتاج دقیق تر را فراهم می سازد.

با وجود این، بسیاری از پدیده های واقعی در چارچوب مدل خطی قابل توصیف نیستند و نیاز به ساختارهای انعطاف پذیرتری دارند. اینجا الگوهای خطی تعمیم یافته مطرح می شوند؛ خانواده ای که با استفاده از توابع پیوند مختلف، امکان مدل سازی انواع توزیع های پاسخ را فراهم می کنند. رگرسیون لجستیک یکی از مهم ترین اعضای همین خانواده است. در این روش متغیر پاسخ معمولاً از نوع دودویی یا نشانگر است و رفتار آن با تابع پیوند لجیت به یک مدل خطی مرتبط می شود. این اتصال میان ساختار خطی و رفتار احتمالاتی باعث شده رگرسیون لجستیک برای تحلیل داده هایی با ماهیت طبقه ای مناسب باشد.

پیش از ورود به مباحث تخصصی رگرسیون لجستیک، لازم است مفهوم متغیرهای نشانگر و ویژگی های توزیعی آن ها بررسی شود. زمانی که پاسخ فقط دو حالت ممکن مانند «موفقیت/عدم موفقیت» یا «وجود/عدم وجود» دارد، واریانس آن تابعی از میانگین است و همین ویژگی باعث می شود روش های کلاسیک رگرسیون خطی کارایی لازم را نداشته باشند. در چنین شرایطی مدل لجستیک با ساختار ویژه تابع پیوند، امکان مدل سازی منطقی تر را فراهم می کند. منحنی لجیت ویژگی های خاصی دارد؛ از جمله رفتار غیرخطی و گرایش به کران های صفر و یک بدون عبور از آن ها. این خصوصیات نشان می دهد که چرا مدل های ساده خطی نمی توانند در بسیاری از تحلیل های دودویی عملکرد قابل قبولی داشته باشند.

رگرسیون لجستیک برخلاف مدل های خطی کلاسیک، بر فرض نرمال بودن خطاها تکیه نمی کند. این موضوع یکی از تفاوت های مهم در ساختار نظری این مدل است. با این حال، فرض هایی مانند استقلال مشاهده ها یا شکل مناسب تابع پیوند، همچنان در چارچوب رگرسیون لجستیک مطرح هستند. شناخت این فرض ها درک درستی از محدودیت ها و کارایی مدل به دست می دهد و پایه ای برای تحلیل های دقیق تر در مراحل بعدی محسوب می شود.

در ادامه مسئله برآورد پارامترهای مدل مطرح می شود. در رگرسیون لجستیک، روش درستنمایی ماکزیمم جایگزین کمترین مربعات کلاسیک می شود؛ زیرا ساختار توزیع پاسخ و تابع پیوند لجیت به شکلی است که کمترین مربعات رفتار مناسبی نخواهد داشت. با استفاده از درستنمایی ماکزیمم می توان پارامترهایی را یافت که احتمال مشاهده داده های موجود را بیشینه می کنند. رابطه میان این روش و کمترین مربعات موزون نیز در بررسی های نظری مدل اهمیت دارد. پس از برآورد پارامترها، استنباط آماری مطرح می شود که معمولاً در قالب روش والد یا آزمون های مبتنی بر درستنمایی انجام می گیرد.

در بخش های پایانی، اجرای رگرسیون لجستیک در نرم افزار SAS و مثال های کاربردی نشان می دهند که چگونه مفاهیم نظری به صورت عملی پیاده سازی می شوند. ترکیب این ساختار نظری، ابزارهای نرم افزاری و مثال های عددی باعث می شود تصویر روشنی از چگونگی کار مدل و شیوه بررسی نتایج به دست آید.

فهرست مطالب
فصل اول: مقدمه ای بر الگوهای خطی تعمیم یافته ۱
۱-۱- الگوهای خطی : ۱
۱-۲-الگوهای غیر خطی : ۳
۱-۳- الگوهای خطی تعمیم یافته : ۳
۱-۴- رگرسیون لجستیک حالت خاصی از رده الگوهای خطی تعمیم یافته: ۵
فصل دوم: رگرسیون لجستیک ۷
۲-۱ـ مفهوم کلی متغیرهای نشانگر : ۷
۲-۲- مدل های رگرسیونی با یک متغیر پاسخ نشانگر : ۷
۲-۳- الگوی رگرسیونی که واریانس تابعی از میانگین است : ۸
۲-۴- یک مدل خطی : ۱۰
۲-۵- یک مدل غیرخطی : ۱۱
۲-۶- چند خاصیت منحنی لجیت : ۱۴
۲-۷- فرضهایی که در رگرسیون لجستیک وجود ندارد : ۱۴
۲- ۸ – فرضهایی که در رگرسیون لجستیک وجود دارند : ۱۵
فصل سوم : براورد پارامترهای مدل رگرسیون لجستیک ۱۶
۳-۱- برآورد پارامتر با استفاده از درستنمایی ماکزیمم  : ۱۶
۳-۲- رابطه بین برآورد درستنمایی ماکزیمم الگوی رگرسیون لجستیک و کمترین مربعات موزون : ۱۹
فصل چهارم : استنباط های آماری با استفاده از رگرسیون لجستیک ۲۳
۴-۱- استنباط والد وقتی از رگرسیون لجستیک استفاده می کنیم : ۲۳
۴-۲- استنباط درستنمایی در رگرسیون لجستیک : ۲۶
فصل پنجم :نرم افزار SAS و رگرسیون لجستیک ۲۹
فصل ششم: ۳۴
مثال ۶-۱ ۳۴
مثال ۶-۲ ۴۶
منابع : ۵۳

قیمت محصول
49,000 63,636 تومان
23% تخفیف
تعداد صفحات
56
فرمت فایل
WORD
تضمین بازگشت وجه در صورت عدم رضایت