برآورد بیزی پارامترهای مدل رگرسیون با خطاهای خود همبسته فضایی-30020469

برآورد بیزی پارامترهای مدل رگرسیون با خطاهای خود همبسته فضایی|30020693|xha
در این صفحه از وب سایت برتر با شما هستیم با برآورد بیزی پارامترهای مدل رگرسیون با خطاهای خود همبسته فضایی

فرمت فایل: word



تعداد صفحات: 106









چکیــده :



معمولاً در آنالیز رگرسیون فرض بر این است که خطاهای الگو مستقل هستند، اما در عمل گاهی با مواردی مانند داده های فضایی مؤاخذه می شویم که خطاهای مدل همبسته هستند و ساختار همبستگی آنها تابعی از موقعیت قرار گرفتن مشاهدات در فضای مورد مطالعه است از اینگونه مدلها که رگرسیون فضایی نام دارند، برای تعیین رویه ها در زمین شناسی، باستان شناسی، همه گیر شناسی و پردازش تصاویر استفاده می شود. در این مسأله مدل رگرسیون فضایی با خطاهای خود همبسته فضایی مرتبه اول با استفاده از رهیافت بیزی مورد بررسی قرار می گیرد. از آنجا که تعیین توزیع پسین پارامترها دشوار می باشد، برای برآورده بهای پارامترها و پیش بینی بیزی مشاهدات از روش MCMC استفاده شده است، سپس نحوه اجرا و کارائی روشهای ارائه شده در یک مطالعه شبیه سازی برای حجم نمونه و اندازه های شبکه های مختلف مورد بررسی قرار گرفته است.



واژه های کلیدی : خطاهای خود همبسته فضایی، روشهای MCMC، نمونه گیری گیبس، الگوریتم متروبلیس- هاستینگس.





مقدمــه :



داده های فضایی مشاهداتی هستند که به یکدیگر وابسته بوده و همبستگی آنها ناشی از موقعیت قرار گرفتن داده ها در فضای مورد مطالعه است در سالهای اخیر، مقالات متعددی برای بررسی جنبه های مختلف داده های فضایی ارائه شده است. از جمله می توان به مدلهای رگرسیون با خطاهای خود همبسته فضایی اشاره کرد که برای تعیین رویه ها در زمین شناسی، باستان شناسی، همه گیر شناسی جغرافیا و پردازش تصاویر استفاده می شود. وین سبک و راینبل (wincek & peincel 1986) برآورد ماکسیمم درستنمایی (ML) را برای مدل رگرسیون APMAی سوی زمانی مورد استفاده قرار داده اند. گریفت (Griffth 1988) مدل ساده را مورد مطالعه قرار داد، که در آن همبستگی در هر دو جهت (I,j) یکسان فرض شده است. کرسی (Gressic 1983) برآورد مدلهای رگرسیونی با خطاهای همبسته فضایی را بطور مفصل مورد بررسی قرار داده است. باسو و راینسل (Basu & Reincel 1994) برآورد ML را برای مدل رگرسیونی با خطاهای خود همبسته فضایی دو جهتی، که از مدل ARMAی مرتبه یک پیروی می کنند، مورد توجه قرار داده اند. شین و سرکار ( shin & sarkar 1994) برآورد ML را برای مدل رگرسیونی با خطاهای سری زمانی با مقادیر گمشده مورد استفاده قرار داده شد. شین و سونگ (shin & song 2000) کارایی مجانبی برآوردگر کمترین توان های دوم معمولی را برای مدل رگرسیونی با خطاهای همبسته فضایی بررسی کرده اند. راینسل و چانگ (Reinsel & cheang 2003) برآورد تقریبی REML , ML را برای مدلهای رگرسیونی با خطاهای سری زمانی خود همبسته (AR: Antoregressive) مرتبه اول بدست آور باشد. نظریه های مطرح شده در این مقالات با فرض ثابت بودن پارامترهای مدل بنا شده اند. اما در عمل موارد زیادی وجود دارد که پارامترها می توانند در شرایط مختلف مقادیر متفاوتی داشته باشند در این وضعیت بکارگیری روشهای کلاسیک برای استنباط آماری در رگرسیون با فرض ثابت بودن پارامترها تناسب ندارد. بعلاوه وقتی پارامترها ثابت هستند بدلیل چند بعدی بودن تابع دستنمایی بکارگیری روشهای REML , ML با مسائل دشواری مواجه می گردد که برآورد پارامترها را ناممکن می سازد. برای رفع این مشکل بی سگ و گرین (Besage & Green 1993) و مه کولاک و تسای (McCulloch & tsay 1994) رهیافت بیزی را برای آنالیز داده های فضایی و سری زمانی بکار برده اند. بی سگ و گرین (Besage & Gren 1993) نحوه استفاده از روشهای مونت کارلوی زنجیر مارکوفی (MCMC: Markov chain monte carlo) را برای برآورد پارامترهای مدل در تحلیل مجموعه داده های کشاورزی بیان کردند. مه کولاک و تسای (mccullech & tsay 1994) کاربردهای روش نمونه گیری گیبس (Gibbs sampling) را در برآورد مدل سری زمانی AR مورد بررسی قرار دادند. اوه و همکاران (oh et at. 2002) نیز رهیافت بیزی را برای مدل رگرسیونی با خطاهای خود همبسته فضایی (SAR :Spatial Autoregressive) با داده های گمشده در متغیر پاسخ مورد مطالعه قرار دادند. بدنبال آنها در این مقاله نحوۀ استفاده از روشهای MCMC خصوصاً الگوریتمهای نمونه گیری گیبس و متروپلیس هاستینگسدر تحلیل بیزی مدلهای رگرسیونی با خطاهای خودهمبسته فضایی مرتبه اول (SAR(1)) بر شبکه مستطیلی : بصورت :





مورد بررسی قرار می گیرد، که در آن





و ها خطاهای نرمال ناهمبسته با میانگین صفر و واریانس و مستقل از ها هستند و می باشد. برای سادگی محاسبات و کاهش بعد فضای پارامتری می توان با قرار دادن خطاهای (2) را بصورت :





در نظر گرفت، که در اینصورت (3) مدل رگرسیون با خطاهای SAR مرتبه اول ضربی نامیده می شود. معمولاً در آمار فضایی ساختار همبستگی داده ها با استفاده از تابع کواریانس یا همتغییرنگار (Covariogran) در تجزیه و تحلیل داده ها لحاظ می گردد. در این مقاله که مدل رگرسیونی با خطاهای (1) SAR ضربی در نظر گرفته می شود، ساختار همبستگی خطاها توسط تابع همبستگی ، با ویژگی تقارن تعیین می شود. باسو و راینسل (Basu & Reincel 1993) خصوصیات این تابع را برای مدلهای SAR مورد بررسی قرار دادند و نحوه برآورد پارامترهای مدل به روشهای ML و REML در باسو و راینسل (Basu & Reincel 1994) ارائه گردیده است. اما در عمل بکارگیری این روشها پیچیده و طولانی است. بعلاوه پارامترهای مدل اغلب ثابت نیستند و در وضعیت های مختلف تغییر می کنند. با بکارگیری رهیافت بیزی برای برآورد پارامترهای مدل می توان ضمن استفاده از اطلاعات پیشین محدودیتهایی را روی پارامترها نیز منظور نمود. اما مشکل اصلی در تحلیل بیزی، تعیین توزیع پسین پارامترهای نامعلوم است. که بدلیل نیاز به حل انتگرالهای چندگانه، کاری بس دشوار است. برای رفع این مشکل می توان از الگوریتم نمونه گیری گیبس گلفانند و اسمیت (Gerand & smith 1990) استفاده نمود. این الگوریتم خصوصاً برای پیش بینی مفید است، زیرا فقط به توزیع شرطی کامل هر پارامتر نیاز دارد، که فرم تحلیلی آن اغلب به آسانی بدست می آید. چون بعضی از توزیع های پسین شرطی کامل پارامترها ممکن است فرم ساده ای نداشته باشد، در چنین مواردی نیز می توان از «الگوریتم متروپیس- هاستینگس» (Hastings1970)(Metropolis-Hastings) برای تولید نمونه از توزیع های شرطی کامل استفاده نمود. در ادامه برآورد پارامترهای مدل با استفاده از رهیافت بیزی ارائه و همچنین نحوه استفاده از الگوریتم های نمونه گیری گیبس و متروپلیس- هاستینگس شرح داده می شود.



برآورد بیزی پارامترهای مدل :



برای تحلیل مدل رگرسیونی با خطاهای SAR(1) ضربی (3) با قرار دادن :





تابع درستنمایی پارامترهای مدل بصورت :





خواهد شد، که در آن است. باسو و راینسل (Basu & peincel,1994) تحت فرض نشان دادند :





و ⊗ ضرب کرونه کر است. همبستگی فضایی موجود در مشاهدات ارزیابی تحلیلی تابع در درستنمایی (4) را برای تعیین برآورد پارامترها بسیار دشوار می سازد. هر چند در این حالت روشهای عددی می توانند برای تقریب پارامترها مفید باشند، اما استفاده از رهیافت بیزی و بکارگیری روشهای MCMC شرایط بهتری را مهیا می سازد. برای این منظور لازم است توزیع پیشین پارامترها تعیین شود. با فرض استقلال ، توزیع پیشین توأم پارامترها بصورت :





خواهد شد. در حالت کلی تعیین توزیع پسین پارامترها بصورت تحلیلی مقدور نمی باشند. ولی با انتخاب پیشین های مزدوج نرمال p متغیره برای گامای معکوس برای ، که چگالی آن متناسب با ، است و توزیع نرمال بریده برای ، t=1,2 توزیع پسین شرطی کامل پارامترها بصورت







بدست می آیند (oh et at.2002)، که در هر یک از آنها others نشان دهنده بردار مشاهدات و سه پارامتر دیگر از مجموعه پارامترهای است.





و تابع چگالی توزیع N(a,b) است. اگر پیشین های ناآگاهی بخش و و در نظر گرفته شوند، توزیع های پسین شرطی کامل با جایگذاری و در روابط بالا بدست می آیند، که می توان نشان داد توزیع پسین متناظر با آنها سره می باشد (جعفری، 2004)، همانطور که ملاحظه می شود، توزیع پسین شرطی کامل و دارای فرم مشخصی هستند. بنابراین تولید مقادیر تصادفی از آنها با استفاده از الگوریتم نمونه گیری بعنوان یکی از روش های MCMC بصورت تکراری و به روش زیر قابل انجام است.



برای مقدار شروع داده شده ، مقادیر پارامترها در تکرار (t+1)ام الگوریتم در سه مرحله بصورت زیر تولید می شوند :





به خاطر همگرایی نمونه گیری گیبس و عدم وابستگی به مقادیر اولیه معمولاً تکرارهای اول نمونه ها کنار گذاشته می شوند. یعنی، برای تولید یک نمونه Mتایی از هر پارامتر، مقدار تولید و تای اول آن که تکرارهای سوخته (Burn-in) نام دارند، کنار گذاشته می شوند. چون چگالی های پسین شرطی کامل و فرم مشخصی ندارند. تولید نمونه از توزیع آنها با الگوریتم متروپلیس هاسیتینگس امکان پذیر است. برای این منظور ابتدا یک تابع چگالی هدف بعنوان تقریبی از پسین انتخاب می شود. سپس برای مقدار شروع داده شده یک نمونه نامزد از چگالی را تولید ننموده و با قرار دادن ، مقدار بصورت زیر تعیین می شود، که در آن t تکرار tام الگوریتم است.





کارایی این الگوریتم وابسته به تولید نمونه از چگالی است. اگر بزرگ نباشد و n به اندازه کافی بزرگ باشد، آنگاه داریم





اکنون با استفاده از توزیع نرمال بریده :





می توان نمونه ای از چگالی برای تولید نمود برای تولید نمونه از توزیع نرمال یک متغیره بریده



الگوریتم های کارای زیادی مانند روش cdf معکوس (Devroye 1986) و الگوریتم ردی آمیخته (mixed rejected algorithm)(Geweke 1990) وجود دارند. با شروع از مقدارهای اولیۀ ، نمونه گیر گیبس نمونه های تکراری از توزیع های پسین شرطی کامل تولید می کند و نمونه های حاصل از کنار گذاشتن تکرارهای سوخته می توانند برای برآورد پارامترها و پیش بینی استفاده شوند. با توجه به اینکه نمونه های قبلی برای تولید نمونه های جدید استفاده می شود، نمونه های تولید شده از روش MCMC ممکن است خود همبسته باشند. یک روش برای بدست آوردن نمونه های مستقل، گرفتن نمونه هایی از هر L تکرار (l اندازه تأخیر) است. اکنون براساس الگوریتم های MCMC نمونه ای به اندازه M را برای هر یک از پارامترهای مدل تولید نموده و با قرار دادن بعنوان k امین عضو نمونه تولید شده، میانگین پسین را می توان بصورت :





(5) و خطای استاندارد آنرا نیز بصورت :





برآورد نمود مقادیر شروع الگوریتم ها را برای هر پارامتر می توان به صورت زیر تعیین نمود :



1- برآورد کمترین توان های دوم معمولی بعنوان مقدار آغازین انتخاب شود.



2- برآورد کمترین توان های دوم معمولی بعنوان مقدار آغازین در نظر گرفته شود.



3- بوسیله رگرسیون روی ، برای (I,j)، برآوردهای و بعنوان مقادیر آغازین و به کار گرفته شود.