کاربرد آمار در داده کاوی؛ قسمت سوم
اهداف تحليل رگرسيون
با انجام رگرسيون مي خواهيم اهداف زير را دنبال كنيم :
1- بدست آوردن رفتار متغيير y توسط متغيير x ،يعني اينكه متغير y با تغيير x در نمونه ها چه رفتاري را از خود نشان مي دهد. مثلا در نمونه اي اين رفتار خطي است يا اينكه شكل منحني خواهد داشت.
2- پيش بيني بر اساس داده ها براي نمونه هاي آينده، كه هدف اصلي در داده كاوي از طريق متدهاي آماري است. مثلا از روي اطلاعاتي مثل داشتن كارت اعتباري يك فرد جديد، نوع جنسيت او، سن فرد و ميزان درآمد ساليانه او بتوان حدس زد كه اين فرد از بيمه عمر استفاده مي كند يا خير. و يا اينكه با داشتن اطلاعات در مورد داشتن يا نداشتن كارت اعتباري و بيمه عمر و سن فرد بتوان جنسيت فرد را تعيين كرد.
3- استنباط استنتاجي يا تحليل حساسيت، تعيين اينكه اگر x به اندازه خاصي تعيير كند y تا چه اندازه تغيير خواهد كرد. هدف از فهميدن اينكه چگونه تغييرات y تابعي از x است. بايد توجه داشت كه نوع تغييرات مدل رگرسيوني خاصي را مي دهد.
اهداف مدلسازي براي تشريح ارتباط بين x و y استفاده از نتايج مدل براي پيش بيني كاربردهاي تخمين عبارت است. اما استنباط استنتاجي يك مقوله ظريف تري است. زماني كه به استنباط آماري فكر ميكنيم در واقع درباره متغيير رفتاري و متغيير هاي كنترل فكر مي كنيم.
متغييرهاي رفتاري مشخصه هايي را ارايه ميكنندكه تبحروتجربه خاصي دارنديا اينكه قابليت آن نبحر را دارند.مثلا مقدار دز دارو كه براي بيمار استفاده مي شود در تجربه پزشكي .همچينين متغييرهاي كنترل ديگر ويژگي ها در يك محيط آزمايشي را اندازه ميگيرند،از قبيل وزن بيمار كه قبل از رفتار اندازه گيري مي شود.
اگر ما براي يكي از متغيير هاي رفتاري، كنترل انجام دهيم، رگرسيون ما احتمالا استنباط هاي استنتاجي را درست حدس ميزند.و اگر ما علاقه مند به هر دو مورد پيش بيني انتخاب سهم وتخمين اثرات علتها باشيم تايید هر دومورد را بعنوان متغييرهاي خروجي كه همپوشاني دارند در نظر مي گيريم.
روشهاي مختلف رگرسيون براي داده كاوي وجود دارد .رگرسيون خطي بيشترين كاربردرا دارد وهمچنين مشتقات آن حايزاهمييت است.يك نمونه از آن مشتقات آن رگرسيون خطي سلسله مراتبي يا رگرسيون چند سطحي است. اين روش يكي از ابزارهاي تحليل دادههاي پيچيده از قبيل افزايش فر كانس در تحقيقات مقداري را شامل مي شود.مدلهاي رگرسيون چند سطحي براي حالتهايي كه همپوشاني در سطوح مختلف وجود دارد مفيد است. براي مثال اطلاعات آموزشي ممكن است اطلاعاتي از قبيل اطلاعات فردي دانش آموزان (نام، نام خانوادگي و در كل پيش زمينه خانوادگي)،اطلاعات سطح كلاس از قبيل ويژگي هاي معلم وهمچينين اطلاعات درباره مدرسه همانند سياست آموزشي و... باشد. حالت ديگر مد لهاي چند سطحي ،تحليل دادههاي بدست آمده از نمونه هاي خوشه بندي شده است. يك خانواده از مدلهاي رگرسيون، به عنوان متغييرهاي شاخص بري رتبه بندي يا خوشه بندي است علاوه بر اينكه همپوشاني را اندازه مي گيرد. با نمونه خوشه بندي شده مدلسازي چند سطحي براي توسعه نمونه هايي كه داخل خوشه نيستند،لازم است.
در روش رگرسيون چند سطحي يا سلسله مراتبي محدوديتي براي تعداد سطوح تغيير كه مي تواند انجام شود،وجود نداردروشهاي بيزي در تخمين پارامترهاي مجهول كمك مي كند،هرچند كه محاسبات پيچيده اي دارد.ساده ترين توسعه از رگرسيون همپوشاني مجموعه اي از متغيرهاي شاخص براي كلاس بندي نمونه هاي آموزشي يا رتبه بندي وخوشه بندي درنمونه هاي داده شده است.همچنين به عنوان توسعه رگرسيون خطي در نظر گرفته مي شود،كه در ادامه به توضيح آن مي پردازيم[ :
1- رگرسیون خطیLinear regression))
یکی از هدفهای اصلی بسیاری از پژوهشهای آماری ا یجاد وابستگی هایی است تا پیش بینی یک یا چند متغیر را بر حسب سایرین ممکن می سازد.مثلاَُ مطالعاتی انجام می شودتا فروشهای بالقوهُ یک محصول جدید را بر حسب قیمت آن،وزن یک بیماررا بر حسب تعداد هفته هایی که پرهیز داشته است،پیش بینی کند.
در عمل مسایل متعددی وجود دارند که در آن ها مجموعه ای از داده ها زوج شده بر آن دلالت می کند که رگرسیون خطی است و در آن توزیع توأم متغیرهای تصادفی تحت بررسی رانمی دانیم اما با این حال می خواهیم که ضرایب رگرسیون را برآ ورد کنیم.
روش رگرسیون خطی یک تکنیک یادگیری نظارتی است که به وسیله آ ن می خواهیم تغییرات یک متغیر وابسته بوسیلهُ ترکیب خطی از یک یا چند متغیر مستقل مدل کنیم . حالت کلی معادله آن به این صورت است :
(1) f(x1+x2+…+xn)=a1x1+a2 x2+…+an xn+b
که xها متغیر مستقل و aهاو b ضرایب ثابت هستند وf(x1.x1…xn) متغیر وابسته می باشند.حالت ساده این معادله بصورت (2) y=ax+b است که در اینجا yمتغیر وابسته است به حالت ساده شده معادله 1(یعنی معادله2) shope-intercept fromمی گویند.
یک روش برای تعیین ضرایب a,b روش حداقل مربعات است.ملاک کمترین مربعات این است که مجموع مربعات ا نحراف ها را مینیمم کنیم؛بنابراین اگر مجموعهای از داده های زوج شده مانند {(xi,yi),i=1,2,…,n} داده شده باشد، برآ وردهای کم ترین مر بعات ضرایب رگرسیون، مقادیری مانندa,bهستند که به ا زای آنها کمیت مینیمم است .
بنابر این در حالت ساده اگر یک نمونه n تایی داشته داشته باشیم مقادیر a,bرا از طریق روابط زیر برآورد می کنیم :
مزیت رگرسیون خطی این است که فهمیدن و کار با آن ساده است در حالت کلی برای استراتژی و پیش بینی مناسب است. با بکار بردن این روش از نتایج خروجی می توان دریافت که این روش مناسب بوده یا خیر . بنابر این معیارهایی داریم که با استفاده از آنها می توان دریافت که آیا می توان به نتایج خروجی اطمینان کرد یا خیر.
آنچه در انجام رگرسیون مهم به نظر می رسد،تعیین میزان همبسته بودن داده ها به یکدیگر است.با مشخص کردن میزان همبسته بودن داده های متغیرهای ورودی و خروجی می توان دریافت که رگرسیون خطی برای انجام داده کاوی مناسب است یا خیر، بنابراین ضریب همبستگی و برآوردهای آن در بسیاری از پژوهشهای آماری اهمیت دارند. شرایطی که وقتی چند متغیر پیشگوxi)) با یکدیگر هم پوشانی دارند،این هم پوشانی منجر نااستواری و تزلزل در فضای جواب می شود،همچنین منجر به نتایج بی ارتباط(بی ربط) می شود.حتی اگر از این تزلزل اجتناب شود هم پوشانی بین متغیرهایی که میزان بین متغیرهایی همبستگی آنها زیاد است ،منجر به تاکید کردن روی بخش خاصی از مدل می شود.
بنابر این از بین متغیر های ورودی مواردی که با هم بستگی زیادی دارند، نباید با هم در تعیین ارزش متغیر خروجی بکار برده شوند.
2- رگرسیون لجیستسکLogistic Regression
این روش یکی از تکنیکهای یادگیری نظارتی و در حالتی که نتایج خروجی به صورت binary هستند،مورد توجه قرار می گیرد. در کل زمانی نتایج خروجی به صورت binary هستند رگرسیون خطی خیلی کارا نیست،در این حالت استفاده از این تکنیک مناسب تر است.نکته دیگر اینکه این روش یک تکنیک رگرسیون غیر خطی است و لزومی ندارد که داده ها حالت خطی داشته باشند.ا گر بخواهیم دلیل استفاده Logistic regression را بیان کنیم باید اینگونه بحث کنیم در رگرسیون خطی علاوه بر اینکه نتایج خروجی باید به صورت عددی باشد،متغیر ها هم باید به صورت عددی باشد بنابراین حالتهایی که به صورت کتگوری ( قیاسی) هستند باید به حالت عددی تغییر شکل پیدا کنند.مثلاُ جنسیت افراد از حالت زن و مرد بوده به ترتیب به حالتهای 0 و1تغییر پیدا می کند.در این روش اگر نتایج خروجی(متغیر خروجی) بصورت binary باشد می تواند مفید باشد. چون اساس رگرسیون خطی در این حالت ایراد پیدا می کند و ارزش قیدی که بر روی متغیر وابسته قرار می گیرد توسط معادله رگرسیون در نظر گرفته نمی شود.
در وا قع چون رگرسیون خطی،معاد له یک خط را ترسیم می کند،نمی تواند حالت مثبت و منفی یا به عبارتی صفر و یک را در نظر بگیرد. به همین دلیل برای اینکه بتوان حالتهای binary را هم در نظر گرفت، باید شکل معادله را تغییر داد.با این تغییر شکل معادله رگرسیون احتمال اتفاق افتادن یا اتفاق نیفتادن یک واقعه را بدست می دهد.
با تغییر شکل رگرسیون خطی به حالت Logistic regression این مشکل حل می شود.
داده های زیر را وارد Excel کرده و ضرایب متغیر ها و مقدار ثابت bرا توسط تابع LINESTبدست می آوریم. داده ها و نتایج به این صورت می باشد :
|
Computed probability |
Life insurance promotion |
age |
sex |
Credit card insurance |
income |
instance |
|
0.007 |
0 |
45 |
1 |
0 |
40 |
1 |
|
0.987 |
1 |
40 |
0 |
0 |
30 |
2 |
|
0.024 |
0 |
42 |
1 |
0 |
40 |
3 |
|
1.000 |
1 |
43 |
1 |
1 |
30 |
4 |
|
0.999 |
1 |
38 |
0 |
0 |
50 |
5 |
|
0.049 |
0 |
55 |
0 |
0 |
20 |
6 |
|
1.000 |
1 |
35 |
1 |
1 |
30 |
7 |
|
0.584 |
0 |
27 |
1 |
0 |
20 |
8 |
|
0.005 |
0 |
43 |
1 |
0 |
30 |
9 |
|
0.981 |
1 |
41 |
0 |
0 |
30 |
10 |
|
0.985 |
1 |
43 |
0 |
0 |
40 |
11 |
|
0.380 |
1 |
29 |
1 |
0 |
20 |
12 |
|
0.999 |
1 |
39 |
0 |
1 |
50 |
13 |
این مثال 4 مشخصه ورودی و یک مشخصه خروجی دارد که ضرایب متغیرهای ورودی در زیر محاسبه شده است :
ax+b= 0.0001income+19.827credit card ins-8.314sex+0.415age+17.691
با این معادله می توان نتایج life insuranee promotion بدست آ ورد ، که همانطور که در جدول فوق نشان داده شده نتایج محاسبه شده با متغیر وابسته هم خوانی زیادی دارد. حال اگر نمونه جدیدی به این صورت داشته باشیم :
In cone=35k credit card Insuranee=1 sex=0 age=39
با محاسبات احتمال بدست آمده برابر 0.999 می باشد. که این فرد یک کاندیدا را برای بیمه عمرLife(Insuranee promotion می باشد. حالت دیگر اینکه نمونه جدید به صورت :
Ineome=35k credit card Insuran =0 sex=1 age=39
باشد در این حالت مقدار احتما لی بدست آمده برابر 0.035 است که نشان می دهد یک مرد 39 ساله که در آمد سالیانه او 35000 است و بیمه کارت اعتباری ندارد یک نمونه ضعیف برای داشتن بیمه عمرا ست.
3- Bayse classsifire
این مقدار یکی از روشهای ساده یادگیری نظارتی است، که در آن فرض می شود که تمام متغیرها ی ورودی به یک اندازه مهم هستند و مستقل از هم می باشند و نیز اگر یکی از شرایط هم برقرار نباشد این روش در شرایطی کاربرد دارد این روش بر اساس تئوری بیز بنا شده است.
Bayse classifier برخلاف اکثر روشهای آماری برای حالتی که مقدار دادهُ یک متغیر ورودی نامعلوم است نیز کاربرد دارد.
مطلب دیکر اینکه زمانی که مقدار یک احتمال صفر باشد چون احتمال ها در هم ضرب می شوند کل احتمال صفر خواهد شد مثلاُ وقتی که باشد مقدار احتمال خواهد شد،Bayes classifier برای رفع این مشکل به یک مقدار k به صورت کسر ضرب در یک احتمال p و یک مقدار kبه مخرج اضافه می کند.
که kمقداری بین صفر و یک دارد که معمولاُ مقدار یک می گیرد و نیز p بستگی به تعداد انتخابهای متغیر خروجی دارد مثلاُ اگر متغیر خروجی دو حالتی باشد(yes,No)،مقدار p برابر 0.5 می باشد.
علاوه برا ین روش (Bayse chassifire) برای حالت Missing data نیز کاربرد دارد. یعنی اگر مقدار یکی از مشخصه های ورودی در یک نمونه جدید را نداشته باشیم. در این روش این مشخصه را کلاُ حذف می شود.