کاربرد آمار در داده کاوی؛ قسمت سوم

اهداف تحليل  رگرسيون

با انجام رگرسيون مي خواهيم اهداف زير را دنبال كنيم :

1-  بدست آوردن رفتار متغيير y توسط متغيير x ،يعني اينكه متغير y  با تغيير x  در نمونه ها چه رفتاري را از خود نشان مي دهد. مثلا در نمونه اي اين رفتار خطي  است يا اينكه شكل منحني خواهد داشت.

 2- پيش بيني  بر اساس داده ها  براي نمونه هاي آينده، كه هدف اصلي در داده كاوي از طريق متدهاي آماري است. مثلا از روي اطلاعاتي مثل داشتن كارت اعتباري يك فرد جديد، نوع جنسيت او، سن فرد و ميزان درآمد ساليانه او بتوان حدس زد كه اين فرد از بيمه عمر استفاده مي كند يا خير. و يا اينكه با داشتن اطلاعات در مورد داشتن يا نداشتن كارت اعتباري و  بيمه عمر و سن فرد بتوان جنسيت فرد را تعيين كرد.

 3- استنباط استنتاجي يا تحليل حساسيت، تعيين اينكه اگر x  به اندازه خاصي تعيير كند y  تا چه اندازه تغيير خواهد كرد. هدف از فهميدن اينكه چگونه تغييرات y  تابعي از x است. بايد توجه داشت كه نوع تغييرات مدل رگرسيوني خاصي را مي دهد.

اهداف مدلسازي براي تشريح ارتباط بين x و y  استفاده از نتايج مدل براي پيش بيني كاربردهاي تخمين عبارت است. اما استنباط استنتاجي يك مقوله ظريف تري است. زماني كه به استنباط آماري فكر ميكنيم در واقع درباره متغيير رفتاري و متغيير هاي كنترل فكر مي كنيم.

متغييرهاي رفتاري مشخصه هايي را ارايه ميكنندكه تبحروتجربه خاصي دارنديا اينكه قابليت آن نبحر را دارند.مثلا مقدار دز دارو كه براي بيمار استفاده مي شود در تجربه پزشكي .همچينين متغييرهاي كنترل ديگر ويژگي  ها در يك محيط آزمايشي را اندازه ميگيرند،از قبيل وزن بيمار كه قبل از رفتار اندازه گيري مي شود.

اگر ما براي يكي از متغيير هاي رفتاري، كنترل انجام دهيم، رگرسيون ما احتمالا استنباط هاي استنتاجي را درست حدس ميزند.و اگر ما علاقه مند به هر دو مورد پيش بيني انتخاب سهم وتخمين اثرات علتها باشيم  تايید هر دومورد را بعنوان متغييرهاي خروجي كه همپوشاني دارند در نظر مي گيريم.

روشهاي مختلف رگرسيون براي داده كاوي وجود دارد .رگرسيون  خطي بيشترين كاربردرا دارد وهمچنين مشتقات آن حايزاهمييت است.يك نمونه از آن مشتقات آن رگرسيون  خطي سلسله  مراتبي يا رگرسيون چند سطحي است. اين روش يكي از ابزارهاي تحليل دادههاي پيچيده از قبيل افزايش فر كانس در تحقيقات مقداري را شامل مي شود.مدلهاي رگرسيون چند سطحي براي حالتهايي كه همپوشاني در سطوح مختلف وجود دارد مفيد است. براي مثال اطلاعات آموزشي ممكن است اطلاعاتي از قبيل اطلاعات فردي دانش آموزان (نام، نام خانوادگي و در كل پيش زمينه خانوادگي)،اطلاعات سطح  كلاس از قبيل ويژگي هاي معلم وهمچينين اطلاعات درباره مدرسه همانند سياست آموزشي و... باشد. حالت ديگر مد لهاي چند سطحي ،تحليل  دادههاي بدست آمده از نمونه هاي خوشه بندي شده است. يك خانواده از مدلهاي رگرسيون، به عنوان متغييرهاي شاخص بري رتبه بندي يا خوشه بندي است علاوه بر اينكه همپوشاني را اندازه مي گيرد. با نمونه خوشه بندي  شده مدلسازي چند سطحي براي توسعه نمونه هايي كه داخل خوشه نيستند،لازم است.

در روش رگرسيون چند سطحي  يا سلسله مراتبي محدوديتي براي تعداد سطوح تغيير كه مي تواند انجام شود،وجود نداردروشهاي بيزي در تخمين پارامترهاي مجهول كمك مي كند،هرچند كه محاسبات  پيچيده اي دارد.ساده ترين توسعه از رگرسيون همپوشاني مجموعه اي از متغيرهاي شاخص براي كلاس بندي نمونه هاي آموزشي يا رتبه بندي وخوشه بندي درنمونه هاي داده  شده است.همچنين به عنوان  توسعه رگرسيون خطي  در  نظر گرفته مي شود،كه در ادامه به توضيح آن مي پردازيم[ :

 

1- رگرسیون خطیLinear regression))

یکی از هدفهای اصلی بسیاری از پژوهشهای آماری ا یجاد وابستگی هایی است تا پیش بینی یک یا چند متغیر را بر حسب سایرین ممکن می سازد.مثلاَُ مطالعاتی انجام می شودتا فروشهای بالقوهُ یک محصول جدید را بر حسب قیمت آن،وزن یک بیماررا بر حسب تعداد هفته هایی که پرهیز داشته است،پیش بینی کند.

در عمل مسایل متعددی وجود دارند که در آن ها مجموعه ای از داده ها زوج شده بر آن دلالت می کند که رگرسیون خطی است و در آن توزیع توأم متغیرهای تصادفی تحت بررسی رانمی دانیم اما با این حال می خواهیم که ضرایب رگرسیون را برآ ورد کنیم.

روش رگرسیون خطی یک تکنیک یادگیری نظارتی است که به وسیله آ ن می خواهیم تغییرات یک متغیر وابسته بوسیلهُ ترکیب خطی از یک یا چند متغیر مستقل مدل کنیم . حالت کلی معادله آن به این صورت است :

 

(1)                                             f(x1+x2+…+xn)=a1x1+a2 x2+…+an xn+b

 

که xها متغیر مستقل و aهاو b ضرایب ثابت هستند وf(x1.x1…xn) متغیر وابسته می باشند.حالت ساده این معادله بصورت    (2) y=ax+b   است که در اینجا  yمتغیر وابسته است به حالت ساده شده معادله 1(یعنی معادله2)  shope-intercept fromمی گویند.

یک روش برای تعیین ضرایب a,b روش حداقل مربعات است.ملاک کمترین مربعات این است  که مجموع مربعات ا نحراف ها را مینیمم کنیم؛بنابراین اگر مجموعهای از داده های زوج شده مانند {(xi,yi),i=1,2,…,n} داده شده باشد، برآ وردهای کم ترین مر بعات ضرایب رگرسیون، مقادیری مانندa,bهستند که به ا زای آنها کمیت مینیمم است .

بنابر این در حالت ساده اگر یک نمونه n تایی داشته داشته باشیم مقادیر a,bرا از طریق روابط زیر برآورد می کنیم :

مزیت رگرسیون خطی این است که فهمیدن و کار با آن ساده است در حالت کلی برای استراتژی و پیش بینی مناسب است. با بکار بردن این روش از نتایج خروجی می توان دریافت که این روش مناسب بوده یا خیر . بنابر این معیارهایی داریم که با استفاده از آنها می توان دریافت که آیا می توان به نتایج خروجی اطمینان کرد یا خیر.

آنچه در انجام رگرسیون مهم به نظر می رسد،تعیین میزان همبسته بودن داده ها به یکدیگر است.با مشخص کردن میزان همبسته بودن داده های متغیرهای ورودی و خروجی می توان دریافت که رگرسیون خطی برای انجام داده کاوی مناسب است یا خیر، بنابراین ضریب همبستگی و برآوردهای آن در بسیاری از پژوهشهای آماری اهمیت دارند. شرایطی که وقتی چند متغیر پیشگوxi)) با یکدیگر هم پوشانی دارند،این هم پوشانی منجر نااستواری و تزلزل  در فضای جواب می شود،همچنین منجر به نتایج بی ارتباط(بی ربط) می شود.حتی اگر از این تزلزل اجتناب شود هم پوشانی بین متغیرهایی که میزان بین متغیرهایی همبستگی آنها زیاد است ،منجر به تاکید کردن روی بخش خاصی از مدل می شود.

بنابر این از بین متغیر های ورودی مواردی که با هم بستگی زیادی دارند، نباید با هم در تعیین ارزش متغیر خروجی بکار برده شوند.

 

2- رگرسیون لجیستسکLogistic Regression

این روش یکی از تکنیکهای یادگیری نظارتی و در حالتی که نتایج خروجی به صورت binary هستند،مورد توجه قرار می گیرد. در کل زمانی نتایج خروجی به صورت binary هستند رگرسیون خطی خیلی کارا نیست،در این حالت استفاده از این تکنیک مناسب تر است.نکته دیگر اینکه این روش یک تکنیک رگرسیون غیر خطی است و لزومی ندارد که داده ها حالت خطی داشته باشند.ا گر بخواهیم دلیل استفاده Logistic regression را بیان کنیم باید اینگونه بحث کنیم در رگرسیون خطی علاوه بر اینکه نتایج خروجی باید به صورت عددی باشد،متغیر ها هم باید به صورت عددی باشد بنابراین حالتهایی که به صورت کتگوری ( قیاسی) هستند باید به حالت عددی تغییر شکل پیدا کنند.مثلاُ جنسیت افراد از حالت زن و مرد بوده به ترتیب به  حالتهای 0 و1تغییر پیدا می کند.در این روش اگر نتایج خروجی(متغیر خروجی) بصورت    binary باشد می تواند مفید باشد. چون اساس رگرسیون خطی در این حالت ایراد پیدا می کند و ارزش قیدی که بر روی متغیر وابسته قرار می گیرد توسط معادله رگرسیون در نظر گرفته نمی شود.

در وا قع چون رگرسیون خطی،معاد له یک خط را ترسیم می کند،نمی تواند حالت مثبت و منفی یا به عبارتی صفر و یک را در نظر بگیرد. به همین دلیل برای اینکه بتوان حالتهای binary را هم در نظر گرفت، باید شکل معادله را تغییر داد.با این تغییر شکل معادله رگرسیون احتمال اتفاق افتادن یا اتفاق نیفتادن یک واقعه را بدست می دهد.

با تغییر شکل رگرسیون خطی به حالت Logistic regression این مشکل حل می شود.

 

داده های زیر را وارد Excel کرده و ضرایب متغیر ها و مقدار ثابت  bرا توسط تابع  LINESTبدست می آوریم. داده ها و نتایج به این صورت می باشد :

 

Computed probability

Life insurance promotion

age

sex

Credit card insurance

income

instance

0.007

0

45

1

0

40

1

0.987

1

40

0

0

30

2

0.024

0

42

1

0

40

3

1.000

1

43

1

1

30

4

0.999

1

38

0

0

50

5

0.049

0

55

0

0

20

6

1.000

1

35

1

1

30

7

0.584

0

27

1

0

20

8

0.005

0

43

1

0

30

9

0.981

1

41

0

0

30

10

0.985

1

43

0

0

40

11

0.380

1

29

1

0

20

12

0.999

1

39

0

1

50

13

 

این مثال 4 مشخصه ورودی و یک مشخصه خروجی دارد که ضرایب متغیرهای ورودی در زیر محاسبه شده است :

ax+b= 0.0001income+19.827credit card ins-8.314sex+0.415age+17.691

 

با این معادله می توان نتایج life insuranee promotion بدست آ ورد ، که همانطور که در جدول فوق نشان داده شده نتایج محاسبه شده با متغیر وابسته هم خوانی زیادی دارد. حال اگر نمونه جدیدی به این صورت داشته باشیم :

 

In cone=35k       credit card Insuranee=1    sex=0   age=39

 

با محاسبات احتمال بدست آمده برابر 0.999 می باشد. که این فرد یک کاندیدا را برای بیمه عمرLife(Insuranee promotion می باشد. حالت دیگر اینکه نمونه جدید به صورت :

 

Ineome=35k        credit card  Insuran =0     sex=1   age=39

 

باشد در این حالت مقدار احتما لی بدست آمده برابر 0.035 است که نشان می دهد یک مرد 39 ساله که در آمد سالیانه او 35000 است و بیمه کارت اعتباری ندارد یک نمونه ضعیف برای داشتن بیمه عمرا ست.

3-  Bayse classsifire

این مقدار یکی از روشهای ساده یادگیری نظارتی است، که در آن فرض می شود که تمام متغیرها ی ورودی به یک اندازه مهم هستند و مستقل از هم می باشند و نیز اگر یکی از شرایط هم برقرار نباشد این روش در شرایطی کاربرد دارد این روش بر اساس تئوری بیز بنا شده است.

Bayse classifier برخلاف اکثر روشهای آماری برای حالتی که مقدار دادهُ یک متغیر ورودی نامعلوم است نیز کاربرد دارد.

مطلب دیکر اینکه زمانی که مقدار یک احتمال صفر باشد چون احتمال ها در هم ضرب می شوند کل احتمال صفر خواهد شد مثلاُ وقتی که  باشد مقدار احتمال خواهد شد،Bayes classifier برای رفع این مشکل به یک مقدار k به صورت کسر ضرب در یک احتمال p و یک مقدار  kبه مخرج اضافه می کند.

که  kمقداری بین صفر و یک دارد که معمولاُ مقدار یک می گیرد و نیز p بستگی به تعداد انتخابهای متغیر خروجی دارد مثلاُ اگر متغیر خروجی دو حالتی باشد(yes,No)،مقدار p برابر 0.5 می باشد.

علاوه برا ین روش (Bayse chassifire) برای حالت Missing data نیز کاربرد دارد. یعنی اگر مقدار یکی از مشخصه های ورودی در یک نمونه جدید را نداشته باشیم. در این روش این مشخصه را کلاُ حذف می شود.

کاربرد آمار در داده کاوی؛ قسمت دوم

كاربردهاي روشهاي آماري

Data  mining   معمولا  وظايف يا به  عبارت بهتر استراتژهاي  زير را  در  داده ها بكار  مي برد :

 - توضيح و تفسير (description)

- تخمينestimation)  )

- پيش بينيprediction)  )

- كلاس بنديclassification) )

- خوشه سازي  (clustering) 

- وابسته سازي وايجاد رابطه (association)

در جدول زير  استراتژي ها  و روشهاي هر استراتژي مشخص شده است :

 

روشها

استراتژيها

تحليل  داده ها

توضيح  وتفسير

تحليل هاي آماري

تخمين

تحليل هاي آماري

پيش بيني

الگوريتم نزديك ترين همسايه

كلاس بندي

درخت  تصميم

كلاس بندي

شبكه هاي عصبي

كلاس بندي

خوشه سازي  k-mean

خوشه سازي

شبكه هاي kohonen

خوشه سازي

وابسته سازي  و ايجاد رابطه

رابطه سازي

 

البته بايد  گفت كه روشهاي data mining  تنها  به يك استراتژي خاص محدود  نمي شوندو  نتايج  يك را همپوشاني بين روشها نشان  مي دهد. براي مثال درخت تصميم ممكن است كه دركلاس بندي تخمين وپيش بيني كاربرد داشته باشد. بنابراين اين جدول را نبايد به عنوان تعريف تعريف تقسيم بندي از وظايف در نظرگرفته شود‏‎ بلكه به عنوان يك خروجي از آنچه كه ما به عنوان وظايف dataminig  آشنايي پيدا كرديم در نظر گرفته مي شود.

همانگونه كه ازجدول پيداست روشهاي آماري  در مباحث تخمين و پيش بيني كاربرد دارند. در تحليل آماري تخمين و پيش بيني عناصري از استنباطهاي آماري هستند.استنباطهاي آماري شامل روشهايي براي تخمين و تست فرضيات درباره جمعيتي از ويژگيها براساس اطلاعات حاصل از نمونه است .يك  جمعيت شامل مجموعه اي از عناصر از قبيل افراد، ايتم ها، يا داده ها يي كه دريك مطالعه خاص آمده است. بنابراين در اينجا به توضيح اين  دواستراتژي مي پردازيم.

 

1- تخمين

در تخمین به دنبال این هستیم  که مقدار یک مشخصه خروجی مجهول را تعیین کنیم،مشخصه خروجی در مسائل تخمین بیشتر عددی هستند تا قیاسی. بنابراین مواردی که بصورت قیاسی هستند باید به حالت عددی تبدیل شوند. مثلا موارد بلی،خیر به 0 و1 تبدیل می شود.  

تكنيكهاي نظارتي DM قادرند یکی از دو نوع مسایل کلاس بندی یا تخمین را حل کنند، نه اینکه هر دو را. یعنی اینکه تکنیکی که کار تخمین را ا نجام می دهد، کلا س بندی نمی کند.

روشهاي آماري مورد استفاده دراين مورد بطوركلي شامل تخمين نقطه و فاصله اطمينان ميباشد. تحليل هاي آماري تخمين و تحليل هاي يك متغيره و... از اين جمله  مي باشند.

در توضيح اينكه چرا به سراغ تخمين مي رويم بايد گفت كه مقدار واقعي پارامترها براي ما ناشناخته است.مثلا مقدار واقعي ميانگين يك جامعه مشخص نيست. داده ها ممكن است كه بطور رضايت بخشي جمع آوري نشده باشد‏ يا به  عبارتي warehouse نشده باشد. به همين دليل تحليل گران از تخمين استفاده ميكنند.

در خيلي از موارد تعيين ميانگين مجموعه اي از داده ها براي ما مهم است.مثلا ميانگين نمرات درسي يك كلاس،ميانگين تعداد نفراتي كه در يك روز به بانك مراجعه مي كنند،متوسط مقدار پولي كه افراد دريك  شعبه خاص از بانك واريز مي كنند و موارد اين چنيني.

زمانی که مقدار یک آماره را برای براورد کردن پارامتر یک جامعه به کار ببریم، آن پارامتر را تخمین زده ایم و به مقدار این آماره برآورد نقطه ای پرامتر اطلاق می کنیم. در واقع از کلمه نقطه برای تمایز بین براورد کننده های نقطه ای و فاصله ای استفاده می کنیم. از مهمترین تخمین زننده ها  است که به ترتیب برآورد واریانس و میانگین جامعه هستند. خود برآورد کننده ها دارای خاصیت هایی چون ناریبی، کارایی، ناسازگاری، بسندگی و... هستند، که هر یک به بیان ویژگی خاصی از آنها می پردازند و میزان توانایی آنها را در تخمین درست و دقیق یک پارامتر تعیین می کنند.  

در مواردي نيز تخمين فاصله براي ما اهميت دارد. فاصله اطمينان شامل فاصله اي است كه  با درصدي از اطمينان مي توانيم بگوييم كه مقدار يك  پارامتر درون اين فاصله قرار مي گيرد. به عبارت دیگر اگر چه برآورد نقطه ای طریقه متداول توصیف برآورد هاست اما درباره آن، جا برای پرسشهای زیادی باقی است. مثلا برآورد نقطه ای به ما نمی گوید که برآورد بر چه مقداری از اطلاعات مبتنی است و چیزی درباره خطا بیان نمی کند. بنابراین می توانیم که برآورد  پارامتر  را  با بعلاوه کردن اندازه کردن اندازه نمونه و مقدار واریانس  ،یا اطلاعات دیگری درباره توزیع نمونه گیری  کامل کنیم.این کار ما را قادر می سازد که اندازه ممکن خطا را برآورد کنیم.

 

2- پيش بيني) prediction (

هدف از انجام پیش بینی تعیین ترکیب خروجی با استفاده از رفتار موجود می باشد. یعنی در واقع رسیدن به یک نتیجه بوسیله اطلاعات موجود از داده ها. مشخصه های خروجی در این روش هم می توانند عددی باشند و هم قیاسی. این استراتژی در بین استراتژی های data mining از اهمیت خاصی بر خوردار است، و مفهوم کلی تری را نسبت به موارد دیگر دارد. خیلی از تکنیکهای نظارتی  data mining كه براي كلاس بندي و تخمين مناسب هستند در واقع كار پیش بيني انجام مي دهند.

آنچه از كتابهاي آماري و data minig تحت عنوان پيش بيني برمي آيد رگرسيون و مباحث  مر بوط به آن است . در واقع در اكثر اين كتابها هدف اصلي از انجام تحليل هاي آماري براي داده  كاوي، رگرسيون  داده  هاست و اين بعنوان وظيفه اصلي متد هاي آماري معرفي مي شود.

کاربرد آمار در داده کاوی؛ قسمت اول

كاربرد آمار در داده كاوي

همانگونه که واضح و مشخص است با گذشت زمان علم نیز پیشرفت می کند، هر چه به جلوتر می رویم روشهای جدیدتر و بهتر مورد استفاده قرار می گیرد. علم امروز نسبت به دیروز جدیدتر است. روشهای جدید علمی در پی کشف محدودیت های روشهای قدیمی ایجاد می شود و از آنجایی که روشهای آماری جزء روشهای قدیمی Data mining محسوب می شوند، از این قاعده کلی که دارای محدودیت هستند مستثنی نیستند. داشتن فرض اولیه در مورد داده ها، یکی از این موارد است. در اینجا به تشریح بیشتر تفاوت های بین مباحث و متدهای آماری و دیگر متدهای داده کاوی که در کتابهای مختلف بحث شده است می پردازیم.

تکنیکهای داده کاوی و تکنیکهای آماری در مباحثی چون تعریف مقدار هدف برای پیش گویی، ارزشیابی خوب و داده های دقیق (تمیز) (clean data) خوب عمل می کنند، همچنین این موارد در جاهای یکسان برای انواع یکسانی از مسايل (پیش گویی، کلاس بندی و کشف) استفاده می شوند، بنابراین تفاوت این دو چیست؟چرا ما آنچنان که علاقه مند بکاربردن روشهای داده کاوی هستیم علاقه مند روشهای آماری نیستیم؟ برای جواب این سوال چندین دلیل وجود دارد. اول اینکه روشهای کلاسیک داده کاوی از قبیل شبکه های عصبی، تکنیک نزدیک ترین همسایه روشهای قوی تری برای داده های واقعی به ما می دهند و همچنین استفاده از آنها برای کاربرانی که تجربه کمتری دارند راحت تر است و بهتر می توانند از آن استفاده کنند. دلیل دیگر اینکه بخاطر اینکه معمولاُ داده ها اطلاعات زیادی در اختیار ما نمی گذارند، این روشها با اطلاعات کمتر بهتر می توانند کار کنند و همچنین اینکه برای داده ها وسیع کابرد دارند.

در جایی دیگر اینگونه بیان شده که داده های جمع آوری شده نوعاُ خیلی از فرضهای قدیمی آماری را در نظر نمی گیرند، از قبیل اینکه مشخصه ها باید مستقل باشند، تعیین توزیع داده ها، داشتن کمترین همپوشانی در فضا و زمان اغلب داده ها هم پوشانی زیاد می دارند، تخلف کردن از هر کدام از فرضها می تواند مشکلات بزرگی ایجاد کند. زمانی که یک کاربر (تصمیم گیرنده) سعی می کند که نتیجه ای را بدست آورد. داده های جمع آوری شده بطورکلی تنها مجموعه ای از مشاهدات چندی بعد است بدون توجه به اینکه چگونه جمع آوری شده اند.

در جایی پایه و اساس Data mining به دو مقوله آمار و هوش مصنوعی تقسیم شده است که روشهای مصنوعی به عنوان روشهای یادگیری ماشین در نظر گرفته می شوند.فرق اساسی بین روشهای آماری و روشهای یادگیری ماشین  (machine learning) بر اساس فرضها و یا طبیعت داده هایی که پردازش می شوند.بعنوان یک قانون کلی فرضها تکنیکهای آماری بر این اساس است که توزیع داده ها مشخص است که بیشتر موارد فرض بر این است که توزیع نرمال است و در نهایت درستی یا نادرستی نتایج نهایی به درست بودن فرض اولیه وابسته است.در مقابل روشهای یادگیری یادگیری ماشین از هیچ فرض در مورد داده ها استفاده نمی کند و همین مورد باعث تفاوتهایی بین این دو روش می شود.

به هر حال ذکر این نکته ضروری به نظر می رسد که بسیاری از روشهای یادگیری ماشین برای ساخت مدل dataset از حداقل چند استنتاج آماری استفاده می کنندکه این مساله بطور خاص در شبکه عصبی دیده می شود.

بطور کلی روشهای آماری روش های قدیمی تری هستند که به حالت های احتمالی مربوط می شوند.Data mining جایگاه جدید تری دارد که به هوش مصنوعی یادگیری ماشین سیستمهای اطلاعات مدیریت (MIS) و متدلوژی Database مربوط می شود.

روشهای آماری بیشتر زمانی که تعداد دادهها کمتر است و اطلاعات بیشتری در مورد داده ها می توان بدست آورد استفاده می شوند به عبارت دیگر این روشها با مجموعه داده ها ی کوچک تر سر و کار دارند همچنین به کاربران ابزارهای بیشتری برای امتحان کردن داده ها با دقت بیشتر فهمیدن ارتباطات بین داده ها می دهد. بر خلاف روشهایی از قبیل شبکه عصبی که فرآیند مبهمی دارد. پس به طور کلی این روش در محدوده مشخصی از داده های ورودی بکار می رود.بکار بردن این روشها مجموعه داده های مجموعه داده های زیاد احتمال خطا در این روشها را زیاد می کند.چون در داده ها احتمالnoise  وخطا بیشتر می شود و نیز روشهای آماری معمولابه حذف  noiseمی پردازند، بنابراین خطای محاسبات در این حالت زیاد می شود.

در بعضی از روشهای آماری نیازداریم که توزیع داده ها را بدانیم. اگر بتوان به آن دسترسی پیدا کرده با بکار بردن روش آماری می توان به نتایج خوبی رسید.

روشهای آماری چون پایه ریاضی دارند نتایج دقیق تری نسبت به دیگر روشهای Data mining ارائه می دهند ولی استفاده از روابط ریاضی نیازمند داشتن اطلا عات بیشتری در مورد داده ها است.

مزیت دیگر روشهای آماری در تعبیر و تفسیر داده ها است. هر چند روشهای آماری به خاطر داشتن ساختار ریاضی تفسیر سخت تری دارند ولی دقت نتیجه گیری و تعبیر خروجی ها در این روش بهتر است بطور کلی روشهای آماری زمانی که تفسیر داده ها توسط روشهای دیگر مشکل است بسیار مفید هستند.

تفاوتهای کلی روشهای آماری و دیگر روشهای Data mining  در جدول اريه شده است :

 

روشهای آماری

دیگر روشهای Data mining

داشتن فرض اولیه

بدون فرض اولیه

تنها برای داده های  عددی کاربرد دارند

در انواع مختلفی از داده ها کاربرد دارند نه فقط داده های عددی

در محدوده کوچکی از داده ها

در محدوده وسیع تری از داده ها

حذفnoise ها ، داده های نامشخص ووفیلتر کردن dirty data

Data mining به دادهای درست clean data بستگي دارند

روشهای رگرسیون و استفاده از معادلات

استفاده از شبكه عصبي

استفاده از چارتهای دو بعدی و سه بعدی

استفاده ازData visualization

استفاده از روابط ریاضی

استفاده از روشهای یادگیری ماشین و هوش مصنوعی

در  descriptive statisticalوcluster   analysis  کاربرد دارد.

در یادگیری غیر نظارتی کاربرد بیشتر دارد

 

 

همچنین می توان گفت که در DM داده ها اغلب بر اساس همپوشانی نمونه هاست،نسبت به اینکه بر اساس احتمال داده ها باشد.همپوشانی نمونه ها برای آشنایی همه انواع پایه ها برای تخمین پا را مترها مشهور است. وهمچنین اغلب استنتاج های آماری نتایج ممکن است مشارکتی باشد تا اینکه سببی باشند. 

تکنیکهای ماشین را به سادگی می توان تفسیر کرد .مثلاَُ روش شبکه عصبی بر اساس یک مدل ساده بر اساس مغز انسان استوار است.یعنی همان ساختار مغز انسان را اجرا می کنند ولی خروجی های بسیاری از روشهای آماری ساختار ریاضی دارند،مثلاَُ یک معادله است که تعبیر و تفسیر آن مشکل تر است.در مورد روش های آماری بایداین مطلب را گفت بدون توجه به اینکه مدل کاربردی،مدل آماری است یا خیر،تستهای آماری می تواند برای تحلیل نتایج مفید باشد.

با ارايه توضیحات داده شده درباره های تفاوتهای روشهای آماری و دیگر روشهای DM در ادامه به کابردهای روش روشهای آماری و بحثهای مشترک آمار وDM  می پردازیم .

اندازه گیری و کالیبراسیون

اندازه گیری و کالیبراسیون

ريزنگري (Resolution) وسيله اندازه گيري، يکي از مهمترين ملاحظات در اندازه گيري مي باشد و اينگونه تعريف مي شود : حداقل تغيیر در مقداري که وسيله اندازه گيري مي تواند نشان دهد . اين بدان معناست که اگر صفحه نمايش يک وسيله اندازه گيري به صورت 10 تايي تقسيم بندي شده و شما مي توانيد از محل قرار گيري عقربه عدد 15 را بخوانيد ، اين قرائت شما کاملا اشتباه است و اساسا اين دستگاه نميتواند عدد 15 را تشخيص دهد . از ديگر کاربردهاي اين تعريف انتخاب دستگاه اندازه گيري مناسب براي مورد مصرف شماست به اين صورت که اگر شما دقت خاصي را در نظر داشته باشيد و دستگاه شما با دقت کمتر باشد طبيعتا مقادير شما درست نخواهد بود ولي آيا اگر دستگاه داراي دقت بيشتر باشد آيا مشکلي ايجاد خواهد شد؟

جواب اين است بله . دلايل اينها هستند :

اگر لازم باشد که يک بعد از قطعه اي فقط تا 0.15 ميليمتر اندازه گيري شود ، استفاده از وسيله اي با ريز نگري 0.015 ميليمتر مزيتي ندارد . يک دليل براي آن اين است که در اغلب وسايل اندازه گيري رابطه معکوسي بين ريزنگري و دامنه (Range) وجود دارد به اين صورت که هر چه ريزنگري بيشتر باشد دامنه محدودتر است .

هر چه ريزنگري بالاتر باشد تاثير پذيري از عوامل بيروني بخصوص لرزش ، درجه حرارت و گردوغبار بيشتر خواهد بود . اين موضوع ، عمل قرائت اندازه را دشوار ساخته و ممکن است سبب نا رضايتي و ناراحتي اپراتور گردد.

اشکال مهمتر اينکه اپراتور ، اعتماد بيش از اندازه اي نسبت به مقداري که توسط ابزار اندازه گيري ، نشان داده مي شود مي نمايد . به عنوان مثال اگر قطر قطعه اي 2.406 ميليمتر اندازه گيري شده باشد ممکن است رقم آخر بي معني باشد مگر اينکه شکل هندسي قطعه مناسب بوده و شرايط اندازه گيري ، صحت رقم آخر را توجيه کند . حتي اگر اپراتور بخواهد اين قطر را در محدوده مثبت و منفي  0.025 ميليمتر اندازه گيري کند ، اين وسواس ممکن است وجود داشته باشد که اندازه قطر قطعه دقيقا برابر 2.406 ميليمتر مي باشد .

صحت (Accuracy) به معني نزديک بودن به واقعيت مي باشد . بيشتر اوقات اصطلاحات تکرار پذيري و صحت با يکديگر اشتباه گرفته مي شوند . در مورد صحت يک ميکرو متر يا يک وسيله اندازه گيري الکترونيکي ، اين اصطلاح به ميزاني که وسيله اندازه گيري مورد نظر مي تواند اندازه واقعي قطعه را بسنجد اطلاق مي گردد. براي سادگي مطلب يک بلوک سنجه (gage block) داراي يک طول واقعي مشخص است و وقتي که آن را اندازه گيري مي کنيم از اين اندازه واقعي اطمينان حاصل مي نماييم . اما بنا به دلائلي اندازه اين طول واقعي را هيچگاه نميتوان به طور کاملا دقيق تعيين نمود ، بلکه فقط مي توان آنرا با تقريب بيان کرد . اگر عمل اندازه گيري نشان دهد که اين بلوک سنجه داراي طولي برابر با 25.00 ميليمتر بوده و معلوم گردد که صحت عمل اين اندازه گيري تا مثبت و منفي 0.025 ميليمتر ميباشد ، طول واقعي بلوک سنجه بين 25.025 و 24.975 قرار مي گيرد .

تکرار پذيري (Repeatability)  : اولين نيازمندي هر سيستم اندازه گيري اين است که داراي تکرار پذيري کافي باشد . به عنوان مثال اگر طول يک بلوک سنجه چندين بار اندازه گيري شده و نتايج حاصله از اين اندازه گيري ها با يکديگر اختلاف زيادي داشته و در محدوده وسيعي قرار گيرند اين نتايج بي معني بوده و سيستم اندازه گيري مطلوب و مناسب نمي باشد . تکرار پذيري گروهي از اندازه گيري هاي تکراري عبارتست از ميزان يا حدي که اين اندازه ها نزديک به هم قرار مي گيرند . اين ميزان عموما بر حسب اصطلاحات آماري بيان مي گردد. بلوک سنجه اي را در نظر بگيريد که طول آن با يک وسيله اندازه گيري مقايسه اي الکترونيکي به دفعات زيادي اندازه گيري مي شود . اگر اين وسيله اندازه گيري داراي ريزنگري کافي باشد ، در هر بار اندازه گيري تفاوت جزئي را نشان خواهد داد . اين اختلاف ، ناشي از عوامل متعددي است . درجه حرارت ممکن است تغيير کند ، ذرات ريز گرد و غبار موجود در محيط ممکن است در برخي اندازه گيري ها بين محل تماس وسيله اندازه گيري و سطح بلوک سنجه قرار گيرد ، فشار تماس ابزار و قطعه ممکن است تغييرات جزئي داشته باشد و ... . اين عوامل ، تصادفي بوده و مقادير حاصل از اندازه گيري ها نيز تصادفي ميباشد . اگر مقادير اندازه گيري شده ، به ترتيب ، داراي سير صعودي يا نزولي باشند ، سيستم داراي ثبات نبوده و تا زماني که اين تغييرات از بين نروند ، مقادير خوانده شده قابل قبول نخواهند بود . در شرايط عادي مقادير اندازه گيري شده از توزيع نرمال تبعيت مي کنند .

 

آخرین شماره از نشریه ی برازش

بوديم و كسي پاس نميداشت كه هستيم

 

باشد كه نباشيم و بدانند كه بوديم

 

سلام!

خيلي وقته كه به اين وبلاگ سر نزدم. چيزي حدود 8 ماه. يعني بعد از فارغ التحيلي از دانشگاه لرستان. حالا بعد اين همه مدت با ديدن اين آمار بازديد و نظرات خوانندگان كلي خوشحال شدم.

ممنون از همراهيتون. راستش با اينكه الآن توي تبريز دانشجو هستم ولي خيلي وقته از درس خوندن و پيشرفت به دورم. شايد بزرگترين علتش دانشگاه (البته بيشتر شبيه مهدكودك ميمونه) دانشوران تبريز باشه كه توش درس ميخونم. چون هر موقع سر كلاساش ميشينم احساس ميكنم نه تنها چيز جديدي ياد نميگرم بلكه چيزايي كه مي دونستم هم داره از مخم ميپره. از بس اينجا مزخرفه. خوب چي كار ميشه كرد. نميخوام به كسي توهين كنم ولي مرده شور مملكتي رو ببرن كه دانشگاهش اين باشه. راستش هيچ وقت فكر نميكردم كه دلم واسه دانشگاه لرستان تنگ بشه ولي بايد اعتراف كنم كه تنگ شده!

اما از همه ي اينا كه بگذريم من هنوز هم به آمار علاقه دارم و ميخوام هر چه بيشتر تو اين زمينه اطلاعات كسب كنم. خوشحال ميشم دوستاني كه با من هم عقيده هستن با معرفي سايت هاي آماري خودشون منو تو اين راه همراهي كنن.

 امروز يه آپ ويژه براي علاقه مندان به آمار دارم. آخرين نسخه از نشريه ي دانشجويي برازش كه خرداد امسال چاپش كرديم. توصيه ميكنم حتماً دانلود كنيد.

 

دانلود نشريه (حجم فايل : 5مگابايت)

تحلیل عاملی

تحلیل عاملی

تحليل عاملي اصطلاحي است كلي براي تعدادي از تكنيك هاي رياضي و آماري مختلف اما مرتبط با هم به منظور تحقيق درباره ماهيت روابط بين متغيرهاي يك مجموعه معين. مساله اساسي تعيين اين مطلب است كه آيا يك مجموعه متغير را مي توان برحسب تعدادي از «ابعاد» يا «عامل هاي» كوچكتري نسبت به تعداد متغيرها توصيف نمود و هر يك از ابعاد (عامل ها) معرف چه صفت يا ويژگي است.

نخستين كار درباره تحليل عاملي توسط چارلز اسپيرمن (1940) صورت گرفت، كه به گونه كلي «پدر» اين روش شناخته شده است. بعد از او كارل پيرسن (1901)، روش «محورهاي اصلي» را پيشنهاد كرد و هتلينگ (1933) آن را به گونه كاملتري توسعه داد.

بسياري از كارهاي نخستين در تحليل عاملي، يعني در طول سال هاي 1900 تا 1930، به كاربرد مدل اسپيرمن در بسياري از مسايل عملي و بررسي شرايط مناسب براي استفاده از آن مدل اختصاص يافته است. در طول اين دوره، علاوه بر خود اسپيرمن، دانشمندان ديگري مانند سيريل برت، كارل هليزينگر، ترومن كلي، كارل پيرسن و گادفري تامسون، كمك هاي شاياني به ادبيات تحليل عاملي كرده اند. در اوايل سال 1930، آشكار شد كه مدل تك عاملي عمومي اسپيرمن براي توصيف روابط بين متغيرهاي يك مجموعه هميشه كافي نيست.

ترستون احتمالا برجسته ترين تحليلگر عاملي نوين بوده و نفوذ قابل ملاحظه اي در توسعه اين روش از سال هاي 1930 تا كنون داشته است. مسئوليت توسعه روش «سانتروئيد» با اوست كه در مقياس گسترده اي قبل از ظهور كامپيوترهاي پر سرعت به كار رفته است. او همچنين مسئول مفهوم ساختار ساده است كه توسط بيشتر تحليلگران به عنوان معرف يك راه حل تحليل عاملي ايده آل در نظر گرفته شده است.

كارهاي اوليه در تحليل عاملي  كه توسط دانشمندان ياد شده انجام گرفته، بيشتر توجيه نظري دارد، هر چند هيچ يك از آنها آماده براي آزمون هاي آماري فرضيه هاي خاص درباره ساختارهاي عاملي مجموعه هاي معيني از متغيرها نبوده است. اما، وقتي كامپيوترهاي پر سرعت در اختيار قرار گرفت در اواسط تا اواخر سال هاي 1950، حركتي از تئوري گرائي به سوي آنچه تحليل عاملي اكتشافي ناميده مي شود، به وجود آمد. اين حركت به گونه آشكار از طريق تئوري عامل مشترك ترستون تشويق، و از طريق فرمول بندي عمومي هتلينگ (1993)، درباره عمليات رياضي مولفه هاي اصلي كه قبل از آن به دليل محاسبات فوق العاده پيچيده و پرزحمت آن، به كار نرفته بود تسهيل شد. چنين به نظر مي رسد كه در طول سال هاي 1950 و 1960، تقريبا هر كس، هر چيزي را تحليل عاملي مي كرده است، به اين اميد كه روابط پيچيده ظاهري بين متغيرهاي يك مجموعه را مي توان ساده كرد و به گونه ساده تري تفسير نمود (ليندمن و همكاران، 1980). در طول اين دوره همچنين تعداد روشهاي تحليل عاملي با ابداع تحليل تصوير (گاتمن، 1953)، تحليل عاملي بنيادي (رائو، 1955 و هريس، 1962)، تحليل عاملي آلفا (كيسر و كافري، 1965) و روش كمترين پس مانده (هامن و جونز، 1966)، به گونه قابل توجهي توسعه يافت. با اين وجود، روشهاي تحليل اكتشافي نتوانست آن گونه كه انتظار مي رفت، كمك موثري براي آزمون و پالايش تئوري روان شناختي باشد.

مقاله هتلينگ (1933) درباره تحليل مولفه هاي اصلي نخستين كمك قابل توجه يك آماردان را به تحليل عاملي معرفي كرد، و اين وضعيت تا موقعي ادامه داشت كه مقاله لاولي (1940) درباره روش بيشينه احتمال (ML) منتشر شد. لاولي نشان داد كه تحليل عاملي مي تواند به عنوان يك تكنيك آماري جالب در بسياري از موقعيت هاي پژوهشي كاربرد داشته باشد. واكنش هاي له و عليه اين روشها نيز تا وقتي كه آزمون فرضيه هاي خاص درباره پارامترهاي مدل تحليل عاملي مورد توجه قرار گرفت (مثلا جارزكاگ، 1984)، همچنان ادامه داشت. هر چند كارهاي جارزكاگ اساسا مبتني بر روش ML لاولي بود، اما بسياري از مسايل محاسباتي و تفسيري را كه لاولي با آن مرتبط نبود، روشهاي باك و بارگمن (1966) و جارزكاگ (1984) به سبب تاكيد بر آزمون فرضيه، به عنوان روشهاي تحليل عاملي تاييدي طبقه بندي مي شود. هر چند توليد فرضيه هايي كه بايد آزمون شود اغلب دشوار است، اما اين روشها به وضوح بر تحليل عامل اكتشافي به سبب توسعه و آزمون تئوري مزيت دارد.

البته براي تدوين چنين فرضيه هايي مي توان ابتدا تحليل عاملي اكتشافي را اجرا كرد و سپس اين فرضيه ها را از طريق تحليل عاملي تاييدي آزمود.

 

درك مفهومي تحليل عاملي و كاربرد آن

بنا بر آنچه گفته شد، تحليل عاملي تكنيكي است كه كاهش تعداد زيادي از متغيرهاي وابسته به هم را به صورت تعداد كوچكتري از ابعاد پنهان يا مكنون امكان پذير مي سازد. هدف عمده آن رعايت اصل اقتصاد و صرفه جويي از طريق كاربرد كوچكترين مفاهيم تبيين كننده به منظور تبيين بيشينه مقدار واريانس مشترك در ماتريس همبستگي است. مفروضه اساسي تحليل عاملي اين است كه عامل هاي زيربنايي متغيرها را مي توان براي تبيين پديده هاي پيچيده به كار برد و همبستگي هاي مشاهده شده بين متغيرها حاصل اشتراك آنها در اين عامل ها است. هدف تحليل عاملي تشخيص اين عامل هاي مشاهده ناپذير بر پايه مجموعه اي از متغيرهاي مشاهده پذير است. عامل، متغير جديدي است كه از طريق تركيب خطي نمره هاي اصلي متغيرهاي مشاهده شده بر پايه فرمول زير برآورد مي شود :

Fj=∑WjiXi=Wj1X1+Wj2X2+…+WjpXp

كه در آن W ها بيانگر ضرايب نمره عاملي و P معرف تعداد متغيرها است. اين عامل ها، في نفسه، سازه هاي فرضي يا نظري هستند كه به تفسير ثبات و هماهنگي در مجموعه داده ها كمك مي كنند. بنابراين ارزش تحليل عاملي اين است كه طرح سازماني مفيدي به دست مي دهد كه مي توان آن را براي تفسير انبوهي از رفتار با بيشترين صرفه جويي در سازه هاي تبيين كننده، به كار برد.

اميد اين است كه تعداد كمي از اين عامل ها (يعني تركيب هاي خطي نمره هاي اصلي متغيرهاي مشاهده شده) بتواند تقريبا همه اطلاعاتي را كه توسط مجموعه بزرگتري از متغيرها به دست مي آيد در برگرفته در نتيجه توصيف ويژگي هاي فرد را ساده سازد. از اين گذشته اميدوار هستيم كه با توسعه صحيح عامل ها، متغيرهايي به وجود آوريم كه دلالت بر يك سازه روشن و با معناي روان شناختي داشته باشد به گونه اي كه توصيف ما از شخص نه فقط ساده تر، بلكه روشن تر و قاطع تر باشد.

 

چرخش عامل ها

چرخاندن عامل ها، بارهاي عاملي و به همين ترتيب معناي آن ها را تغيير مي دهد، اما راه حل هاي مختلف تحليل عاملي از لحاظ رياضي در مقدار واريانسي كه در هر متغير و بنابراين در كل ماتريس تبيين مي كنند معادل هستند. بعلاوه، عامل هاي چرخش يافته، همبستگي هاي اوليه را دقيق تر از راه حل چرخش نيافته باز پديد مي آورد.

با وجود اين آشكار است كه عامل هاي چرخش يافته ممكن است هر وضعيتي را در فضاي عاملي اشغال كنند و از اين رو، عملا بي نهايت راه حل وجود دارد. از آنجا كه اين راه حل ها از لحاظ رياضي معادل هستند، هيچ دليل رياضي جهت رجحان يكي بر ديگري وجود ندارد و دقيقا به اين دليل است كه نبايد نتايج حاصل از اولين تلخيص را، با هر روشي كه باشد، به عنوان راه حل نهايي تلقي كرد. از اين رو، لازم است كه چگونگي انتخاب يك راه حل از ميان آرايه اي از چرخشهاي ممكن مورد بحث قرار گيرد.

چرخش هاي نموداري. در واقع هنگامي كه تحليل عاملي به تازگي باب شده بود، عامل ها به صورت نموداري چرخش داده مي شدند. اما زماني كه عوامل زيادي در دست است، انجام اين كار فرآيندي خسته كننده و طولاني است. به همين دليل، براي چرخش عامل ها روش هاي تحليل رياضي به وجود آمده و در اين روش ها، محاسبات به وسيله رايانه انجام مي گيرد.

چرخش هاي متعامد. در چرخش هاي متعامد عوامل طوري چرخانده مي شوند كه نسبت به هم هميشه يك زاويه قائمه داشته باشند. اين بدان معنا است كه عامل ها ناهمبسته هستند (cos 90=0). همانطور كه كتل (1978) استدلال كرده، در جستجوي عامل هايي كه براي فهم پديده هاي رواني، ابعاد اساسي هستند، بعيد است كه عامل ها ناهمبسته باشند. براي مثال در شخصيت كه تبيين كننده هاي محيطي- ژنتيكي بر آن موثرند، يافتن عامل هاي متعامد بسيار عجيب خواهد بود.

چرخش هاي متمايل. در چرخش هاي متمايل، محورهاي عاملي مي توانند هر وضعيتي را در فضاي عاملي داشته باشند و علت نامگذاري اين چرخش ها نيز همين مساله است. كسينوس زاويه بين محورهاي عاملي نشان دهنده همبستگي بين آن ها است. چرخش متمايل عامل ها، در مقايسه با چرخش متعامد كه محدوديت ناشي از متعامد بودن وجود دارد، آزادي بيشتري در انتخاب وضعيت عامل ها در فضاي عاملي وجود دارد.

 

منبع : وبلاگ پژوهش هاي آماري

 

نمونه گیری خوشه ای

نمونه گیری خوشه ای

نمونه گیری خوشه ای شامل تشکیل گروه ها یا خوشه هائی مناسب از واحدهای نمونه گیری و سپس انجام آمارگیری ازتمام یا بخشی از واحدهای خوشه انتخاب شده می باشد. هنگامی از این نوع نمونه گیری استفاده می شود که جامعه مورد پژوهش ازدسته های جداگانه ای تشکیل شود و عناصر آن جامعه در این دسته ها توزیع شده باشد. علاوه بر این اگر هزینه بدست آوردن چهارچوبی که نام همه عناصر جامعه را در بر داشته باشد سنگین یا هزینه گردآوری مشاهدات و داده های پژوهش زیاد باشد، می توان ازنمونه برداری خوشه ای ا ستفاده کرد که از نمونه برداری ساده یا طبقه ای به مراتب سهل الوصول تر و ارزانترخواهد بود. بنابراین منطق اساسی نمونه گیری خوشه ای درحقیقت، رعایت اصل اقتصاد و راحتی اجرای آن می باشد.

مزایای نمونه گیری خوشه ای از نظر هزینه آماری به مقدار زیادی وابسته به این حقیقت است که گردآوری اطلاعات از واحدهای نزدیک به هم آسانتر، سریع تر، ارزانتر و بالاخره راحت تر از جمع آوری اطلاعات از واحدهائی می باشد که در تمام حوزه آمارگیری یک بررسی قرارگرفته اند. برای مثال بسیار ساده تر است که تمام کشاورزان واقع در یک روستا را آمارگیری کنیم تا همین تعداد کشاورز نمونه را بصورت تصادفی از بین تمام کشاورزان یک دهستان انتخاب کنیم. به علت آسانی عملیات میدانی و کم شدن هزینه آمارگیری، نمونه گیری خوشه ای در بسیاری از آمارگیری ها بکار برده می شود و بطورکلی برای یک نمونه با حجم معین سودبخشی نمونه گیری خوشه ای در مقایسه با نمونه گیری پراکنده واحدهائیکه ازجامعه بصورت واحد به واحد انتخاب می شود کمتراست. علت آن واریانس نمونه گیری است. زیرا درانتخاب اخیر امکان برگزیدن واحد ها به طور جزئی ازتمام قسمت جامعه وجود دارد. بهترین نمونه ي خوشه ای نمونه ای است که واحد های خوشه در بین خود تا سرحد امکان با یکدیگر متفاوت باشند. (یعنی واریانس داخل خوشه حداکثر باشد). درعمل منظور از نمونه گیری خوشه ای آن است که ازواحدهای نزدیک به هم جامعه و یا واحدهائی که بتوان آنها را براحتی با یکدیگر نمونه گیری نمود، خوشه هائی تشکیل داد و ازبین خوشه های تشکیل شده نمونه ای انتخاب کرد.

نمونه گیری خوشه ای دو مرحله ای  :

موقعیکه خوشه ها بزرگند، شمارش آنها بطور کامل مشکل است. درعین حال نیازی نیست تا اطلاعات مربوط به هر عضو خوشه های نمونه جمع آوری شود. می توان بعداً نمونه ای ازهریک ازخوشه های منتخب انتخاب کرد. این روش، نمونه گیری از نمونه یا نمونه گیری دومرحله ای نامیده می شود. بنابراین یک نمونه گیری خوشه ای دومرحله ای ابتدا بوسیله انتخاب یک نمونه ی احتمالی از خوشه ها و سپس اخذ یک نمونه احتمالی از اعضای خوشه ی نمونه (یک نمونه ازهرخوشه ی منتخب) حاصل می شود. در هر مرحله، نمونه گیری از نوع تصادفی ساده خواهد بود مثلاً می توان چند آبادی را به عنوان نمونه به منظور یک بررسی کشاورزی انتخاب کرد. سپس نمونه ای از مزارع داخل این آبادی ها انتخاب کرد. آبادیها واحد های نمونه گیری اولیه هستند و مزارع واحدهای مرحله دوم هستند. مزیت اصلی این روش آن است که چارچوبی که بایستی فراهم آورد، تنها برای واحدهایی است که در نمونه قرار دارند و آمارگیری ارزانترتمام می شود، زیرا بررسی بایستی تنها درمورد واحدهای مرحله اول نمونه گیری به عمل آید. نظارت برآمارگیری نیز موقعی که نمونه گیری تنها به چند خوشه محدود شود نسبتاً آسان است.

نمونه گیری خوشه ای چند مرحله ای  :

اصول نمونه گیری خوشه ای چندمرحله ای را می توان در هر زمینه دیگری که چهارچوب نمونه گیری به سهولت به دست نمی آید بکاربرد. به عنوان مثال در پیمایش کشاورزان یک استان می توان با نمونه گیری از شهرستان های استان شروع کرد و سپس از دهستان های هر شهرستان منتخب نمونه گیری کرد. در داخل هر دهستان می توان فهرستی از آبادی ها تهیه و از آن فهرست نمونه گیری کرد. برای هریک از آبادی های انتخاب شده نیز می توان فهرستی از کشاورزان ساکن بدست آورده و نمونه ای از آنها برگزید.دراین تکنیک کشاورزان نمونه نهایی متضمن انتخاب چند نمونه مختلف است و به گونه ای انجام می شود که هزینه نهایی پیمایش به حداقل برسد. نتیجه ی این روش نمونه گیری تمرکز مصاحبه در چند نقطه جغرافیایی وکاهش هزینه رفت وآمداست. نکته ی اصلی در نمونه گیری چند مرحله ای تعداد خوشه هایی است که در هر مرحله باید نمونه گیری شوند. با توجه به حجم نمونه ی نهایی رابطه ی مستقیمی بین تعداد خوشه های منتخب و تعداد واحدهایی که متعاقباً ازهریک از آنها انتخاب می شود وجود دارد. اصل کلی، به حداکثر رساندن خوشه های اولیه منتخب و متعاقباً انتخاب تعداد نسبتاً معدودی افراد یا واحد ازهرخوشه منتخب است.  مسئله در اینجاست که با افزایش تعداد خوشه های اولیه منتخب، هزینه ی رفت وآمدهای بعدی نیز بالا می رود.

 

منبع : http://www.fargasht.com

سایت های آماری

سلام

تو این پست میخوام یه سری سایت مفید مرتبط با آمار را براتون قرار بدم. امیدوارم به دردتون بخوره!

جامعه ی آمار

اطلاعاتی درمورد جمعیت جهان

طلاعاتی مربوط به آمار

مفاهیم مهم

شرکت مشاور خدمات آماری

آنالیزهای آماری

آنالیز اطلاعات آماری

منبع اطلاعاتی برای آمارشناسان

اطلاعات آماری

حل مشکلات آمار

تحقیقات آماری

جلوه‌ی ویژه‌ای از علم آمار

کتابخانه آماری

طراحی‌های آماری

سایت جهانی آمار

راه‌حل‌های آماری

آنالیز اطلاعات

آزمایشگاه آمار دربخش ریاضیات دانشگاه کمبریج

مطالعات آمار‌ی

خدماتی در زمینه‌ی آمار

پژوهشکده آمار

نمونه گیری و انواع آن

اهمیت و ضرورت نمونه گیری

پس از انتخاب موضوع تحقیق و بیان مسئله٬ یکی از تصمیمیات مهمی که در پیش روی هر پژوهشگری قرار دارد انتخاب نمونه است٬ نمونه ای که باید نماینده جامعه ای باشد که پژوهشگر قصد تعمیم یافته های تحقیق خود به آن جامعه را دارد.

اگر محقق پژوهش خود را بر تمامی افراد جامعه اجرا کند روش او سرشماری خواهد بود یعنی محقق باید تمامی افراد جامعه را تک تک مورد برسی و آزمون قرار دهد.

اما چون اکثر پژوهشگران توان و زمان اجرای پژوهش بر کل جامعه را ندارند به همین دلیل پژوهش خود را محدود به نمونه کوچکی می سازند.

تعریف جامعه

"جامعه عبارت است از مجموعه ای از افراد یا واحدها که دارای حداقل یک صفت مشترک باشند و تعریف جامعه آماری باید جامع و كامل باشد"

تعریف نمونه گیری

انتخاب تعدادی از افراد٬ حوادث٬ و اشیاء از یک جامعه تعریف شده به عنوان نماینده آن جامعه .

اولین قدم در نمونه گیری تعریف جامعه مورد نظر است و هدف نوعی نمونه گیری است که تمام افراد جامعه جهت انتخاب شدن شانس برابر داشته باشند.

دلایل استفاده از نمونه گیری

1.      جلوگیری از اتلاف وقت محقق

2.      صرفه جویی در منابع مالی و هزینه

تعیین حجم نمونه

هر چه حجم یا اندازه نمونه بزرگتر باشد میزان اشتباهات در نتیجه گیری کم میشود و بر عکس هر چه تعداد نمونه محدود باشد مقدار اشتباهات زیادتر است٬ بنابر این زمانی که محقق سطح بالاتری از اطمینان یا معنی دار بودن آماری را ملاک ارزیابی اطلاعات تحقیق خود قرار میدهد لازم است حجم نمونه او بزرگتر انتخاب شود.

لذا اگر هر عضو در جامعه مادر دقیقا مشابه عضو دیگر باشد آنگاه انتخاب نمونه ای با حجم یک عضو هم کافی است. حجم نمونه باید به اندازه ای باشد که نتایج حاصل عینا با نتایج همان مطالعه در جامعه ای که نمونه از آن انتخاب شده است برابر باشد.

در شرایط ذیل انتخاب نمونه با اندازه بزرگ ضروری است :

1.      زمانی که در تحقیق متغیرهای کنترل نشده زیادی وجود دارند.

2.      هنگامیکه پیش بینی تفاوت یا همبستگی پایین است. در تحقیقاتی که انتظار داریم برای گروههای مختلف تفاوت اندکی در متغیر وابسته بدست آوریم٬ یا در مطالعاتی که به منظور تعیین ارتباط صورت می گیرند و همبستگی پایین مورد انتظار است.

3.      زمانی که گروههای انتخاب شده باید به زیر گروههای دیگری تقسیم شوند.

4.      زمانی که جامعه مورد نظر بر اساس متغیر های مورد مطالعه نامتجانس است. اگر کاملا شبیه هم باشند انتخاب نمونه ای با حجم یک نفر کافی است.

5.      زمانی که وسیله پایایی برای اندازه گیری متغیر وابسته وجود ندارد. پایایی ابزار اندازه گیری بدان معنا است که هر گاه این ابزار در شرایط و زمانهای مختلف بکار رود٬ آزمودنی های یکسان دارای نمره های مشابهی گردند.

اشتباهات نمونه گیری :

اشتباهات نمونه گیری از جمله عواملی هستند که ممکن است هر پژوهشگری در روند تحقیق خود مرتکب آن شود و به دو دسته زیر تقسیم میشوند : 

1.      اشتباهات نمونه گیری

2.      اشتباهات غیر نمونه گیری

اشتباهات نمونه گیری :

1.      اشتباه ناشی از در دست نبودن فهرست کامل افراد جامعه

2.      اشتباه ناشی از انتخاب معدودی از افراد جامعه

3.      اشتباه ناشي از تحلیل آماری نامناسب

اشتباهات غیر نمونه گیری :

1.      اشتباه ناشی از عدم مشاهده افراد مورد مطالعه که به دو دسته تقسیم میشوند : عدم پوشش و عدم پاسخ.

2.      اشتباه ناشی از مشاهده نا دقیق که به سه دسته تقسیم میشوند : ابزار نادقیق٬ ثبت نادقیق داده ها و استخراج نامناسب.

ارتباط حجم نمونه با فرضیه پوچ (صفر يا آماری) :

همانطوریکه گفته شد حجم نمونه را باید تا حد امکان بزرگ انتخاب کرد زیرا حجم نمونه ارتباط بسیار نزدیکی با آزمون فرضیه پوچ در تحقیق دارد٬ بدین ترتیب که هر چه اندازه گروه نمونه بزرگتر انتخاب شود محقق با قاطعیت بیشتری فرض پوچ را که واقعا نادرست است رد میکند.

فرضیه پوچ٬ صفر یا آماری هدفی جزء رد تحقیق ندارد این فرض صریحا منکر وجود تفاوت یا رابطه و یا اثر بین دو یا چند متغیر است. به سخن دیگر این فرض گویای آن است که هر نوع تفاوت٬ رابطه یا اثر صرفا نتیجه وقایع اتفاقی یا خطاها و اشتباهات آماری و نمونه گیری است٬ به همین جهت محقق به آزمایش و آزمون این فرض می پردازد.

خطای نمونه گیری

بین ویژگیهای یک نمونه و ویژگی های جامعه ای که نمونه از آن انتخاب میشود تفاوت وجود دارد. این تفاوت برای نمونه تصادفی قابل برآورد است و به آن خطای نمونه گیری گفته می شود.

خطای نمونه گیری تابع اندازه حجم نمونه است هر چه اندازه نمونه کوچکتر باشد خطای نمونه گیری زیاد است.

انواع نمونه گیری :

شیوه های نمونه گیری مرسوم و متداول در اصل به دو بخش تقسیم میشوند :

1.      نمونه گیری سهمیه ای

2.      نمونه گیری اتفاقی یا احتمالی

نمونه گیری سهمیه ای : اگر اعضای طبقه یک گروه بیشتر باشد پس در نمونه نیز تعدادشان بیشتر خواهد بود. از این شیوه وقتی استفاده می شود که اولا هدف تحقیق کمتر جنبه علمی داشته باشد ثانیا ساخت جامعه مورد مطالعه مشخص باشد. نمونه گیری سهمیه ای شرط قابلیت تعمیم را به اندازه لازم دارا نیست.

نمونه گیری اتفاقی یا احتمالی : در این نوع نمونه گیری که گاه نمونه گیری تصادفی نیز خوانده می شود انتخاب افراد بر اساس ضابطه کنترل شده ای نیست و متکی به اصل "مشت نمونه خروار است" میباشد.

نمونه گیری اتفاقی خود دارای انواع گوناگون می باشد که محققین در شرایط خاص تحقیق خود آنها را ابداع کرده و به کار بسته اند که به شرح ذیل می باشند :

1- نمونه گیری تصادفی ساده

در این نوع نمونه گیری هر یک از اعضای جامعه تعریف شده شانس برابر و مستقلی برای قرار گرفتن در نمونه دارند٬ منظور از مستقل بودن این است که انتخاب یک عضو به هیچ شکل در انتخاب سایر اعضای جامعه تاثیری ندارد. در این روش ابتدا فهرست اسامی تمامی اعضا را به دست آورده٬ سپس به هر یک از آنها نمره ای اختصاص می دهیم و با استفاده از جدول اعداد تصادفی تعداد مورد نیاز را انتخاب می کنیم.

اگر جامعه مورد مطالعه کوچک باشد از روش قرعه کشی استفاده می شود٬ یعنی اسامی افراد را بر روی یک تکه کاغذ نوشته و در داخل کیسه قرار می دهیم٬ سپس کاغذ ها را به طور تک تک خارج می کنیم تا زمانیکه حجم نمونه مورد نظر کامل شود.

نمونه گیری به روش تصادفی شانس نماینده بودن نمونه را افزایش می دهد.

2- نمونه گیری منظم یا سیستماتیک 

همانند نمونه گیری تصادفی ساده٬ نمونه گیری منظم نیز برای انتخاب یک نمونه از یک جامعه تعریف شده به کار می رود.

از این روش زمانی استفاده می شود که تمام اعضای جامعه تعریف شده قبلا به صورت تصادفی فهرست شده باشند. به عنوان مثال صد نفر  دانش آموز از یک جامعه هزار نفری که قبلا فهرست شده اند انتخاب می کنیم٬ برای این منظور ابتدا تعداد اعضای جامعه را به تعداد اعضای نمونه مورد نیاز تقسیم می کنیم.۱۰=۱۰۰/۱۰۰۰ سپس یک عدد تصادفی چنان انتخاب می کنیم که کوچکتر یا مساوی فاصله نمونه گیری باشد. به عنوان مثال ما عدد ۶ را انتخاب می کنیم ٬ بدین ترتیب افرادی را که در فهرست جامعه شماره های آنها به ترتیب شماره های ۶و۱۶و۲۶و۳۶و۴۶و... است انتخاب میکنیم و این را تا انتخاب ۱۰۰ نفر ادامه می دهیم.

این روش آسانتر از روش نمونه گیری تصادفی ساده است و تفاوت آن با روش نمونه گیری ساده در این است که در این روش انتخاب هر عضو مستقل از انتخاب سایر اعضاء جامعه نیست. هنگامیکه اولین عضو انتخاب شد بقیه اعضای نمونه مورد نظر به صورت خودکار تعیین می شوند.

اگر افراد جامعه به صورت تصادفی فهرست شده باشند می توان نمونه گیری منظم را به جای نمونه گیری تصادفی ساده به کار برد. اما در صورتیکه افراد جامعه با توجه به یک نظم معین بر اساس ویژگی یا ویژگی هایی فهرست شده باشند باید از نمونه گیری تصادفی ساده استفاده کرد.

۳- نمونه گیری طبقه ای

در این روش محقق مایل است نمونه تحقیقی را به گونه ای انتخاب کند که مطمئن شود زیر گروه ها با همان نسبتی که در جامعه وجود دارند به عنوان نماینده جامعه٬ در نمونه نیز حضور داشته باشند. این نوع نمونه گیری وقتی بکار می رود که جامعه دارای ساخت همگن و متجانس نیست. یعنی در این روش درصد آزمودنی هایی که به صورت تصادفی از هر گروه انتخاب می شوند با درصد همان گروه در جامعه مورد نظر برابر است. بنابر این اگر یک گروه به طور مثال ۸ درصد از جامعه را تشکیل می دهند همین گروه ۸ درصد از نمونه را نیز تشکیل خواهند داد.

این روش در مطالعه هایی که محقق قصد مقایسه زیر گروه های مختلفی را داشته باشد مناسب است٬ اگر در چنین شرایطی از این روش استفاده نشود هر گونه تجزیه و تحلیل اطلاعات جمع آوری شده از نمونه نامناسب و موجب نتیجه گیری غلط خواهد بود.

مثال : دانش آموزان (عالی ـ متوسط ـ ضعیف) یا اعضای یک دانشگاه (استاد ـ دانشجو ـ کارمند ـ کارگر).

به طور خلاصه در این روش محقق مطمئن است که نمونه انتخاب شده بر اساس ویژگی ها و عواملی که اساس آن طبقه بندی بوده اند٬ نماینده واقعی جامعه مورد نظر است.

۴- نمونه گیری خوشه ای

در نمونه گیری خوشه ای واحد اندازه گیری فرد نیست٬ بلکه گروهی از افراد هستند که به صورت طبیعی شکل گرفته و گروه خود را تشکیل داده اند. این روش وقتی به کار می رود که فهرست کامل افراد جامعه در دسترس نباشد. به این منظور افراد را در دسته هایی خوشه بندی می کنند سپس از میان خوشه ها نمونه گیری به عمل می آورند و زمانی به کار می رود که انتخاب گروهی از افراد امکانپذیر و آسانتر از انتخاب افراد در یک جامعه تعریف شده باشد.

به عنوان مثال فرض می کنیم جامعه مورد نظر و تعریف شده ما عبارت است از کلیه افراد یک شهر که بیشتر از ۱۸ سال سن دارند. در این جامعه نمونه گیری تصادفی ساده و نمونمه گیری منظم زمانی میسر است که فهرست کامل تمام افراد یک شهر را با سن آنها در دست داشته باشیم٬ در غیر اینصورت به جای انتخاب فرد به عنوان واحد نمونه گیری٬ منطقه را واحد نمونه گیری قرار می دهیم و سپس به روش نمونه گیری تصادفی ساده از بین مناطق٬ منطقه یا مناطق مورد نظر را انتخاب می کنیم.

۵- نمونه گیری خوشه ای چند مرحله ای

این روش نوع دیگری از نمونه گیری خوشه ای است. زمانی که منطقه به صورت تصادفی انتخاب شد٬ می توان نمونه گیری را در داخل منطقه نیز ادامه داد. به عنوان مثال مطالعه کننده ممکن است آدرس کلیه افرادی را که در یک منطقه زندگی می کنند داشته باشد بنابراین از بین این افراد٬ ۱۰ نفر را به صورت تصادفی انتخاب می کند. در روش نمونه گیری خوشه ای چند مرحله ای فهرست نمونه گیری دوبار و در بعضی مواقع بیش از دو بار تهیه می شود.

نمونه گیری خوشه ای برخی از مواقع در تحقیقات آموزشی به کار می رود در این نوع تحقیقات از کلاس به عنوان واحد نمونه گیری استفاده می شود.

از مزیت های عمده نمونه گیری خوشه ای جلوگیری از اتلاف وقت و صرفه جویی در منابع مالی است.

از معایب آن هم اینکه :

1.      دقت آن از نمونه گیری تصادفی ساده کمتر است زیرا در نمونه گیری تصادفی ساده فقط یک اشتباه وجود دارد در صورتیکه در نمونه گیری خوشه ای در هر مرحله یک اشتباه نمونه گیری وجود خواهد داشت یعنی به تعداد مراحل خطای نمونه گیری وجود دارد.

2.      برای داده های جمع آوری شده از این نوع نمونه گیری فرمول آسانی را نمی توان به کار برد. زیرا بکار بردن یک نوع ابزار آماری در جامعه های مختلف دقت آن را کاهش می دهد.

در پایان شایان ذکر است در برخی مواقع در صورتی که ایجاب کند انواع مختلف نمونه گیری کم و بیش در هم آمیخته شده و مورد استفاده قرار می گیرد.

فهرست منابع :

روشهای تحقیق و چگونگی ارزشیابی آن در علوم انسانی/ تالیف دکتر عزت ا... نادری و دکتر مریم سیف نراقی.

مبانی نظری و عملی پژوهش در علوم انسانی/ تالیف دکتر علی دلاور.

کند و کاوها و پنداشته ها/ تالیف دکتر فرامرز رفیع پور.

روشهای تحقیق در علوم رفتاری/ تالیف جمعی از نویسندگان (دکتر زهره سرمد٬ دکتر عباس بازرگان٬ دکتر الهه حجازی).

تست های کارشناسی ارشد علوم اجتماعی.

 

روش هاي چند متغيري پيوسته

روش هاي چند متغيري پيوسته

پژوهشگران علوم پایه و علوم انسانی، معمولاً مقادیر چندین متغیر را اندازه گیری می کنند. روش های آماری  که برای بیان و تحلیل داده های چند متغیری ) مقادیر اندازه گیری شده  هم زمان چند متغیر) به کار می روند را تحلیل چند متغیری  می نامیم.

مؤلفه های اصلی

در تحلیل چند متغیره، بزرگ بودن بُعد بردار تصادفی X، اغلب در به دست آوردن روش های آماری مناسب برای نمونه تصادفی موجب مشکلاتی می گردد. حال می خواهیم با از دست دادن حداقل اطلاعات، بُعد مشاهدات را تا حد قابل ملاحظه ای تقلیل دهیم.

این تفکر از آنجا ناشی می گردد که در مراحل اولیه تحقیق، توجه به سوی متغیرهایی متمرکز است که از یک مشاهده به مشاهده دیگر بیشترین تغییرات را نشان می دهند.  متغیرهایی که از یک مشاهده به مشاهده دیگر زیاد عوض نمی شوند را می توان به عنوان ثابت ها در نظرگرفت، با کنار گذاشتن متغیرهایی با واریانس پائین و توجه به متغیرهایی با واریانس بالا،  می توانیم به راحتی مساله خود را در یک زیر فضایی با بُعد کمتر مورد مطالعه قرار دهیم.

روش مؤلفه های اصلی را ابتدا کارل پیرسن(1971) برای متغیرهای غیرآماری پیشنهاد کرد. در اکثر موارد یک تحلیل از مؤلفه های اصلی، ارتباط هایی که قبلاً حدس زده شده را آشکـــار می سازد. تحلیل مؤلفه های اصلی در بیان های دیگر در مباحث رگرسیون چند متغیره، آنـالیز گروه بندی و تجزیه عاملی نیز به کار گرفته می شود.

تحلیل مؤلفه های اصلی به ساختمان ماتریس کوواریانس به وسیله چند ترکیب خطی از متغیرهای اولیه، مربوط است. دو هدف عمده دراینجا پیگیری می شود.

1- فشرده کردن داده   2- تفسیر اطلاعات.

با اینکه p مولفه ی اولیه در تغییرپذیری کل سیستم لازم است، اکثر اوقات این تغییرپذیری می تواند به وسیله تعداد کمتر k از مولفه های اصلی بیان شود.

تحلیل مؤلفه های اصلی وسیله ای برای رسیدن به هدف هستند تا اینکه خودشان هدف باشند، زیرا اغلب آنها به عنوان مراحل میانی در وضعیت های بزرگتر به کار می آیند.

تحلیل عاملی

یک شیوه آماری که می تواند جهت تحلیل روابط متقابل میان گروه بزرگی از متغیــرها و برای توصیف این متغیرها براساس ابعاد مشترک پنهان میان عوامل به کار رود، تجزیه عاملی است.

این شیوه آماری به یافتن راهی جهت تلخیص اطلاعات موجود در تعدادی متغیرهای اصلی می پردازد و آنها را به یک سری عامل های کوچکتر با کمترین میزان ریزش اطلاعات تبدیل  می کند.

تجزیه عاملی بر مبنای همبستگی در توزیع، یک بردار تصادفی  X=[x1,x2,x3,…,xp]را بر حسب کمترین تعداد متغیرهای تصادفی غیرقابل مشاهده به نام عامل ها توجیه می کند. در این روش هر مؤلفه Xi مورد بررسی قرار می گیرد تا معلوم شود آیا می توان آن را بوسیله یک تابع خطی شامل مینیمم تعداد متغیرهای تصادفی غیرقابل مشاهده (که ساختار کوواریانس ظاهر می شوند) و یک متغیر دیگر ( که واریانس مؤلفه Xi را توجیه می کند) تولید کرد یا خیر؟

مراحل اجرای تحلیل عاملی عبارتند از :

1- جمع آوری داده ها و ایجاد ماتریس همبستگی

2- استخراج راه حل عاملی اولیه

3- چرخش دورانی و تفسیر

4- ساخت مقیاس ها با امتیازات عاملی برای استفاده در تحلیل های بعدی

--------

منابع : تحلیل آماری چند متغیری کاربردی/جانسون، ویچرن؛ ترجمه : حسینعلی نیرومند. دانشگاه فردوسی مشهد، 1378