دوشنبه، مرداد ۲۸، ۱۳۸۷

یک بحث کوچک

من توی این وبسایت برای پیدا کردن شباهت آدمها ضریب همبستگی رو حساب می‌کنم. خواهر رو برادرم چندان این روش رو قبول ندارند و اعتقاد دارند که فاصلهٔ برداری عدد معنی‌دار تری است. از اونجایی که به تعداد خوبی متخصص تحلیل داده در میان شما است، به نظر شما کدوم روش برای حساب کردن شباهت مناسب‌تر است؟
صورت مسئله:
دو نفر به یک پرسشنامه پاسخ داده‌اند. پرسشنامه حاوی صد سوال است. جواب هر سوال کاملاً مخالفم، مخالفم، فرقی نمی‌کند، موافقم و کاملاً موافقم است به ترتیب با اعداد یک دو سه چهار پنج بیان می‌شوند. می‌خواهیم شباهت میان این دو دو نفر را پیدا کنیم. فرض کنید جوابهای نفر اول را با a_i , جوابهای نفر دوم را با b_i نشان می‌دهیم.

در روش من ضریب همبستگی را حساب می‌کنیم:
(E(a_i b_i)-E(a_i)E(b_i))/(\sigma_a \sigma_b)

در روش خواهر و برادرم فاصله‌ٔ برداری را حساب می‌کنیم،‌ آنرا تقسیم بر ماکسیمم فاصلهٔ ممکن می‌کنیم و یک را منهای این عدد می‌کنیم:

1-(sqrt(SUM((a_i - b_i)^2)) / sqrt(1600))

به نظر شما کدام روش معنی‌دار تر است؟
من خودم روی هیچکدام تعصبی ندارم. فقط می‌خواهم بدانم که کدامیک برای شما قانع کننده‌تر است. اگر جایگزین بهتری هم سراغ دارید، ما را در جریان بگذارید.

۱۰ نظر:

ناشناس گفت...

0=(E(a_i
باشد هر دو روش معادل یکدیگر می شوند.
یک نکته دیگر اینکه measure انتخاب شده در اینجا الزاما measure قابل اعتمادی نیست.یک مثال کاملا بدیهی بر حرفم این است که، اگر بین گزینه هایی که شما آن ها را به 1، 2، 3، و 4 نگاشت کرده اید یک رابطه ترتیب معقول ( از لحاظ انسانی) وجود نداشته باشد، اعتبار کل نتایج حاصل این دو روش زیر سوال می روند. مثلا اگر سوالی به شکل زیر باشد
کدام میوه را بیشتر دوست دارید
1- هندوانه 2-سیب 3-موز 4-گلابی
در این سوال رابطه ترتیب معقولی وجود ندارد پس این جور نگاست معقول نیست. به نظر من در مورد چنین سوالاتی فاصله منهتن نتایج معقولتری می دهد.

Pinocchio گفت...

ترتیب اعداد ترتیب معقولی است. متن را اصلاح کردم.

ناشناس گفت...

در صورتی که میانگین داده ها را صفر و واریانسشان را یک کنید این دو روش کاملا معادلند. در غیر اینصورت روش اول بدلیل اینکه شامل میانگین و واریانس می باشد استانداردتر است.

ناشناس گفت...

فرض کنیم یه تست داریم با سه سوال
من زدم یک دو دو
تو زدی دو چهار چهار
شبیه نیستند ولی همبستگی یکه.

نمی دونم چرا آمار یک و دو رو برای فیزیکیا اجباری نمی کنن!

تازه توان دو هم مناسب نیست به نظرم.

ناشناس گفت...

یک: روش اول در صورت ثابت بودن سری اعداد اصلا جواب نداره چون واریانس صفر میشه! ( جینا! چجوری برای شما شد یک؟! این برای اون مثال اولتون بود که پاک کردین ;-) که فکر کنم اگه سوالها استاندارد باشه و آدمها نرمال (;-))این حالت پیش نیاد)

دو :
من فکر می کنم توان دو اهمیتی نداشته باشه ( فرض کن خانم x با آقای y بشه 2 و با آقای z بشه 3 حالا اینا با هم مقایسه میشن چه توان یک باشه چه 2 !)

سه: این مثالی که زدین هم یه مشکل داره که جواب اینجوری میشه اونهم تعداد داده ها خیلی کمه http://en.wikipedia.org/wiki/Effect_size
اگر از توابع مطلب استفاده کنید با وارد کردن تصحیحاتی اومده این اثر رو کم کرده ( که فکر می کنم بجای اینکه برای محاسبه واریانس بر تعداد داده تقسیم کنه می آد بر تعداد داده -1 تقسم می کنه شما اگه فقط 2 -3 تا داده بیشتر بگیرید نتیجه بهتر میشه!)

نتیجه ای که با اعمال تصیحات برای سایز کم اعمال میشه اینه:
0.6667 می تونید توی مطلب امتحان کنید!

چهار: توی همین لینک هم اومده که این کمیتی که شما میگید بهتر It is based on correlations با یه محاسبه ساده هم می تونید نشون بدید که اینا معادلن با اون دوتا فرض البته به علاوه اینکه واریانس صفر نشه!

پنج: می تونید هر دو کمیت رو محاسبه کنید به نظر من که نتیجه یکی میشه :)

اگه نشد به بی سوادی ما ببخشید!!

ناشناس گفت...

من فکر می‌کنم این بستگی داره به اینکه می‌خواهید با این داده چی‌کار کنید؟ اگر صرفا برای گزارش به افراد است، فکر می‌کنم ملموس ترین روش استفاده از فاصله هندسی و البته نه با نرم اقلیدسی بلکه با نرم قدر مطلق است.

ناشناس گفت...

یک. حالا مثالو بی خیال! :) می خوام بگم که کرلیشن مفهومن این جا به درد نمی خوره. اگه رابطه خطی وجود داشته باشه عدد بزرگتری داریم که نشون دهنده داشتن این رابطه ی خطیه نه شباهت.

مثال اولی بدتر بود! واریانسش صفر می شد!
می خواستم بگم یک دو سه در مقابل دو چهار شش که این تسته شش نداشت!

دو. حالا مشکل توان دو به نظرم اینه که مثلن الف و ب و جیم سه مولفه شون دقیقن مثل همه. الف تفاوتش با ب تو یک مولفه ۲ه تو یه مولفه ۲۰. حالا همین الف تفاوتش با جیم تو یه مولفه ۱ ه تو یه مولفه ۲۱. ولی به نظر من نباید گفت که ب از جیم شبیه تره. برای همین منم نرم قدر مطلقو ترجیح می دم.

پنج! پینوکیو حساب کرده. یکی نمی شه. حالا این که پینوکیو درست حساب کرده یا غلط دیگه من نمی دونم!

ناشناس گفت...

فضای برداری چند بعد دارد؟ آیا تمام سوالها از هم مستقل هستند؟
گزینه ی دوم جوابش بسته‌گی به انتخاب تعداد بعدها دارد.

گزینه ی اول نیازی ندارد بحث کنیم بعدها چقدر است و غیره..

ناشناس گفت...

با توجه به این توضیحی که در مورد نحوه امتیاز دهی دادین (-2,-1,0,1, 2) بنابراین امکان هیچ رابطه خطی از اون نوعی که شما مد نظرتون وجود نداره و من فکر می کنم (sum(abs(x-y)))/N هم نتیجه مشابهی می ده ولی اگر سوالات مستقل از هم نباشند و رابطه معقولی بینشان وجود داشته باشد ( مثلا اگر با سوال ۱۰ کاملا موافق باشم احتمال اینکه با سوال ۱۱ کاملا مخالف باشم کم باشد)( من سوالاتو ندیدم نمی دونم به چه صورت.) همین دو روشی که در متن اومده مناسبترند و معادل!

کاساندرا گفت...

یه سری ایراد عمومی در این داستان وجود داره که چون کاریش نمی‌شه کرد ازش می‌گذرم، مثل این‌که چرا ۱-۲-۳-۴-۵ نمره می‌دی به گزینه‌ها و مثلا ۱-۳-۴-۷-۹ نمره نمی‌دی؟ و چرا وزن سوالهای مختلف یکیه و ...
فرض کن سوالی باشه مثل این‌که شما اگه گشنه باشید غذا می‌خورید؟ شباهت در جواب این سوال هیچ چی رو نشون نمی‌ده. بنابراین اولین قدم اینه که سوالها رو نرمال کنیم (توی کنکور با درسها این کار رو می‌کنن) یعنی به همه‌ی آدمها نگاه کنیم و متوسط جوابها به یک سوال خاص رو صفر و واریانسش رو یک کنیم. در قدم بعدی بازهم باید میانگین و واریانس مربوط به یه نفر رو صفر کرد (کاری که عملا در روش تو انجام می‌شه)؟ به نظر من جواب اینجا نه است. چون اگه دو نفر باشن که به سوال خاصی، جواب خیلی نامعمولی دادن طبیعتا باید امتیاز زیادی به شباهتشون بدیم.
و روش تو این کار رو نمی‌کنه بنابراین من روش خواهر و برادرت رو ترجیح می‌دم.
یه مثالی که شبیه این به ذهنم می‌رسه مربوط به یه بحث مفصلیه که چند سال پیش با خرمی داشتم در مورد نرمال کردن نمره‌های سوالهای مختلف المپیاد. نظر من این بود که باید هر سوال رو به میانگین صفر و واریانس یک رسوند و بعد با وزنی که خودمون فکر می‌کنیم باهم جمع کنیم. حرف درستی که خرمی زد و منو قانع کرد این بود که واریانس نمره‌های مردم در هر سوال، یه نشانه‌ای از سختی یا آسونی اون سواله. در واقع اگه سوالی باشه که تعداد کمی آدم توش نمره‌ی خوبی گرفته باشن، اون سوال تفکیک کننده بوده و با نرمال کردن اثرش رو کم می‌کنیم. این بحث دقیقا اینجا هم هست. یعنی با نرمال کردن به روش تو اثر سوالهای تفکیک‌کننده کم می‌شه.
آقاجان از این به بعد با این حقیر مشورت کن که جلوی خواهر برادرت ضایع نشی. راستی قضیه‌ی ... چی شد؟ [چشمک]