پارادوکس سیمپسون چیست و چرا در سرمایه گذاری اهمیت دارد؟
- اشتراکگذاری
- 97
- 0
پارادوکس سیمپسون میگوید در بررسی دادههای آماری ممکن است نتیجهای که به طور کلی از دادهها میگیریم با نتیجهای که از بخش مشخصی از دادهها میگیریم، متفاوت باشد. همین موضوع میتواند موجب تصمیمگیری نادرستی شود.
بعضی اوقات ممکن است بخواهیم برای کاری تصمیم گیری کنیم اما برای آن دو گزینه کاملا متناقض وجود دارد که هر دو هم منطقی است. در واقع شواهدی برای هر دو گزینه وجود دارد اما قاعدتا فقط میتوانیم یکی را انتخاب کنیم. اگر چنین اتفاقی بیفتد چه کار خواهید کرد؟
این موضوع همان چیزی است که به پارادوکس سیمپسون مشهور شده است. این پارادوکس به نحوه بررسی نتیجه دادههای آماری اشاره میکند. به عنوان فرض کنید دو نفر که با یکدیگر دوست هستند میخواهند به یک رستوران خوب بروند. هرکدام به صورت جداگانه در اینترنت به جستجوی غذاخوری مناسب و باکیفیت شروع میکنند و دو رستوران مناسب پیدا میکنند تا به یکی از آنها بروند.
اما هر کدام از این دو نفر نتایج متناقضی پیدا میکنند. اولی آمار محبوبیت رستوران بین مردان و بین زنان را مجزا بررسی میکند و میبیند رستوران «الف» هم بین زنان و هم بین مردان محبوبیت بیشتری دارد.
دومی محبوبیت رستورانها بین کل افراد را فارغ از جنسیت بررسی میکند. او متوجه میشود که رستوران «ب» بیشترین محبوبیت را در میان کل رای دهندگان داشته است. حالا کدام گزینه را برای غذا خوردن انتخاب کنند؟
با این اوصافی که گفتیم، دو گزینه برای بهترین رستوران غذاخوری اطراف آنها وجود دارد. این مثالی از پارادوکس سیمپسون است. مشخص است که امکان ندارد دو چیز همزمان بهترین باشند، پس مشکلی که باعث ایجاد این پارادوکس شده چیست؟
دلیل اصلی این کار حجم نمونههایی است که در آمارهای این دو دوست وجود داشته است. طبق نتیجه نفر اول، رستوران الف در میان زنان بیشتر محبوب بوده و در میان مردان نیز محبوبیت بیشتری نسبت به رستوران ب داشته است.
اما طبق نتیجه نفر دوم، جنسیت در آن دخیل نیست و رستوران ب در صورتی که همه افراد را مد نظر قرار دهیم، بیشتر محبوبیت دارد. با توجه به اعداد زیر بهتر می توان این پارادوکس را توضیح داد.

با توجه به اعداد به دست آمده به وضوح میتوان پارادوکس سیمپسون را مشاهده کرد. حالا رستوران اول را انتخاب میکنید یا رستوران دوم را؟
تاریخچه پارادوکس سیمپسون
برای نخستین بار در سال 1951 میلادی ادوارد سیمپسون از تناقضی پرده برداشت که بعدها به پارادوکس سیمپسون مشهور شد. سیمپسون گفت در تحلیل دادههای آماری ممکن است نتایج متناقضی برای یک مسئله وجود داشته باشند. به این صورت که نتیجه کلی یک داده با نتایج حاصل از همان دادههای آماری که به صورت تفکیک شده در نظر گرفته شده باشند، متفاوت باشد. با یک مثال سرمایه گذاری بیشتر متوجه این موضوع خواهید شد.
پارادوکس سیمپسون در سرمایه گذاری
این پارادوکس در سرمایه گذاری نیز وجود دارد. به عنوان مثال فرض کنید بازار سرمایه فقط از سه نوع سهام تشکیل شده باشد. این بازار شامل سهام A,B C است. اگر قیمت اولیه سهام A برابر با 100 دلار و قیمت اولیه سهام B برابر با 200 دلار و قیمت اولیه سهام C برابر با 300 دلار باشد و بعد از مدت زمان یک سال قیمت هر کدام از این سهام به ترتیب به 110 و 240 و 390 دلار رسیده باشد.
آنگاه سهام A در این بازه زمانی 10 درصد سود داده است و سهام B نیز 20 درصد و سهام C بالغ بر 30 درصد سود را تجربه کرده است. حالا فرض کنید کسی بخواهد در مورد بازدهی سهام B و مقایسه آن با عملکرد بازار صحبت کند. اگر میزان رشد سالانه را در نظر بگیریم، این گزینه را میتوانیم با بازدهی متوسط در میان شرکتهای بازار ببینیم و بگوییم بازدهی آن متوسط بوده است، زیرا 3/(30+20+10) برابر با 20 درصد خواهد بود.
اما یک معیار دیگر نیز برای سنجش بازدهی این سهام میتواند وجود داشته باشد. اگر بازدهی کل بازار در نظر بگیریم، به 23.3 درصد میرسیم چرا که سهمی که قیمت بالاتر و رشد زیادی داشته بازار را بزرگتر کرده است. به این ترتیب بازدهی سهام B کمتر از رشد بازار خواهد بود. حالا چه باید کرد آیا بهتر است سهام B را انتخاب کنیم یا خیر؟

اهمیت پارادوکس سیمپسون
تناقض سیمپسون از آنچه که ما تصور میکنیم با اهمیتتر است. زیرا در جامعه انسانی بسیاری از مسائل با تحلیل دادههای آماری قابل بررسی هستند. به دلیل وجود این دادههای آماری همواره احتمال گرفتار شدن در پارادوکس سیمپسون وجود دارد.
جلوگیری از پارادوکس سیمپسون
برای اینکه بتوان از این پارادوکس جلوگیری کرد باید قبل از استنباط، برای خودمان مشخص کنیم که به قسمتی از دادهها نیاز داریم یا به مجموعه دادهها، زیرا بسیار محتمل است که بخشی از دادهها نتایج متفاوتی نسبت به کل دادهها داشته باشند.
گاهی اوقات ما برای جواب دادن به مسئله پیش آمده باید از بخش خاصی از دادهها برای تفسیر موضوع استفاده نماییم. البته در مواقعی نیز برای به دست آوردن پاسخ مناسبی برای مسئله پیش آمده به کل مجموعه دادهها نیاز داریم.
به عنوان مثال اگر یک زن بخواهد تنها به یکی از رستورانهای بالا برود شاید رستوران الف گزینه بهتری باشد اما شاید رستوران ب برای دسته جمعی رفتن مناسبتر باشد. در مورد سرمایه گذاری هم همین طور است باید از پیش تکلیف خود را مشخص کنیم که از سود و بازار چه میخواهیم و میزان ریسکی که میخواهیم قبول کنیم چقدر است.
جمع بندی
پارادوکس سیمپسون نخستین بار در سال 1951 میلادی توسط ادوارد سیمپسون معرفی شد. این تناقض بیان کننده این است که در بررسی دادههای آماری ممکن است کل دادهها با بخش مشخصی از دادهها نتایج متفاوتی را برای یک مسئله نشان دهند. به همین دلیل برای جلوگیری از این اتفاق بهتر است قبل از انجام تفسیر دادهها بدانیم که همه یا بخشی از این دادههای آماری را نیاز داریم.