پارادوکس سیمپسون چیست و چرا در سرمایه گذاری اهمیت دارد؟

حسام الدین قادری
    • اشتراک‌گذاری
    • 296
    • 0
    پارادوکس سیمپسون چیست و چرا در سرمایه گذاری اهمیت دارد؟

    پارادوکس سیمپسون می‌گوید در بررسی داده‌های آماری ممکن است نتیجه‌ای که به طور کلی از داده‌ها می‌گیریم با نتیجه‌ای که از بخش مشخصی از داده‌ها می‌گیریم، متفاوت باشد. همین موضوع می‌تواند موجب تصمیم‌گیری نادرستی شود.

    بعضی اوقات ممکن است بخواهیم برای کاری تصمیم گیری کنیم اما برای آن دو گزینه کاملا متناقض وجود دارد که هر دو هم منطقی است. در واقع شواهدی برای هر دو گزینه وجود دارد اما قاعدتا فقط می‌توانیم یکی را انتخاب کنیم. اگر چنین اتفاقی بیفتد چه کار خواهید کرد؟

    این موضوع همان چیزی است که به پارادوکس سیمپسون مشهور شده است. این پارادوکس به نحوه بررسی نتیجه داده‌های آماری اشاره می‌کند. به عنوان فرض کنید دو نفر که با یکدیگر دوست هستند می‌خواهند به یک رستوران خوب بروند. هرکدام به صورت جداگانه در اینترنت به جستجوی غذاخوری مناسب و باکیفیت شروع می‌کنند و دو رستوران مناسب پیدا می‌کنند تا به یکی از آنها بروند.

    اما هر کدام از این دو نفر نتایج متناقضی پیدا می‌کنند. اولی آمار محبوبیت رستوران بین مردان و بین زنان را مجزا بررسی می‌کند و می‌بیند رستوران «الف» هم بین زنان و هم بین مردان محبوبیت بیشتری دارد.

    دومی محبوبیت رستوران‌ها بین کل افراد را فارغ از جنسیت بررسی می‌کند. او متوجه می‌شود که رستوران «ب» بیشترین محبوبیت را در میان کل رای دهندگان داشته است. حالا کدام گزینه را برای غذا خوردن انتخاب کنند؟

    با این اوصافی که گفتیم، دو گزینه برای بهترین رستوران غذاخوری اطراف آنها وجود دارد. این مثالی از پارادوکس سیمپسون است. مشخص است که امکان ندارد دو چیز همزمان بهترین باشند، پس مشکلی که باعث ایجاد این پارادوکس شده چیست؟

    دلیل اصلی این کار حجم نمونه‌هایی است که در آمارهای این دو دوست وجود داشته است. طبق نتیجه‌ نفر اول، رستوران الف در میان زنان بیشتر محبوب بوده و در میان مردان نیز محبوبیت بیشتری نسبت به رستوران ب داشته است.

    اما طبق نتیجه نفر دوم، جنسیت در آن دخیل نیست و رستوران ب در صورتی که همه افراد را مد نظر قرار دهیم، بیشتر محبوبیت دارد. با توجه به اعداد زیر بهتر می توان این پارادوکس را توضیح داد.

    با توجه به اعداد به دست آمده به وضوح می‌توان پارادوکس سیمپسون را مشاهده کرد. حالا رستوران اول را انتخاب می‌کنید یا رستوران دوم را؟

    تاریخچه پارادوکس سیمپسون

    برای نخستین بار در سال 1951 میلادی ادوارد سیمپسون از تناقضی پرده برداشت که بعد‌ها به پارادوکس سیمپسون مشهور شد. سیمپسون گفت در تحلیل داده‌های آماری ممکن است نتایج متناقضی برای یک مسئله وجود داشته باشند. به این صورت که نتیجه کلی یک داده با نتایج حاصل از همان داده‌های آماری که به صورت تفکیک شده در نظر گرفته شده باشند، متفاوت باشد. با یک مثال سرمایه گذاری بیشتر متوجه این موضوع خواهید شد.

    پارادوکس سیمپسون در سرمایه گذاری

    این پارادوکس در سرمایه گذاری نیز وجود دارد. به عنوان مثال فرض کنید بازار سرمایه فقط از سه نوع سهام تشکیل شده باشد. این بازار شامل سهام A,B C است. اگر قیمت اولیه سهام A برابر با 100 دلار و قیمت اولیه سهام B برابر با 200 دلار و قیمت اولیه سهام C برابر با 300 دلار باشد و بعد از مدت زمان یک سال قیمت هر کدام از این سهام به ترتیب به 110 و 240 و 390 دلار رسیده باشد.

    آنگاه سهام A در این بازه زمانی 10 درصد سود داده است و سهام B نیز 20 درصد و سهام C بالغ بر 30 درصد سود را تجربه کرده است. حالا فرض کنید کسی بخواهد در مورد بازدهی سهام B و مقایسه آن با عملکرد بازار صحبت کند. اگر میزان رشد سالانه را در نظر بگیریم، این گزینه را می‌توانیم با بازدهی متوسط در میان شرکت‌های بازار ببینیم و بگوییم بازدهی آن متوسط بوده است، زیرا 3/(30+20+10) برابر با 20 درصد خواهد بود.

    اما یک معیار دیگر نیز برای سنجش بازدهی این سهام می‌تواند وجود داشته باشد. اگر بازدهی کل بازار در نظر بگیریم، به 23.3 درصد می‌رسیم چرا که سهمی که قیمت بالاتر و رشد زیادی داشته بازار را بزرگتر کرده است. به این ترتیب بازدهی سهام B کمتر از رشد بازار خواهد بود. حالا چه باید کرد آیا بهتر است سهام B را انتخاب کنیم یا خیر؟

    اهمیت پارادوکس سیمپسون

    تناقض سیمپسون از آنچه که ما تصور می‌کنیم با اهمیت‌تر است. زیرا در جامعه انسانی بسیاری از مسائل با تحلیل داده‌های آماری قابل بررسی هستند. به دلیل وجود این داده‌های آماری همواره احتمال گرفتار شدن در پارادوکس سیمپسون وجود دارد.

    جلوگیری از پارادوکس سیمپسون

    برای اینکه بتوان از این پارادوکس جلوگیری کرد باید قبل از استنباط، برای خودمان مشخص کنیم که به قسمتی از داده‌ها نیاز داریم یا به مجموعه داده‌ها، زیرا بسیار محتمل است که بخشی از داده‌ها نتایج متفاوتی نسبت به کل داده‌ها داشته باشند.

    گاهی اوقات ما برای جواب دادن به مسئله پیش آمده باید از بخش خاصی از داده‌ها برای تفسیر موضوع استفاده نماییم. البته در مواقعی نیز برای به دست آوردن پاسخ مناسبی برای مسئله پیش آمده به کل مجموعه داده‌ها نیاز داریم.

    به عنوان مثال اگر یک زن بخواهد تنها به یکی از رستوران‌های بالا برود شاید رستوران الف گزینه بهتری باشد اما شاید رستوران ب برای دسته جمعی رفتن مناسب‌تر باشد. در مورد سرمایه گذاری هم همین طور است باید از پیش تکلیف خود را مشخص کنیم که از سود و بازار چه می‌خواهیم و میزان ریسکی که می‌خواهیم قبول کنیم چقدر است.

    جمع بندی

    پارادوکس سیمپسون نخستین بار در سال 1951 میلادی توسط ادوارد سیمپسون معرفی شد. این تناقض بیان کننده این است که در بررسی داده‌های آماری ممکن است کل داده‌ها با بخش مشخصی از داده‌ها نتایج متفاوتی را برای یک مسئله نشان دهند. به همین دلیل برای جلوگیری از این اتفاق بهتر است قبل از انجام تفسیر داده‌ها بدانیم که همه یا بخشی از این داده‌های آماری را نیاز داریم.