دسته‌ها
Data Science آمار علمی

رابطه علّی

در تصمیم‌گیری‌های کسب‌وکار بسیار اهمیت دارد که مدیران بتوانند رابطه علّی را درست تشخیص دهند. می‌توان گفت در بیشتر موارد مدیریت یعنی ایجاد تغییر در چیزهایی که تحت کنترل است به‌منظور آن‌که روی چیزهای دیگری که تحت کنترل نیست، اثر گذاشت تا به نتیجه دلخواه رسید. برای مثال یک مدیر بودجه تبلیغات سازمان خود را افزایش می‌دهد (آنچه تحت کنترل است) به امید آنکه فروش بیشتری ایجاد کند (نتیجه دلخواه). یا دستمزد سال آتی کارمند خود را افزایش می‌دهد (آنچه تحت کنترل است) تا انگیزه او را برای کار کردن بیشتر کند (نتیجه دلخواه). پس نکته مهم آن می‌شود که یک مدیر بتواند علت پدیده‌ها را درست تشخیص دهد.

اما در دنیای واقعی همیشه مسائل آن‌طور که می‌نماید، نیست. در مقاله “چرا مدیران باید تفاوت بین همبستگی و رابطه علّی را بدانند؟” با ارائه مثال‌های متنوعی از دنیای واقعی توضیح دادم چگونه ممکن است دلایل بروز یک پدیده اشتباه تشخیص داده شود. من در این مقاله فرض می‌کنم، خواننده مقاله مذکور را مطالعه کرده است و به این موضوع می‌پردازم که بر چه اساسی وجود رابطه علّی را می‌توان تشخیص داد.

مدیران برای آنکه بتوانند رابطه علّی را بین پدیده‌ها به‌درستی تشخیص دهند باید به سه معیار زیر توجه کنند:

وجود رابطه (Association)،

ترتیب رخداد وقایع (Time Order)، و

نبود رابطه جعلی (Non-Spuriousness).

وجود رابطه

در گام اول باید نشان داد بین دو متغیر رابطه‌ای وجود دارد. اگر افزایش یک متغیر با افزایش و یا کاهش دیگری همراه است، می‌توان گفت بین این دو متغیر رابطه وجود دارد. برای مثال در بسیاری از موارد دیده می‌شود هر چه افراد تجربه کاری بیشتری در صنعت داشته باشند، دستمزد سالیانه بیشتری دریافت می‌کنند (البته این اثر ممکن است از یک‌میزان تجربه کاری بیشتر، کمرنگ شود). پس باید دید آیا داده‌ها وجود چنین حدسی را تائید می‌کنند یا خیر. برای نمونه من رابطه بین سابقه کار و حقوق سالیانه را برای شاغلین حوزه حسابداری، حسابرسی و مدیریت مالی از گزارش حقوق و دستمزد سال ۱۳۹۵ ایران تلنت (Iran Talent) استخراج کردم و در شکل-۱ نشان دادم. نمودار نشان می‌دهد برای این گروه از شاغلین هرچه تجربه کاری افزایش یابد، میانگین دستمزد سالیانه بیشتر می‌شود.

در این نمودار تجربه کاری به شکل یک متغیر رسته‌ای (Categorical) و میزان حقوق و دستمزد به شکل عددی (Numerical) اندازه‌گیری شده است. این یعنی میزان تجربه کاری در چند دسته تقسیم شده، درحالی‌که میزان دستمزد (بر حسب میلیون تومان) می‌تواند هر عددی را به شکل پیوسته به خود بگیرد.

شکل-۱

زمانی که هر دو متغیر عددی هستند، شدت رابطه خطی را می‌توان به‌صورت کمّی با ضریب همبستگی (Correlation Coefficient) سنجید. ضریب همبستگی همواره عددی بین ۱ و ۱- است.  این ضریب دو بخش دارد: مقدار عددی و علامت. مقدار عددی نشان می‌دهد چقدر رابطه خطی بین دو متغیر قدرتمند است. علامت نشان می‌دهد جهت این رابطه مثبت است یا منفی.

اگر ضریب همبستگی مثبت باشد، به این مفهوم است که افزایش در مقادیر یک متغیر با افزایش در مقادیر متغیر دیگر همراه است. همین‌طور کاهش در مقادیر یک متغیر با کاهش در مقادیر متغیر دیگر همراه است. در این حالت اگر نمودار پراکندگی دو متغیر رسم شود، می‌توان خطی با شیب مثبت را از بین نقاط برازش داد (شکل-۲). به همین ترتیب اگر ضریب همبستگی منفی باشد، می‌توان خطی با شیب منفی را از بین نقاط برازش داد (شکل-۲).

هرچه مقدار مطلق ضریب همبستگی (صرف‌نظر از علامت) به ۱ نزدیک باشد، نشان می‌دهد شدت رابطه خطی بین دو متغیر قوی‌تر است. در مقابل ضریب همبستگی نزدیک صفر نشان می‌دهد که رابطه خطی بسیار ضعیفی بین دو متغیر برقرار است.

شکل-۲

اگر بین دو متغیر رابطه غیرخطی برقرار باشد، همچنان این امکان وجود دارد ضریب همبستگی نزدیک صفر باشد که نشان‌دهنده نبود رابطه خطی بین دو آن است (شکل-۳). به همین دلیل در هنگام تحلیل بهتر است نمودار پراکندگی بین متغیرها رسم شود تا به وجود این روابط پی برد.

شکل-۳

برای آنکه از وجود رابطه بین دو متغیر مطمئن شویم، تنها به میزان شدت و ضعف رابطه (انداز ضریب همبستگی) نباید اطمینان کرد بلکه باید به سطح معنی‌داری آماری نیز توجه کرد. بحث بیشتر در این مورد را می‌توانید در مقاله “ضریب همبستگی چیست و چه کاربردی دارد؟” دنبال کنید.

در حالتی که هر دو متغیر به شکل رسته‌ای اندازه‌گیری شده‌اند، معمولاً داده‌ها را در جدول متقاطع (Cross Tabulation) نشان می‌دهیم. شکل-۴ نتایج یک نظرسنجی را در قالب جدول متقاطع نشان می‌دهد. در این مثال شرکتی برای ارائه خدمات پشتیبانی مشتریان علاوه بر روش فعلی (تماس تلفنی)، پلتفرم آنلاین جدیدی را عرضه کرده است. شرکت تمایل دارد ببینید آیا بین استفاده از این دو روش و رضایت کلی مشتریان از دریافت خدمات پشتیبانی رابطه‌ای وجود دارد یا خیر. در این مثال هر دو متغیر رسته‌ای هستند؛ روش دریافت خدمت دارای دو حالت (تماس تلفنی یا پلتفرم آنلاین) و رضایت کلی مشتری دارای سه حالت (راضی، متوسط، ناراضی) است.

برای نمونه جدول نشان می‌دهد از ۱۲۱۸ نفری که در این نظرسنجی خدمات پشتیبانی را از طریق تماس تلفنی دریافت کردند، ۳۷۳ نفر معادل ۳۱ درصد از دریافت خدمت راضی بودند. همچنین می‌توان گفت از بین ۸۹۱ نفری که در این نظرسنجی بیان کردند از دریافت خدمات پشتیبانی راضی هستند، ۳۷۳ نفر معادل ۴۲ درصد خدمات پشتیبانی را از طریق تماس تلفنی دریافت کردند.

شکل-۴

یک روش مرسوم برای تحلیل جدول متقاطع، روش تحلیل کای-دو (Chi-Square Analysis) است. هدف آن است که بفهمیم آیا می‌توانیم بگوییم استفاده از دو روش متفاوت دریافت خدمت به لحاظ آماری اثر معنی‌داری روی سطح رضایت مشتریان گذاشته است. تحلیل آماری برای این مثال نشان می‌دهد برای سطح معنی‌داری ۰٫۰۵ نمی‌توان چنین نتیجه‌ای گرفت. بنابراین نمی‌توان گفت رابطه‌ای بین روش دریافت خدمت و رضایت کلی مشتری از دریافت خدمت وجود دارد.

ترتیب رخداد وقایع

زمانی که از وجود رابطه مطمئن شدیم، توجه خود را به ترتیب زمانی متغیرهای موردنظر جلب می‌کنیم. اگر متغیر عامل یا مستقل (Independent Variable) بخواهد علت متغیر وابسته (Dependent Variable) باشد، منطقاً باید قبل از آن رخ دهد. به‌عبارت‌دیگر، دلیل قبل از معلول باید رخ دهد. در حالت ایدئال از طریق آزمایش کنترل‌شده تصادفی (Randomized Controlled Experiment) می‌توان به این موضوع پی برد. در آزمایش کنترل‌شده تصادفی سعی می‌کنیم به‌دقت متغیرهای عامل را کنترل کنیم و سپس اثر آنان را روی خروجی موردنظر بسنجیم. به این شکل می‌توان ترتیب رخداد وقایع را تنظیم کرد.

شاید خواننده استدلال کند در دنیای واقعی کسب‌وکار به‌سختی می‌توان اثر متغیرها را کنترل کرد. من با چنین استدلالی همدلی دارم. ولی بدترین حالت این است که ما خودمان شرایط را به‌گونه‌ای ایجاد کنیم که تداخل متغیرها اجازه اندازه‌گیری اثر آنان را ندهد. برای مثال در حوزه بازاریابی و ترویج من بارها دیدم که شرکت‌ها هم‌زمان چندین اقدام را انجام می‌دهند. وقتی شرکتی در یک‌زمان کوپن تخفیف در سطح گسترده به مشتریانش می‌دهد، حمل رایگان محصول را به‌عنوان یک امتیاز پیشنهاد می‌دهد و یک کمپین تبلیغاتی در قالب مسابقه برگزار می‌کند، نمی‌تواند اثرات مجزای این فعالیت‌ها را بر میزان فروش اندازه‌گیری کند. به‌این‌ترتیب شرکت نمی‌فهمد سرمایه‌گذاری روی هر یک از این روش‌ها چقدر برایش عایدی ایجاد می‌کند. شاید درنهایت شرکت از همه این روش‌ها استفاده کند ولی حداقل برای دوره آزمایشی باید تا جای ممکن اثر بقیه رخدادها را کنترل کند.

ممکن است همواره مدیران این امکان را نداشته باشند که از طریق آزمایش کردن در کسب‌وکار به ترتیب رخداد وقایع پی ببرند. در این حالت تکیه‌بر منطق، استفاده از تجارب دیگران یا نتایج تحقیقات انجام‌شده می‌تواند به آنان در این امر کمک کند. پیام اصلی این است که یک مدیر هوشمند همواره در مورد جهت رابطه علی تأمل می‌کند و به‌سرعت نتیجه‌گیری نمی‌کند؛ آیا مطمئن هستیم الف موجب ب شده یا شاید ب عامل الف شده و یا شاید متغیر سومی هر دو را هدایت می‌کند. در این مورد در مقاله “چرا مدیران باید تفاوت بین همبستگی و رابطه علّی را بدانند؟” همراه با مثال‌هایی بحث کرده‌ام.

نبود رابطه جعلی

این امکان هست که دو متغیر هم‌زمان باهم ارتباط داشته باشند، یکی قبل از دیگری رخ دهد ولی هیچ رابطه علّی بین آن دو وجود نداشته باشد. یک نمونه از وجود رابطه جعلی، رابطه بین سایز کفش کودکان و میزان دانش آنان است؛ هرچه سایز کفش کودک بزرگ‌تر باشد دانش بیشتری دارند. واضح است که سایز کفش عامل افزایش دانش در کودکان نیست. هر دو متغیر تحت تأثیر سن کودک قرار دارند. مثال دیگر تعداد آتش‌نشانانی است که در مهار آتش‌سوزی شرکت می‌کنند و میزان خسارت ناشی از آتش‌سوزی است. در اینجا دوباره متغیر سومی یعنی حجم آتش‌سوزی است که بر روی هر دو متغیر اثر می‌گذارد.

در برخی موارد هم روابط جعلی کاملاً تصادفی هستند و هیچ ارتباطی به متغیر سوم ندارند. برای مثال بین تعداد پرتاب فضاپیماهای غیرتجاری در دنیا و تعداد فارغ‌التحصیلان دکترای رشته علوم اجتماعی در آمریکا در هر سال همبستگی قوی (ضریب همبستگی ۰٫۷۹) وجود دارد (شکل-۵).

شکل-۵

این‌ها مواردی از روابط جعلی بین متغیرها هستند. این مثال‌ها خیلی سرراست‌اند. ولی در مسائل عملی ممکن است تشخیص آن به همین راحتی نباشد. به‌خصوص حالتی که متغیر سومی ممکن است عامل پیش برنده هر دو متغیر باشد. برای مواجهه با این مسئله، طراحی دقیق آزمایش تجربی، جمع‌آوری دقیق داده، استفاده از روش‌های کنترل آماری و بهره‌گیری از چندین منبع داده‌ای برای تائید نتایج می‌تواند مفید باشد.

منابع:

Cook, T. D., Campbell, D. T., & Shadish, W. (2002). “Experimental and Quasi-Experimental Designs for Generalized Causal Inference”, Boston: Houghton Mifflin

Pearl, J., Glymour, M., Jewell, N. P. (2016). “Causal Inference in Statistics”, Wiley & Sons Ltd

Smith, G. (2014). “Standard Deviations: Flawed Assumptions, Tortured Data, and Other Ways to Lie with Statistics”, Overlook Duckworth, Peter Mayer Publishers, Inc. New York

Vigen, T. (2015). “Spurious Correlations”, Hachette Books

دسته‌ها
Data Science علمی

تفاوت همبستگی و رابطه علّی

مطالعه علت پدیده‌ها بسیار اهمیت دارد چراکه به ما کمک می‌کند تا اقدامات و سیاست‌های بهتر و مؤثرتری طراحی کنیم. در مقابل عدم فهم علت یک پدیده می‌تواند موجب اتخاذ اقدامات بی‌اثر شود و حتی نتایج ناخوشایندی به همراه بیاورد. برای مثال اگر شما فکر کنید یک نوع پشه موجب بروز بیماری مالاریا است، در سفر خود به منطقه‌ای که مالاریا شایع است، خود را مجهز به پشه‌بند می‌کنید؛ اما اگر فکر کنید هوای آلوده موجب بروز این بیماری است، به‌مانند آنچه درگذشته تصور می‌شد، ماسک تنفسی به همراه خواهید برد. امروزه می‌دانیم رویکرد دوم برای سلامتی شما کاملاً بی‌فایده و حتی خطرناک است!

شاید بتوان گفت در بیشتر موارد مدیریت یعنی ایجاد تغییر در چیزهایی که تحت کنترل است به‌منظور آن‌که روی چیزهای دیگری که تحت کنترل نیست، اثر گذاشت تا به نتیجه دلخواه رسید. برای مثال یک مدیر بودجه تبلیغات سازمان خود را افزایش می‌دهد (آنچه تحت کنترل است) به امید آنکه فروش بیشتری ایجاد کند (نتیجه دلخواه). یا دستمزد سال آتی کارمند خود را افزایش می‌دهد (آنچه تحت کنترل است) تا انگیزه او را برای کار کردن بیشتر کند (نتیجه دلخواه). پس نکته مهم آن می‌شود که یک مدیر بتواند علت پدیده‌ها را درست تشخیص دهد.

اما مثال‌های زیادی وجود دارد که افراد روابطی بین پدیده‌ها فرض کرده‌اند که وجود خارجی نداشته است. یکی از دلایل مهم بروز این مسئله را باید در عدم درک صحیح تفاوت بین همبستگی (Correlation) و رابطه علّی (Causation) جست. همبستگی یک مفهوم آماری است و به زبان ساده نشان می‌دهد که افزایش یا کاهش یک متغیر با افزایش یا کاهش متغیر دیگری همراه است. برای مثال، بین سیگار کشیدن و مصرف نوشیدنی‌های الکلی همبستگی وجود دارد ولی سیگار کشیدن عامل اعتیاد به الکل نیست. درحالی‌که سیگار کشیدن یکی از عوامل اصلی ابتلا به سرطان ریه است.

عدم درک تفاوت این دو مفهوم می‌تواند به نتیجه‌گیری‌های گمراه‌کننده و سیاست‌گذاری‌های نادرست منجر شود. در این مقاله با تکیه‌بر مثال‌هایی از دنیای واقعی به توضیح این موضوع می‌پردازم.

همبستگی، رابطه علّی، مصرف سیگار و سرطان

در دهه ۱۹۵۰، مطالعاتی مدعی شدند سیگار کشیدن موجب ابتلا به سرطان ریه می‌شود. متأسفانه آن مطالعات مبتنی بر رابطه همبستگی بین مصرف سیگار و نرخ ابتلا به سرطان ریه بود. به همین دلیل بلافاصله گزارش نه‌تنها توسط شرکت‌های سیگارسازی بلکه توسط برخی آماردانان معروف مانند رونالد فیشر (Ronald Fisher)، زیر سؤال رفت. آنان ادعا کردند که شاید فاکتور پنهانی دیگری مانند عامل ژنتیکی باعث به وجود آمدن سرطان و تمایل به سیگار کشیدن می‌شود. اگر این فرضیه درست می‌بود، آنگاه کشیدن یا نکشیدن سیگار اثری روی ابتلا به سرطان نمی‌گذاشت.

یک روش نشان دادن این‌که آیا واقعاً سیگار کشیدن موجب سرطان می‌شود استفاده از آزمایش کنترل‌شده با نمونه تصادفی (Randomized Controlled Experiment) است. فرض کنید آزمایشگری وجود داشت که می‌توانست افراد را وادار کند که سیگار بکشند یا نکشند. سپس آزمایشگر تعداد زیادی از افراد را برای آزمایش جمع می‌کرد و آنان را به‌صورت تصادفی به دو گروه تقسیم می‌کرد. یک گروه مجبور می‌شدند که سیگار بکشند و گروه دیگر نباید سیگار می‌کشیدند. به‌این‌ترتیب آزمایشگر ارتباط بین سیگار کشیدن و هر عامل پنهان دیگر را که موجب سرطان و سیگار کشیدن می‌شود، قطع می‌کرد. با مطالعه نرخ ابتلا به سرطان در دو گروه، مشخص می‌شد آیا سیگار کشیدن حقیقتاً عامل ایجاد سرطان است یا خیر.

گرچه روش آزمایش کنترل‌شده با نمونه تصادفی بهترین روش برای اثبات رابطه علّی است، در عمل این کار همواره امکان‌پذیر نیست. به‌طور مشخص در این مثال، به لحاظ اخلاقی و قانونی ما نمی‌توانیم افراد را وادار به سیگار کشیدن یا از آن منع کنیم. برای نزدیک به چهل سال صنعت سیگارسازی ادعا می‌کرد کشیدن سیگار با ابتلا به سرطان ریه تنها همبستگی دارد. البته مطالعات گسترده در این زمینه تائید کرد که مصرف سیگار در بلندمدت از عوامل اصلی ابتلا به سرطان ریه است.

قرار دادن تلفن همراه در جیب شلوار موجب کاهش قدرت جنسی مردان می‌شود

مثال جالب دیگر مربوط به یک مطالعه پزشکی در مجارستان است که بر روی ۲۲۱ مردی که تلفن همراه با خود حمل می‌کردند، در سال ۲۰۰۳ انجام شد. مطالعه ادعا می‌کرد مردانی که تلفن همراهشان را در جیب شلوار خود حمل ‌می‌کنند به‌جای آن‌که آن را در جیب جلوی پیراهن و یا کیفشان بگذارند، ۳۰ درصد تعداد اسپرم کمتری نسبت به متوسط تعداد اسپرم جمعیت مردان – که در دهه ۱۹۷۰ اندازه‌گیری شده بود – دارند. بازتاب این مطالعه بلافاصله فضایی را علیه تولیدکنندگان تلفن‌های همراه ایجاد کرد که تولیدات آنان را باعث کاهش باروری در مردان معرفی می‌کرد. برخی سازمان‌های حمایت از مصرف‌کننده خواستار نصب برچسب‌های هشداردهنده بر روی تلفن‌های همراه شدند.

اما مشکل آنجا بود که این مطالعه تنها بر مبنای همبستگی انجام شده بود و هیچ رابطه علّی دقیقی را روشن نمی‌کرد. منتقدان این‌طور عنوان می‌کردند که بسیاری از مردان سیگاری تلفن همراه خود را به‌جای جیب جلویی پیراهن در جیب شلوار خود می‌گذارند. آنان معمولاً پاکت سیگار خود را در جیب پیراهن خود می‌گذارند تا به سیگارها آسیبی وارد نشود؛ بنابراین با احتمال بیشتری تلفن همراه خود را در جیب شلوار خود قرار می‌دهند. سال‌هاست که مشخص ‌شده است سیگار کشیدن تعداد اسپرم‌ها را در مردان کاهش می‌دهد. به‌علاوه اثر عوامل دیگر مانند استرس در نظر گرفته نشده بود. استرس نیز باعث کاهش تعداد اسپرم در مردان می‌شود. شاید کسانی که مجبور هستند دائماً تلفن همراه را با خود حمل کنند، دارای مشاغل استرس‌آوری هستند که لازم است در طول ۲۴ ساعت در دسترس باشند.

درنهایت این‌که مبنای مقایسه، تعداد اسپرم مردان در دهه ۱۹۷۰ بوده است. این امکان وجود دارد به شکل کلی تعداد اسپرم مردان از آن موقع تاکنون به دلایل دیگری مانند افزایش آلودگی‌های شیمیایی کاهش ‌یافته باشد و ربطی به اثر تلفن همراه نداشته باشد. چنان‌که ممکن است تعداد اسپرم تمساح‌های پوزه‌کوتاه در سیستان و بلوچستان نسبت به دهه هفتاد میلادی ۳۰ درصد کم شده باشد ولی کسی فکر نمی‌کند به خاطر استفاده از تلفن همراه بوده باشد!

توجه کنید هدف من از این مثال رد یا تائید اثرات تلفن همراه بر بدن انسان نیست، بلکه روش نتیجه‌گیری بر مبنای داده‌ها مورد نقد است.

مصرف بستنی موجب افزایش بهره هوشی می‌شود!

در آوریل سال ۲۰۱۳، مجله اکونومیست (Economist) در مقاله‌ای ادعا کرد مصرف بستنی موجب افزایش بهره هوشی (IQ) می‌شود. گرچه برخی آن را دروغ اول آوریل اکونومیست می‌دانند، مقاله با لحنی جدی مانند سایر مقالات آن مجله نوشته شده و همچنان (مهرماه سال ۱۳۹۶) روی وب‌سایت آن در دسترس است. اشاره به این مقاله می‌تواند مفید و آموزنده باشد. در آن مقاله رابطه بین مصرف سرانه بستنی و نمره میانگین آزمون PISA در کشورهای عضو OECD (Economic Co-operation and Development) به تصویر کشیده شده است (شکل-۱). اکونومیست این‌گونه جمع‌بندی می‌کند که اگرچه ممکن است عجیب باشد ولی مصرف بستنی اثر مثبتی روی سطح هوش دانش آموزان می‌گذارد؛ بنابراین دولت می‌تواند با دادن یارانه در کشورهایی که مصرف بستنی پایین است، میزان عملکرد تحصیلی دانش آموزان را بالاتر ببرد. آیا این استدلال درست است؟

شکل-۱

باید نسبت به این استدلال بسیار مشکوک بود. اول آنکه نویسنده نمره متوسط آزمون PISA که توانایی خواندن افراد را می‌سنجد به هوش ربط داده است. هیچ ارتباط مستقیمی بین این دو وجود ندارد. دوم، همبستگی با رابطه علّی تفاوت دارد. هیچ دلیلی روشنی وجود ندارد که این رابطه علّی را توجیه کند. این همبستگی می‌تواند به دلایل دیگری به وجود آمده باشد. برای مثال اگر به نمودار شکل-۱ دقت کنید، مصرف سرانه بستنی در کشورهایی که ثروتمندتر هستند بیشتر است. معمولاً سیستم آموزشی در کشورهای ثروتمندتر به علت سرمایه‌گذاری بیشتر باکیفیت‌تر است. نتیجه آن‌که دانش آموزان در این کشورها توانایی خواندن بالاتری دارند. درواقع متغیر سومی عامل اصلی حرکت هم‌زمان هر دو متغیر بوده است.

تلویزیون نبینید تا بیشتر عمر کنید!

گروهی از محققان استرالیایی در سال ۲۰۱۱ گزارشی منتشر کردند که عنوان می‌کرد بر مبنای مشاهدات آنان به‌طور متوسط کسانی که شش ساعت تلویزیون در روز نگاه می‌کنند پنج سال زودتر از کسانی که اصلاً تلویزیون نگاه نمی‌کنند، می‌میرند. با در نظر گرفتن عادات مردم استرالیا در دیدن تلویزیون، آنان این‌طور نتیجه گرفته بودند که با ندیدن تلویزیون به‌طور متوسط دو سال به عمر انتظاری (Life Expectancy) افراد اضافه می‌شود.

مشکل اصلی در این گونه مطالعات مشاهده‌ای، سوگیری خودانتخابی (Self-Selection Bias) است. سوگیری خودانتخابی زمانی رخ می‌دهد که افراد خود تصمیم می‌گیرند داخل گروهی باشند یا نباشند. در این مثال شاید کسانی که تصمیم گرفتند بیشتر تلویزیون نگاه کنند، ازنظر بدنی کمتر فعال هستند، یا مبتلا به افسردگی شده‌اند و یا در شرایط جسمی خوبی نیستند و نمی‌توانند مانند افراد سالم به فعالیت‌های پرتحرک بپردازند. درواقع ممکن است عامل پنهان دیگری هم‌زمان موجب افزایش دیدن تلویزیون و کاهش طول عمر می‌شود.

پنجره‌های شکسته و میزان جرم و جنایت

یکی از دغدغه‌های سیاست‌گذاران عمومی همواره این بوده است که چگونه منابع مالی را مصرف کنند تا پدیده‌های ناخوشایندی را که در جامعه وجود دارد، از بین ببرند. یک نمونه شهر نیویورک (New York) در دهه ۱۹۸۰ است که به شهر خطرناکی تبدیل شده و نرخ انواع جرم و جنایت به بالاترین سطح خود رسیده بود. تحلیل گران متوجه شدند که بین جرم‌های کوچک نظیر دیوارنویسی، فرار از پرداخت بلیت مترو و مانند آن در مناطق مختلف شهری و نرخ جنایت در آنجا همبستگی وجود دارد.

تئوری پنجره شکسته (Broken Windows Theory) این‌گونه استدلال می‌کند که در نواحی شهری افراد به محیط اطراف خود نگاه می‌کنند تا بفهمند هنجار‌های اجتماعی در آنجا چگونه است. یک محیط نامرتب که زباله‌های زیادی در آن ریخته شده، دیوارنوشته‌ها همه‌جا را پرکرده و پنجره‌های ساختمان‌ها شکسته است این پیام را منتقل می‌کند که محیط تحت کنترل نیست و در صورت ارتکاب جرم در آن محل، ریسک کشف آن پایین است.

طرفداران نظریه پنجره شکسته چنین عنوان می‌کنند که همان‌طور که بهداشت و پیشگیری بر درمان مقدم است، سیاست‌گذاران جامعه و نیروهای پلیس نباید صرفاً‌ به دنبال جرم‌ها ‌و آسیب‌های فردی باشند که شاکی مشخص دارد. جامعه باید بکوشد تا هر موردی را از جنس پنجره‌های شکسته نداشته باشد.

بر همین مبنا شهردار وقت نیویورک بودجه زیادی را به کمپین آراسته‌سازی محیط شهری و مقابله با دیوارنوشته‌ها اختصاص داد. همچنین سیاست‌های بسیار سخت‌گیرانه‌ای در برابر ارتکاب جرم‌های کوچک مانند فرار در پرداخت بلیت اتخاذ شد. در دهه ۱۹۹۰ نرخ جنایت در نیویورک کاهش چشمگیری پیدا کرد. شکل-۲ تعداد بازداشت‌ها به علت جرم‌های کوچک و تعداد جرائم خشونت‌آمیز را نشان می‌دهد. بر مبنای این نتایج بود که تئوری پنجره شکسته موردتوجه زیادی قرار گرفت.

شکل-۲

اما جالب است بدانید کاهش بی‌سابقه جرم و جنایت در دهه ۱۹۹۰ میلادی نه‌تنها در نیویورک بلکه در کل آمریکا رخ داد. در مقاله “تئوری پنجره‌ شکسته: همبستگی یا رابطه علّی؟” به این پرداختم که اگرچه اجرای سیاست‌های پلیس در جلوگیری از جرائم کوچک هم‌زمان با کاهش جرائم خشونت‌آمیز بود، یک رابطه علت و معلولی بین این دو وجود نداشت. درواقع علت اصلی کاهش جرائم به تصویب قانون آزادی سقط‌جنین در بیست سال قبل و تغییرات جمعیتی ناشی از آن برمی‌گردد!

پیام این بحث برای مدیران چیست؟

تأکید اصلی بحث من در مقاله این بود که مدیران باید توجه کنند لزوماً رخ دادن هم‌زمان دو پدیده، بدان معنی نیست که یکی دلیل دیگری است. فرض کنید اخیراً در شرکت خود یک مدیر فروش با مدرک ام.بی.ای استخدام کرده‌اید. سه ماه پس از استخدام او فروش شرکت ۳۰۰ درصد رشد می‌کند. آیا این نتیجه فعالیت او بوده است؟ این امکان وجود دارد؛ اما می‌توان به توضیحات دیگری فکر کرد؟ آیا این افزایش فروش می‌توانسته نتیجه افزایش تقاضای فصلی بوده باشد؟ احتمال دارد تقاضای کلی برای آن محصول در بازار صعودی شده است؟ آیا ممکن است به علت خارج شدن یکی از رقیبان، تقاضا برای محصولات شرکت شما افزایش یافته باشد؟ به چه دلایل دیگری می‌توان فکر کرد؟ چه شواهدی برای رد یا اثبات این دلایل وجود دارند؟

بهترین روش برای شناخت رابطه علّی، آزمایش کنترل‌شده با نمونه تصادفی است. البته در دنیای واقعی نمی‌توان همواره این روش را بکار برد. من در مقاله دیگری چارچوب عملیاتی را شرح می‌دهم که به شما کمک می‌کند بفهمید در چه زمانی می‌توانید بر مبنای همبستگی بین دو متغیر اقدام کنید.

به استدلال‌های زیر توجه کنید:

داده‌ها نشان می‌دهد بین درآمد و ازدواج رابطه همبستگی مثبت وجود دارد. پس اگر ازدواج کنید درآمد شما بیشتر می‌شود.

داده‌ها نشان می‌دهد که کودکانی که بازی‌های کامپیوتری می‌کنند رفتارهای خشونت‌آمیز بیشتری از خود نشان می‌دهند. بازی‌های کامپیوتری موجب افزایش بروز پرخاشگری و رفتارهای خشونت‌آمیز در کودکان می‌شود.

مطالعات اقتصادی نشان می‌دهد وقتی میزان بدهی یک کشور به ۹۰ درصد تولید ناخالص داخلی (GDP) آن می‌رسد، رشد اقتصادی کند می‌شود. نتیجه آن‌که بدهی زیاد موجب کاهش رشد اقتصادی است.

به نظر شما آیا در این استدلال‌ها خطایی وجود دارد؟

منابع:

Economist (2013). “Ice Cream and IQ”, https://www.economist.com/blogs/graphicdetail/2016/04/daily-chart

Fisher, R. (1958), “Cigarettes, Cancer, and Statistics”, The Centennial Review of Arts & Science, 2, 151–۱۶۶

Harcourt, B. E., & Ludwig, J. (2006). “Broken Windows: New Evidence from New York City and a Five-City Social Experiment”, The University of Chicago Law Review, 271-320

Pearl, J., Glymour, M., Jewell, N. P. (2016). “Causal Inference in Statistics”, Wiley & Sons Ltd

Smith, G. (2014). “Standard Deviations: Flawed Assumptions, Tortured Data, and Other Ways to Lie with Statistics”, Overlook Duckworth, Peter Mayer Publishers, Inc. New York

Wheeler, K. (2017). “Correlation and Causation”, https://web.cn.edu/kwheeler/logic_causation.html

Wilson, J. Q, & Kelling, G. L. (1982), “Broken Windows: The Police and Neighborhood Safety”, The Atlantic