نمودار نقطه ای

نمودار نقطه ای- scatterplot

نمودار نقطه ای چیست؟
«نمودار نقطه ای» یک نمودار حاشیه ای است، اما یکی از موارد مورد علاقه من است! اگر یک آماردان هستید یا در زمینه فنی کار می کنید، نمودار نقطه ای ممکن است نوع گراف مورد علاقه شما باشد. با این حال، اگر تجزیه و تحلیل آماری زیادی انجام نمی دهید، ممکن است این نمودار برایتان ناآشنا باشند. صرف نظر از سطح آشنایی فعلی شما، نمودارهای نقطه ای برای تمرکز بر رابطه بین دو سری داده بسیار مفید هستند - سناریویی که در هر دو زمینه فنی و غیر فنی رایج است. بیایید برخی از اصول اولیه نمودارهای نقطه ای را از طریق یک مثال بررسی کنیم. من همچنین نکاتی را برای طراحی نمودارهای موثرتر ارائه خواهم داد و در مورد انواع رایج آن (نمودارهای حباب، نمودارهای نقطه ای متصل و غیره) نیز بحث خواهم کرد.

 

نمودار نقطه ای چیست؟
نمودار نقطه ای رابطه بین دو متغیر عددی را نشان می دهد که به طور همزمان در امتداد هر دو محور افقی و عمودی رسم شده اند. آنها در زمینه های علمی رایج هستند و اغلب برای درک داده ها استفاده می شوند نه برای فهماندن داده ها به سایرین. این بدان معنا نیست که هرگز نباید برای انتقال به دیگران از این نمودار بهره ببرید. اما باید اقدامات دقیقی را انجام دهید تا مطمئن شوید نمودار شما برای مخاطبانِ ناآشنا، واضح است (کاری که باید با همه نمودارها انجام دهید!). بیایید به سناریویی نگاه کنیم که در آن یک نمودار نقطه ای به خوبی برای انتقال یک یافته به مخاطب کار می کند.


تصور کنید که شما یک تحلیلگر در صنعت زیبایی هستید و شرکت شما می خواهد یک محصول جدید مراقبت از لب را تولید کند. قبل از شروع این تلاش، از شما خواسته می شود که کمی تحقیق کنید تا ببینید آیا فرصت دست نخورده ای در بازار وجود دارد یا خیر. شما متوجه می‌شوید که محصولات مراقبت از لب، بین خریداران زن و مرد قطبی می‌شوند، بنابراین فرصتی برای ایجاد یک محصول جدید وجود دارد که این شکاف را پر می‌کند.
ممکن است در نظر داشته باشید که رابطه بین نمرات رتبه بندی مرد و زن را با استفاده از نمودار پراکندگی، مانند تصویر زیر نشان دهید.

 

نمودار نقطه ای- ایجاد محوطه های اربعه-چهار منطقه مفهمومی

 
چند نکته قابل توجه در مورد نمودار بالا وجود دارد:

  • این نمودار ماهیت اکتشافی دارد. احتمالاً برای کشف این یافته از نمودار نقطه ای استفاده شده است. بسیاری از نرم‌افزارهای آماری، نمودارهای نقطه ای را برای آزمایش همبستگی بین دو متغیر، تولید می‌کنند. اگرچه نمودار مورد استفاده در مرحله اکتشاف، همیشه برای انتقال نتیجه نهایی ایده آل نیست، اما در این مورد خاص جواب میدهد. من می توانم هر دو مجموعه رتبه بندی را به طور همزمان ببینم و همچنین بر بخش بکرِ موجود در بازار تأکید کنم. من نقاط را دسته بندی و برچسب گذاری کرده ام تا این نمودار خوانا باشد، اما یک نمودار جایگزین - نموداری که آشناتر است - نیز جواب میدهد. (برای دیدن بدیل های بیشتر اینجا را ببینید) همه چیز به مخاطب و سناریوی خاص شما بستگی دارد.

 

  • مراقب قرارگیری متغیر روی محورها باشید. در این مثال، مهم نیست که کدام متغیر در امتداد محور افقی یا عمودی باشد، اما همیشه اینطور نخواهد بود. گاهی اوقات هم متغیر مستقل و هم متغیر وابسته خواهید داشت. یک متغیر مستقل دقیقاً همان چیزی است که از نام آن پیداست: متغییر دیگر بر آن تأثیر نمی گذارد. متغیر وابسته احتمالاً همان چیزی است که شما می‌خواهید اندازه‌گیری کنید، به این معنی که تحت تأثیر متغیر مستقل شما قرار می‌گیرد. قرار دادن متریک مستقل در امتداد محور افقی یا x و متغیر وابسته در امتداد محور y معمول است. معکوس کردن اینها اشتباه نیست، اما ممکن است غیرمنتظره باشد و در ابتدا باعث سردرگمی شود.

 

  • نمودارهای نقطه ای نقطه ها را نشان می دهد نه خطوط. نمودارهای نقطه¬ای بسیار شبیه به نمودارهای خطی هستند زیرا هر دو دو مقدار عددی را نمایش می دهند. با این حال، نمودارهای نقطه ای تمایل دارند به جای تمرکز بر تجمیع چندین نقطه در یک خط مجزا، بر روی نقاط داده منفرد (که با یک نقطه به تصویر کشیده می شوند) تمرکز کنند.

همانطور که در بالا مشاهده شد، نمودارهای نقطه ای در شکل استاندارد خود، رابطه بین دو چیز را نشان می‌دهند، اما نمایش بیش از دو بعد، به خصوص هنگام کاوش داده‌ها، غیر معمول نیست. ما به چند نوع از نمودارهای چند بعدی متداول نگاهی خواهیم انداخت، اما قبل از این کار، بیایید نحوه خواندن یک نمودار نقطه ای را توضیح دهیم.

 

چگونه نمودار نقطه ای را می خوانید؟

بخش اعظم این مطلب به این اختصاص دارد که علیرغم اینکه نمودارهای نقطه ای یک نوع نمودار فنی تر هستند، چگونه می توانید از آنها برای اهداف توضیحی استفاده کنید،. همانطور که قبلا ذکر شد، اگر از یک نمودار نقطه ای استفاده می کنید، توجه داشته باشید که ممکن است لازم باشد آن را برای مخاطبان خود تجزیه کنید، و اگر اولین بار است که به یکی از این نمودارها نگاه می کنند، ممکن است لازم باشد نحوه خواندن آن را توضیح دهید. من شما را از طریق فرآیندی که در هنگام بررسی نمودارهای نقطه ای انجام می‌دهم، راهنمایی می‌کنم و همچنین پیوندهایی به منابع اضافی ارائه میکنم.

1-  محورها را بررسی کنید. یکی از اولین کارهایی که هنگام خواندن هر نمودار انجام می دهم اسکن هر محور است. این کار به ویژه هنگام خواندن نمودارهای نقطه ای بسیار مهم است، زیرا آنها حاوی چندین متغیر هستند، بنابراین تعیین اینکه کدام متغیر در امتداد کدام محور قرار دارد، ضروری است. همچنین باید اشاره کنم که همه نمودارهای نقطه ای، متغیرهای مشابهی را نمایش نمی دهند. برخی ممکن است معیارهای مختلف را با واحدهای اندازه گیری و مقیاس متفاوت مقایسه کنند. درک زودهنگام این موضوع، وقتی شروع به بررسی داده ها کردید، تفسیر رابطه بین داده ها را آسان تر می کند.

2- نواحی را برای خودتان مجسم کنید. در مثال بالا، بخش هایی را با گروه بندی نقاط به چهار بخش ایجاد کردم. این نه تنها برای انتقال یافته، بلکه در سناریوی محصول «مراقبت از لب»، برای کشف آن نیز مفید است. دفعه بعد که به یک نمودار نقطه ای نگاه می کنید، از خود بپرسید که چه خطوطی را می توانید ترسیم کنید یا چه شکستگی ها و گروه بندی های طبیعی وجود دارد که به شما در درک مقایسه کمک می کند.

3- شکل و فرم را تشخیص دهید. من اغلب از نمودار یک قدم به عقب برمی‌گردم، بنابراین می‌توانم سعی کنم تک تک نقاط را در یک شکل یکپارچه خلاصه کنم. آیا همه آنها در یک جهت خطی حرکت می کنند؟ یا شاید بیشتر یک منحنی نمایی است؟ آیا با حرکت چشمان من در امتداد محور، نقاط افزایش می یابند؟ داشتن توضیحات در ذهن، به من کمک می کند تا رابطه را کشف و توضیح دهم. 

برای مثال، در این چالش، می‌توانیم ببینیم که نقاط داده یک شکل U ایجاد می کنند. این به این معنی است که هزینه برای استفاده های کوتاهتر و هم طولانی تر نسبتاً بالا است، اما برای فاصله های متوسط، هزینه قابل کنترل تر است. به خاطر داشته باشید که ممکن است شکل قابل تشخیصی وجود نداشته باشد، و خودش یک یافته کاملا معتبر است (و نشان دهنده رابطه ضعیف یا عدم وجود بین متغیرها است).

در این مرحله از به اشتراک گذاری هر گونه هشدار دریغ نمی کنم. هنوز هم می‌توانم بشنوم که استادان آمار این مانترا را در ذهنم فرو می‌کنند، «همبستگی به معنای علیّت نیست.» فقط به این دلیل که یک رابطه را کشف می کنید به این معنی نیست که علت اصلی آن را شناسایی کرده اید. به عنوان مثال، در مثال مراقبت از لب، متوجه شدیم که برندهای ترجیح داده شده در بین مردان، در بین زنان کمتر ترجیح داده می شوند. آیا این بدان معناست که اگر یک مرد از یک برند خوشش بیاید، یک زن آن را دوست ندارد؟ مطلقاً خیر، یا فرصتی برای ایجاد یک محصول هردوپسند وجود نخواهد داشت؟ 

ما می‌توانیم از یافته‌ها برای اطلاع‌رسانی و تصمیم‌گیری آگاهانه استفاده کنیم، اما تعمیم برداشتها، استفاده نامناسب از داده‌ها محسوب می شود. این در مورد انواع نمودارهای دیگر نیز صدق می کند، با این حال من متوجه شدم که نمودارهای نقطه ای بیشتر مستعد نادرست خوانده شدن هستند. فکر می‌کنم به این دلیل است که آنها روی رابطه تمرکز می‌کنند و هم حدس‌زنی و هم برون‌یابی را آسان می‌کنند. (برای اطلاعات بیشتر، به یادداشت ما در باره آخرین کتاب بن جونز، «اجتناب از دام داده ها» سری بزنید.)

اگر علاقه مند به مطالعه بیشتر در مورد تفسیر نمودارهای نقطه ای هستید، این پست لیزا شارلوت روست را بررسی کنید، جایی که او شما را با یک نمودار نقطه ای چند بعدی، یعنی نمودار حباب، آشنا می کند. حالا که صحبتش شد، اجازه دهید در ادامه به انواع نمودار نقطه ای بپردازیم.


انواع رایج نمودارهای نقطه ای چیست؟

  • نمودار حباب: بیایید تصور کنیم که مثال مراقبت از لب شامل ابعاد دیگری است (مانند نوع بسته بندی، قیمت، ماده فعال و غیره). ما می توانیم این متغیر سوم را با تغییر اندازه، رنگ یا حتی شکل نقاط داده رمزگذاری کنیم. این یک نمودار حبابی است. نمودارهای حبابی برای نشان دادن روابط چند بعدی مفید هستند، اما از آنجایی که خواندن آنها سخت است، هزینه دارد. هنگامی که اندازه دایره ها را تغییر دادیم، شروع به رمزگذاری اطلاعات بر اساس منطقه می کنیم. چشم‌های ما در اندازه‌گیری مساحت خیلی خوب نیستند، بنابراین مقایسه‌ بین دو متغیر خاص سخت‌تر است. همچنین باید اشاره کنم که بسیاری از برنامه های گرافیکی الگوهای نمودار حباب دار را ارائه نمی دهند. این بدان معناست که شخصی باید مساحت صحیح هر دایره را محاسبه کند، که می تواند خطای انسانی ایجاد کند. همچنین همانطور که با رنگ و شکل بازی می کنیم، از مخاطبان خود می خواهیم که کارهای ذهنی زیادی برای پردازش اطلاعات انجام دهند. افراد معمولاً در هر زمان معین فقط می توانند حدود چهار قطعه اطلاعات بصری را در حافظه کوتاه مدت خود نگه دارند، بنابراین مراقب بارِ شناختی که بر روی ذهن خواننده گذاشته می شود باشید! 
  • با این همه، نمونه‌های خارق‌العاده‌ای از نمودارهای حباب توضیحی وجود دارد، مانند ویدیوی معروف هانس روسلین در بی‌بی‌سی . چیزی که توضیح هانس را بسیار موثر می کند، تمایل و اشتیاق او برای حرکت دادن گام به گام مخاطبانش در درک نمودار حباب متحرک است. اگر در نظر دارید یک نمودار حبابی (یا هر نمودار چند بعدی) را استفاده کنید، به ظرفیت مخاطبان خود و میزان تلاشی که برای درک نمودار باید بنمایند، توجه کنید.

 

  • نمودارهای نقطه ای متصل: من به یک نمودار نقطه ای متصل، به عنوان ترکیبی بین یک نمودار نقطه ای سنتی و یک نمودار خطی فکر می کنم. هنوز دو بعد در امتداد محور x و y وجود دارد، اما بعد سوم، معمولاً زمان، با خطوط لایه‌بندی شده است. چالش این است که ما به خواندن زمان از چپ به راست عادت کرده‌ایم، بنابراین دیدن حرکت آن در هر جهت از نقطه‌ای به نقطه دیگر می‌تواند دشوار باشد. مانند تمام تغییرات، هر نمودار یک مورد استفاده ایده آل دارد و با حاشیه نویسی های متفکرانه، برچسب گذاری و متمرکز کردن توجه می تواند برای هر مخاطبی روشن شود. برای کسب اطلاعات بیشتر، پست مهمان دن زوینکا در مورد «نقش‌های متعدد خطوط» را بررسی کنید و نیز به مثال ارسالی #SWDchallenge ژانویه 2018بیل رپ (در زیر) نگاه کنید.

نمودار نقطه ای-scatter plot

 

  • نمودار چهار ناحیه ای (نمودار نقطه ای مفهومی): این به خودی خود یک نمای چند بعدی نیست، بلکه می تواند در یک محیط تجاری کاربردی باشد. ما اغلب می خواهیم روابط بین دو چیز را درک کنیم یا توضیح دهیم که چگونه یک تصمیم ممکن است بر دیگری تأثیر بگذارد. یک نمودار نقطه ای مفهومی که به عنوان شبکه 2×2 نیز شناخته می شود، می تواند به مخاطبان شما کمک کند تا این مقایسه ها را درک کنند، زیرا سیستم بصری ما در پردازش اطلاعات بسیار سریعتر از سیستم کلامی ما است. برای مثال، ممکن است از یکی برای توضیح تفاوت‌های بین ارائه داده‌های شما در ارتباط مستقیم با یک سند مکتوب استفاده کنیم. این دو متغیر عبارتند از میزان کنترلی که می‌خواهید داشته باشید و میزان جزئیات مورد نیاز برای رساندن هدفتان. توجه داشته باشید که چقدر سریع می توان فهمید که یک رسانه نسبت به دیگری ایده آل است.

نمودار نقطه ای -scatter plot- چهار ناحیه ای مفهومی

نکاتی برای طراحی نمودار نقطه ای
در اینجا چند نکته در مورد فُرمت نمودار وجود دارد که باید هنگام طراحی نمودارهای نقطه ای در نظر بگیرید.
1- با حذف خطوط روند، شلوغی را کم کنید. 
در طول فرآیند تحلیلی، ممکن است مدلی را برای توصیف رابطه نشان داده شده در نمودار نقطه ای خود بگنجانید و این مدل را به صورت خطی در میان نقاط داده نمایش دهید. ترجیح من - و می دانم که این ممکن است بحث برانگیز باشد - حذف خط برازش شده (فیت شده) هنگام ارائه دادن است. این خط بهم ریختگی را می افزاید و اگر روند اصلی مشخص نباشد، گذاشتن یک خط ممکن است منجر به بحث یا سردرگمی شود (همانطور که در این مثال دیده می شود).

نمودار نقطه ای -scatter plot- حذف خط trendline برای کم کردن درهم ریختگی

 
2-  نقاط داده روی هم افتاده را شفاف (transparent) کنید. اگر بسیاری از نقاط داده با هم همپوشانی داشته باشند، ممکن است دیدن مقدار یا حجم نقاط در یک بخش خاص دشوار شود. یک ترفند می تواند این باشد که با شفافیت (transparency) نشانگرهای داده بازی کنید تا هر نقطه داده قابل مشاهده باشد.

نمودار نقطه ای -scatter plot- تغییر opacity

3-  به خط مبنای صفر نیاز ندارید. مشابه نمودارهای خطی، نمودارهای نقطه ای داده ها را بر اساس موقعیت در امتداد محور کدگذاری می کنند. این بدان معناست که لازم نیست خط پایه شما به همان شکلی که برای نمودار میله‌ای صدق می کند، از صفر شروع شود. با این اوصاف، هر زمان که از خط پایه منحرف می‌شوید، همچنان باید حواستان باشد، زیرا ممکن است برای مخاطب سردرگمی ایجاد کند.

4- ایجاد بخش و اضافه کردن برچسب برای وضوح. افزودن حاشیه‌نویسی و دسته‌بندی نقاط داده می‌تواند استفاده از نمودارهای نقطه ای را آسان‌تر کند. در مثال محصول مراقبت از لب، توجه کنید که چگونه توصیفات مختصر و مفید، نه تنها در فضاهای محدود به خوبی جواب می دهد، بلکه بحث در مورد نمودار را آسان تر می کند. من می توانم به مربع فرصت (opportunity quadrant) اشاره کنم و احتمالاً منظور من را می فهمید! بدون ایجاد یک ساختار واضح برای خواندن نمودار پراکندگی، این نمودار بسیار خاصیت اکتشافی دارد و خواننده را ملزم به تکرار تجزیه و تحلیل، برای کشف رابطه می کند. تفاوت تصویر زیر را بررسی کنید یا این دو پست را برای مثال‌های اضافی از نحوه برچسب‌گذاری و دسته‌بندی پراکنده‌ها بخوانید: نمونه‌ای که میزان دسترسی و تعامل را بر اساس کشور نشان می‌دهد و نمونه دیگری که عملکرد مدیر را نشان می‌دهد.

نمودار نقطه ای -scatter plot- ایجاد نواحی متمایز و برچسب زنی


 کجا می توانم نمونه های بیشتری از نمودارهای نقطه ای را ببینم؟
برای مثال‌های بیشتر، چالش SWD ما را با نمودارهای نقطه ای بررسی کنید.