این سومین بخش از خلاصهی مجموعهی «دورهی مقدماتی data science» هستش.
توابع تجمیعی (aggregate functions)
در بخش قبلی با یکی از توابع تجمیعی یعنی «مجموع» آشنا شدیم و جمع مقادیر ستون درآمد رو محاسبه کردیم. عملیات تجمیعی یکی از ابتداییترین کارهایی هستش که معمولا روی دادهها انجام میدیم تا بتونیم به یه خلاصه و جمعبندی از اونها دست پیدا کنیم. متداولترینِ این توابع شامل تعداد(Count)، مجموع(Sum)، میانگین(Average)، کمترین مقدار(Min) و بیشترین مقدار(Max) هستش. در زیر نتیجهی اِعمال این توابع روی ردیف دادههامون رو میبینیم:
بسته به نوع داده، نتیجهی بعضی توابع تجمیعی ممکنه کاربردی نداشته باشه. مثلا در جدول بالا، عملیات جمع (Sum) روی دما و قیمت، خروجی معناداری تولید نمیکنه. نکتهی دیگه اینکه روی بعضی دادهها، مثل روز هفته که برای دستهبندی اطلاعات استفاده میشه، محاسبهی تعداد (Count) کمکی به ما نمیکنه و مثل جدول بالا بهتره از تعداد تفکیکی (DCount) استفاده کنیم.
وقتی دادههای ما براساس یک یا چند فیلد دستهبندی شده باشن، مثلا بر اساس فیلد روزهای هفته یا قیمت، میتونیم توابع تجمیعی رو به طور جداگانه روی هر کدوم از دستهها اِعمال کنیم:
در تصویر بالا، «میانگین» دما و بارندگی، و «مجموع» تعداد آگهی و تعداد فروش و مقدار درآمد براساس روزهای هفته به طور جداگانه محاسبه شده.
وقتی بیشتر از یک دسته در دادهها وجود داشته باشه، میتونیم دادهها رو به طور سلسلهمراتبی «گروهبندی» کنیم. به عنوان مثال اگه تو جدول ابتدای این بخش دقت کنیم میبینیم که قیمت تو بعضی روزها 30 سِنت و تو بعضی روزها 50 سِنت هستش، یعنی ردیفها بر اساس قیمت به دو دسته تقسیم میشن. اینجا میتونیم ابتدا ردیفها رو براساس قیمت گروهبندی کنیم و بعد توابع تجمیعی رو روی روزهای مختلف اِعمال کنیم:
اگه به تصویر زیر دقت کنیم متوجه میشیم که مجموع درآمد تو روزهایی که قیمت ۵۰ سِنت بوده (52.00) با وجود فروش کمتر (104) بیشتر از روزهایی هستش که قیمت ۳۰ سِنت بوده (35.70) با وجود فروش بیشتر (119). شاید بشه نتیجه گرفت که فروش با قیمت ۵۰ سِنت بهصرفهتر هستش. ضمن اینکه میبینیم تو روزهای جمعه، وقتی قیمت ۵۰ سِنت بوده، با وجود تعداد آگهی کمتر مقدار فروش و درآمد بیشتر بوده:
تصویرسازی از دادهها
استفاده از نمودار و گراف و به طور کلی تصویرسازی از دادهها به ما کمک میکنه که سریعتر و راحتتر بتونیم اطلاعات مورد نیاز رو از دادههای موجود استخراج کنیم.
در تصویر زیر یه نمودار خطی (line) ساده رو میبینیم که درآمد روزانه رو در بازهی دو هفتهای نشون میده. در اینجا درآمد (محور عمودی) به صورت نقطهای متناظر با تاریخ مربوطه (محور افقی) نمایش داده شده و از اتصال این نقاط به هم، این نمودار به دست اومده.
به طور کلی به محور افقی نمودارها، محور Xها و به محور عمودی نمودارها، محور Yها گفته میشه. نمودارها معمولا شامل توضیح علائم (legend) هم هستن. مثلا تو تصویر بالا میفهمیم که خط آبی نمودار نشوندهندهی درآمد (Revenue) هستش. مورد بعدی عنوان نمودار هستش که نشون میده نمودار قراره چه چیزی رو به ما اطلاع بده. مثلا در نمودار بالا، "Revenue Over Time" نشون میده که هدف نمودار، نمایش درآمد در طول زمان هستش.
نمودار دایرهای (Pie) نوع دیگهای از نمودارهاست که استفاده ازش متداول هم هست. همونطور که مشخصه این نوع نمودار محور عمودی و افقی نداره و مقادیر رو بر اساس مساحت اختصاص داده شده در سطح دایره نمایش میده. به عنوان مثال نمودار دایرهای زیر نشون میده که هر کدوم از روزهای هفته چه درصدی از میزان درآمد رو به خودشون اختصاص میدن. روز یکشنبه با ۱۸ درصد بالاترین سهم و روز جمعه با ۱۲ درصد پایینترین سهم رو در درآمد دارن.
استفاده از نمودار میلهای(bar) یا ستونی(column) روش دیگهای در تصویرسازی دادههاست. در نمودار میلهای زیر، هر میله یا ستون نشوندهندهی یه روز هفته و ارتفاع هر میله نشوندهندهی مقدار درآمد کسب شده در اون روز هستش.
اگه چند دسته داده داشته باشیم، مثل روزهای هفته و قیمت فروش، میتونیم از چند نوع میله یا ستون استفاده کنیم. مثلا تو نمودار زیر، میلههای آبی نشوندهندهی درآمد با فروش ۳۰ سِنت و میلههای نارنجی نشوندهندهی درآمد با فروش ۵۰ سِنت هستن.
اگه نیاز داشته باشیم که یک روند رو بر اساس تغییرات دو دادهی مرتبط نشون بدیم، میتونیم از نمودار نقشهای(plot) استفاده کنیم. نمودار زیر دما رو روی محور Xها، تعداد فروش رو روی محور Yها و تعداد فروش در هر دما رو با یه نقطهی آبی نشون میده. روندی که میتونیم بیینیم اینه که هر چه دما بالاتر بوده، تعداد فروش هم بیشتر شده و برعکس. خط نارنجی این روند رو به ما نشون میده.