ریاضی و آمار برای علم داده؛ از کجا شروع کنیم؟

یادگیری مباحث تئوری برای علم داده یکی از کارهای خسته‌کننده و البته دشواری است که بیشتر افراد به دنبال روش‌هایی برای فرار از آن هستند. اگر از افرادی که در حوزه علم داده فعال‌اند بپرسید یادگیری مباحث تئوری مثل آمار و ریاضی را مهم‌تر از کدنویسی می‌دانند و بر این باورند بدون یادگیری این مباحث نمی‌توان مسیر یادگیری علم داده را به درستی پیمود. بیشتر الگوریتم‌های یادگیری ماشین از توابع ریاضیاتی پیروی می‌کنند. اگر نتوانید منطقی که پشت این الگوریتم‌ها پنهان شده است را به درستی درک کنید به طور حتم دیتا آنالیست یا دیتا ساینتیست خوبی هم نخواهید شد. چه ریاضی را دوست داشته باشید و چه از آن فرار کنید باید برای رسیدن به جایگاهی که آرزویش را دارید با آن آشتی کنید. در این مقاله می‌خواهم مباحث مهمی که باید برای علم داده یاد بگیرید را بیان کنم تا با قدرت بیشتری مسیرتان را دنبال کنید.

چقدر ریاضی برای علم داده باید بلد باشیم؟

 

اولین گام برای یادگیری علم داده آشتی با مباحث ریاضیاتی است. به جای اینکه از این مباحث برای خودتان غول بسازید کمی زمان و انرژی صرف کنید و منابع ارزشمندی که در این زمینه منتشر شده است را بخوانید. مطمئن باشید که شما به اندازه کافی باهوش هستید و می‌توانید از عهده هر کاری بربیایید. حتماً از خودتان می‌پرسید برای شروع دوره‌های یادگیری ماشین، هوش مصنوعی یا دیپ لرنینگ چقدر باید ریاضی بلد باشم؟ باید در حوزه ریاضی پرفسور باشم تا بتوانم خودم را به جایگاهی که دوست دارم برسانم؟

معلوم است که ذهن‌تان درگیر این مباحث مهم است. اگر بدانید بر روی چه بخش‌هایی از ریاضی قرار است کار کنید دیگر مسیر به اندازه قبل برایتان پیچیده و طاقت‌فرسا نخواهد بود. برای شروع ریاضی کافیست مباحثی که در ادامه می‌گویم را مطالعه کنید و به جای ترس، شروع به تمرین کنید:

جبر خطی

جبر خطی یکی از پرکاربردترین بخش‌‌های ریاضی است که برای یادگیری علم داده باید با آن آشنا باشید. در این بخش موضوعات متنوعی قرار می‌گیرد و آشنایی با هر کدام از نان شب برایتان واجب‌تر است. فهرست زیر با بررسی دوره‌های برتر آموزش علم داده در دنیا و ایران جمع آوری شده است. زمان گذاشتن بر روی هر کدام از این مطالب به اندازه‌ای ارزشمند است که نتایج و موفقیت‌های افراد را به طرز شگفت‌انگیزی تغییر می‌دهد.  مباحثی که در بخش جبر خطی باید با آن‌ها آشنا باشید را به صورت فهرست‌وار در ادامه معرفی می‌کنم و بعد از آن به سراغ کاربردهای جبر خطی در دنیای علم داده می‌روم.

  • اسکالر، بردار و بررسی تنسورها
  • آشنایی با ماتریس‌ها و عملیات مرتبط با آن
  • محاسبه دترمینان و ترانهاده
  • آشنایی با ماتریس کهاد، ماتریس همسازه، الحاقی و معکوس
  • آشنایی با نرم‌ها
  • مقدار و بردار ویژه

این مباحث در چه بخش‌هایی از علم داده به دردمان می‌خورد؟

اگر بدانید هر کدام از این مباحث در چه حوزه‌هایی مفید و کاربردی است مسیر یادگیری ساده‌تری خواهید داشت. زمانی که روی الگوریتم‌های مختلف علم داده کار می‌کنید بحث مربوط به ماتریس ها و بردارها برایتان از اهمیت بسیار زیادی برخوردار خواهد بود. به عنوان مثال کار بر روی الگوریتم‌های کاهش ابعاد همچون PCA، کار بر روی متن‌های مختلف مثل نظرات کاربران( پردازش زبان طبیعی)  و کار بر روی الگوریتم‌های دیپ لرنینگ و شبکه‌های عصبی نیازمند درک عمیق از ساختارهای ماتریسی و برداری است. سعی کنید زمان قابل قبولی را بر روی جبر خطی و مفاهیم مرتبط با آن اختصاص دهید تا درک بهتری از عملکرد الگوریتم‌ها داشته باشید و در نهایت بتوانید مفاهیم را همانگونه که باید به خاطر بسپارید.

منابع مختلفی برای یادگیری مباحث مربوط به جبر خطی وجود دارد. کتاب‌ها، ویدئوهای آموزشی فارسی و انگلیسی و دوره‌های آموزشی متنوعی در این زمینه وجود دارد که بسته به نیازتان می‌توانید از بین آن‌ها یک یا چند مورد را انتخاب کنید.

حسابان

برای افرادی که عاشق ریاضی هستند کار بر روی مفاهیم حسابان چندان دشوار نخواهد بود. با اینحال بیشتر افرادی که به سراغ یادگیری علم داده و مباحث مرتبط با آن می‌روند از رشته‌های غیر مهندسی و ریاضی هستند و همین امر فرآیند یادگیری مباحث ریاضیاتی را برایشان دشوار می‌کند. در این بخش باید بتوانید با مفاهیمی مثل حد، پیوستگی، مشتق، سری تیلور، ماکزیموم و مینموم توابع، مشتق جزئی، انتگرال، تابع بتا و گاما کار کنید و درک عمیقی از آن‌ها داشته باشید.

یادتان باشد به هنگام کار با مباحثی مثل رگرسیون لجسیتک، گرادیان کاهشی، فرآیند backpropagation در شبکه‌های عصبی قرار است از حسابان و روش‌های مختلف آن همچون مشتق استفاده کنید. پس این بخش را هم به کمک ویدئوهای آموزشی و کتاب‌هایی که منتشر شده است خوب یاد بگیرید.

کاربرد آمار در علم داده

حالا به بخش جذاب ماجرا رسیده‌ایم. آمار یکی از ابزارهای مهم و البته قدرتمندی است که به شما اجازه می‌دهد اعداد و ارقام را تجزیه و تحلیل کنید و از دل آن‌ها بینش‌های ارزشمندی به دست آورید. آمار توصیفی و استنباطی از جمله موارد مهمی است که باید در این بخش یاد بگیرید. این مبحث اگرچه گسترده و متنوع است اما موضوعات مهم آن را می‌توان به موارد زیر تقسیم بندی کرد:

  • شناخت انواع داده، تفاوت‌ بین نمونه و جامعه، شاخص‌های مختلف پراکندگی
  • مباحث مربوط به احتمال
  • آزمون‌های آماری
  • توزیع‌های احتمال
  • متغیرهای تصادفی
  • نظریه برآورد نقطه‌ای و فاصله‌ای
  • ازمون فرض
  • آنالیز واریانس
  • آمار ناپارامتریک

آمار جزء مسائل و مفاهیم بنیادین یادگیری ماشین به حساب می‌اید و بیشتر فرآیندهایی که در آن دخیل است از مفاهیم آماری تبعیت می‌کند. پس اختصاص زمان کافی برای موضوعات مطرح شده در بالا می‌تواند شما را در رسیدن به اهداف‌تان یاری کند. برای این بخش هم منابع آموزشی متنوعی وجود دارد که می‌توانید از آن‌ها استفاده کنید. در دوره‌های کوتاهی که قرار است بر روی سایت منتشر کنیم نیم نگاهی به مباحث آماری مهم خواهیم داشت. سعی می‌کنیم این موضوعات را با زبان ساده و به کمک مثال‌های مختلف بیان کنیم تا افرادی که آشنایی زیادی با آمار و ریاضی ندارند از مطالعه آن لذت ببرند.

 

کتاب‌هایی که باید برای تسلط بر مفاهیم ریاضی و آماری بخوانید

 

مطالعه منابع ارزشمندی که در سرتاسر دنیا منتشر شده و در حال تدریس است بسیار مفید خواهد بود. اگر برای کار بر روی داده‌ها عزم جدی و البته راسخ دارید کتاب‌هایی که در ادامه معرفی می‌کنم را تهیه کنید و یک به یک محتوای آن‌ها را کند و کاو کنید. مطمئن باشید در این مسیر با اطلاعات منحصربه‌فردی روبرو خواهید شد که شما را در انجام پروژه‌هایتان یاری می‌کند:

  • Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python
  • Naked statistics
  • An Introduction to Statistical Learning: With Applications in R
  • Probability and Statistics for Data Science: Math + R + Data
  • Mathematics for Machine Learning
  • The Elements of Statistical Learning
  • Think Stats

سخن نهایی

با اینکه بیشتر مدل‌های مورد نیاز در یادگیری ماشین توسط الگوریتم‌ها ایجاد شده و توسعه می‌یابند اما درک مفاهیمی که پشت این الگوریتم‌ها نهفته از اهمیت بسیار زیادی برخوردار است. علاوه بر این، با یادگیری مفاهیم ریاضی و آمار می‌توانید سوالات مربوط به مصاحبه‌های کاری را با اعتماد به نفس بیشتری پاسخ دهید و خودتان را یک سر و گردن از رقبا بالاتر نشان دهید. منابع آموزشی و ویدئوهایی که در این زمینه منتشر شده است را به دقت مطالعه کنید و تمرین کردن را از یاد نبرید. بدون تمرین کردن نمی‌توانید به مباحث مختلف مسلط شوید و آن‌ها را به خاطر بسپارید.

دیدگاهتان را بنویسید