ریاضی و آمار برای علم داده؛ از کجا شروع کنیم؟

یادگیری مباحث تئوری برای علم داده یکی از کارهای خستهکننده و البته دشواری است که بیشتر افراد به دنبال روشهایی برای فرار از آن هستند. اگر از افرادی که در حوزه علم داده فعالاند بپرسید یادگیری مباحث تئوری مثل آمار و ریاضی را مهمتر از کدنویسی میدانند و بر این باورند بدون یادگیری این مباحث نمیتوان مسیر یادگیری علم داده را به درستی پیمود. بیشتر الگوریتمهای یادگیری ماشین از توابع ریاضیاتی پیروی میکنند. اگر نتوانید منطقی که پشت این الگوریتمها پنهان شده است را به درستی درک کنید به طور حتم دیتا آنالیست یا دیتا ساینتیست خوبی هم نخواهید شد. چه ریاضی را دوست داشته باشید و چه از آن فرار کنید باید برای رسیدن به جایگاهی که آرزویش را دارید با آن آشتی کنید. در این مقاله میخواهم مباحث مهمی که باید برای علم داده یاد بگیرید را بیان کنم تا با قدرت بیشتری مسیرتان را دنبال کنید.
چقدر ریاضی برای علم داده باید بلد باشیم؟
اولین گام برای یادگیری علم داده آشتی با مباحث ریاضیاتی است. به جای اینکه از این مباحث برای خودتان غول بسازید کمی زمان و انرژی صرف کنید و منابع ارزشمندی که در این زمینه منتشر شده است را بخوانید. مطمئن باشید که شما به اندازه کافی باهوش هستید و میتوانید از عهده هر کاری بربیایید. حتماً از خودتان میپرسید برای شروع دورههای یادگیری ماشین، هوش مصنوعی یا دیپ لرنینگ چقدر باید ریاضی بلد باشم؟ باید در حوزه ریاضی پرفسور باشم تا بتوانم خودم را به جایگاهی که دوست دارم برسانم؟
معلوم است که ذهنتان درگیر این مباحث مهم است. اگر بدانید بر روی چه بخشهایی از ریاضی قرار است کار کنید دیگر مسیر به اندازه قبل برایتان پیچیده و طاقتفرسا نخواهد بود. برای شروع ریاضی کافیست مباحثی که در ادامه میگویم را مطالعه کنید و به جای ترس، شروع به تمرین کنید:
جبر خطی
جبر خطی یکی از پرکاربردترین بخشهای ریاضی است که برای یادگیری علم داده باید با آن آشنا باشید. در این بخش موضوعات متنوعی قرار میگیرد و آشنایی با هر کدام از نان شب برایتان واجبتر است. فهرست زیر با بررسی دورههای برتر آموزش علم داده در دنیا و ایران جمع آوری شده است. زمان گذاشتن بر روی هر کدام از این مطالب به اندازهای ارزشمند است که نتایج و موفقیتهای افراد را به طرز شگفتانگیزی تغییر میدهد. مباحثی که در بخش جبر خطی باید با آنها آشنا باشید را به صورت فهرستوار در ادامه معرفی میکنم و بعد از آن به سراغ کاربردهای جبر خطی در دنیای علم داده میروم.
- اسکالر، بردار و بررسی تنسورها
- آشنایی با ماتریسها و عملیات مرتبط با آن
- محاسبه دترمینان و ترانهاده
- آشنایی با ماتریس کهاد، ماتریس همسازه، الحاقی و معکوس
- آشنایی با نرمها
- مقدار و بردار ویژه
این مباحث در چه بخشهایی از علم داده به دردمان میخورد؟
اگر بدانید هر کدام از این مباحث در چه حوزههایی مفید و کاربردی است مسیر یادگیری سادهتری خواهید داشت. زمانی که روی الگوریتمهای مختلف علم داده کار میکنید بحث مربوط به ماتریس ها و بردارها برایتان از اهمیت بسیار زیادی برخوردار خواهد بود. به عنوان مثال کار بر روی الگوریتمهای کاهش ابعاد همچون PCA، کار بر روی متنهای مختلف مثل نظرات کاربران( پردازش زبان طبیعی) و کار بر روی الگوریتمهای دیپ لرنینگ و شبکههای عصبی نیازمند درک عمیق از ساختارهای ماتریسی و برداری است. سعی کنید زمان قابل قبولی را بر روی جبر خطی و مفاهیم مرتبط با آن اختصاص دهید تا درک بهتری از عملکرد الگوریتمها داشته باشید و در نهایت بتوانید مفاهیم را همانگونه که باید به خاطر بسپارید.
منابع مختلفی برای یادگیری مباحث مربوط به جبر خطی وجود دارد. کتابها، ویدئوهای آموزشی فارسی و انگلیسی و دورههای آموزشی متنوعی در این زمینه وجود دارد که بسته به نیازتان میتوانید از بین آنها یک یا چند مورد را انتخاب کنید.
حسابان
برای افرادی که عاشق ریاضی هستند کار بر روی مفاهیم حسابان چندان دشوار نخواهد بود. با اینحال بیشتر افرادی که به سراغ یادگیری علم داده و مباحث مرتبط با آن میروند از رشتههای غیر مهندسی و ریاضی هستند و همین امر فرآیند یادگیری مباحث ریاضیاتی را برایشان دشوار میکند. در این بخش باید بتوانید با مفاهیمی مثل حد، پیوستگی، مشتق، سری تیلور، ماکزیموم و مینموم توابع، مشتق جزئی، انتگرال، تابع بتا و گاما کار کنید و درک عمیقی از آنها داشته باشید.
یادتان باشد به هنگام کار با مباحثی مثل رگرسیون لجسیتک، گرادیان کاهشی، فرآیند backpropagation در شبکههای عصبی قرار است از حسابان و روشهای مختلف آن همچون مشتق استفاده کنید. پس این بخش را هم به کمک ویدئوهای آموزشی و کتابهایی که منتشر شده است خوب یاد بگیرید.
کاربرد آمار در علم داده
حالا به بخش جذاب ماجرا رسیدهایم. آمار یکی از ابزارهای مهم و البته قدرتمندی است که به شما اجازه میدهد اعداد و ارقام را تجزیه و تحلیل کنید و از دل آنها بینشهای ارزشمندی به دست آورید. آمار توصیفی و استنباطی از جمله موارد مهمی است که باید در این بخش یاد بگیرید. این مبحث اگرچه گسترده و متنوع است اما موضوعات مهم آن را میتوان به موارد زیر تقسیم بندی کرد:
- شناخت انواع داده، تفاوت بین نمونه و جامعه، شاخصهای مختلف پراکندگی
- مباحث مربوط به احتمال
- آزمونهای آماری
- توزیعهای احتمال
- متغیرهای تصادفی
- نظریه برآورد نقطهای و فاصلهای
- ازمون فرض
- آنالیز واریانس
- آمار ناپارامتریک
آمار جزء مسائل و مفاهیم بنیادین یادگیری ماشین به حساب میاید و بیشتر فرآیندهایی که در آن دخیل است از مفاهیم آماری تبعیت میکند. پس اختصاص زمان کافی برای موضوعات مطرح شده در بالا میتواند شما را در رسیدن به اهدافتان یاری کند. برای این بخش هم منابع آموزشی متنوعی وجود دارد که میتوانید از آنها استفاده کنید. در دورههای کوتاهی که قرار است بر روی سایت منتشر کنیم نیم نگاهی به مباحث آماری مهم خواهیم داشت. سعی میکنیم این موضوعات را با زبان ساده و به کمک مثالهای مختلف بیان کنیم تا افرادی که آشنایی زیادی با آمار و ریاضی ندارند از مطالعه آن لذت ببرند.
کتابهایی که باید برای تسلط بر مفاهیم ریاضی و آماری بخوانید
مطالعه منابع ارزشمندی که در سرتاسر دنیا منتشر شده و در حال تدریس است بسیار مفید خواهد بود. اگر برای کار بر روی دادهها عزم جدی و البته راسخ دارید کتابهایی که در ادامه معرفی میکنم را تهیه کنید و یک به یک محتوای آنها را کند و کاو کنید. مطمئن باشید در این مسیر با اطلاعات منحصربهفردی روبرو خواهید شد که شما را در انجام پروژههایتان یاری میکند:
- Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python
- Naked statistics
- An Introduction to Statistical Learning: With Applications in R
- Probability and Statistics for Data Science: Math + R + Data
- Mathematics for Machine Learning
- The Elements of Statistical Learning
- Think Stats
سخن نهایی
با اینکه بیشتر مدلهای مورد نیاز در یادگیری ماشین توسط الگوریتمها ایجاد شده و توسعه مییابند اما درک مفاهیمی که پشت این الگوریتمها نهفته از اهمیت بسیار زیادی برخوردار است. علاوه بر این، با یادگیری مفاهیم ریاضی و آمار میتوانید سوالات مربوط به مصاحبههای کاری را با اعتماد به نفس بیشتری پاسخ دهید و خودتان را یک سر و گردن از رقبا بالاتر نشان دهید. منابع آموزشی و ویدئوهایی که در این زمینه منتشر شده است را به دقت مطالعه کنید و تمرین کردن را از یاد نبرید. بدون تمرین کردن نمیتوانید به مباحث مختلف مسلط شوید و آنها را به خاطر بسپارید.
دیدگاهتان را بنویسید