مقدمه‌ای بر تحلیل رگرسیون چند‌جمله ای (Polynomial Regression)

نویسنده: محمد توکلی

دسته بندی: هوش تجاری
5 دقیقه زمان مطالعه
1400/10/03
بدون دیدگاه

رگرسیون چند جمله ای یا Polynomial regression یکی از الگوریتم‌های یادگیری ماشین است که برای پیشبینی استفاده می‌شود. به طور مثال از این رگرسیون به شکلی گسترده برای پیشبینی بیماری کووید ۱۹یا دیگر بیماری‌های واگیردار استفاده می‌شود .
اگر می‌خواهید با این موضوع بیشتر آشنا شوید با ما همراه باشید

تجزیه و تحلیل رگرسیون یا regression analysis‌ چیست؟

تجزیه و تحلیل رگرسیون  یک ابزار آماری برای مطالعه همبستگی بین دو مجموعه رویداد یا بررسی آماری بین متغیر وابسته (dependent variable) و یک یا چند متغیر مستقل (independent variables) است.
به طور مثال کاهش وزن شما (متغیر وابسته) به این بستگی دارد که چند ساعت در باشگاه ورزش کرده باشید (متغیر مستقل).
انواع مختلفی از مدل‌های رگرسیون آماری وجود دارد

رگرسیون خطی ساده (simple linear regression)

این مدل از رگرسیون مشابه مثال بالا، به شما امکان تخمین همبستگی خطی بین دو متغیر را می‌دهد. معمولا وقتی شما زمان بیشتری را برای فعالیت‌های فیزیکی می‌گذارید، به مراتب وزن بیشتری از دست می‌دهید؛ با توجه به موارد گفته شده در اینجا همبستگی خطی وجود دارد.

رگرسیون خطی ساده

رگرسیون خطی چندگانه (Multiple linear regression)

رگرسیون خطی چندگانه به رگرسیون خطی ساده مربوط می‌شود؛ اما به جای نشان دادن همبستگی بین یک متغیر مستقل و یک متغیر وابسته، شما می‌توانید چندین متغیر مستقل را در نظر بگیرید. به طور مثال برای کاهش وزن، علاوه بر ساعت‌هایی که در باشگاه ورزش می‌کنید، می‌توانید میزان مصرف روزانه شکر و میزان کالری دریافتی را نیز در نظر بگیرید.

رگرسیون چند جمله‌ای (Polynomial regression)

رگرسیون چند جمله‌ای

از رگرسیون چند جمله‌ای زمانی استفاده می‌شود که هیچ همبستگی‌ای میان متغیرها وجود نداشته باشد؛ بنابراین به جای اینکه شبیه یک خط باشد، مانند یک تابع غیر خطی به نظر می‌رسد. در ادامه عمیقتر به این نوع رگرسیون می‌پردازیم.

رگرسیون چند جمله‌ای در یادگیری ماشین به چه معنی است؟

مانند بسیاری از موارد دیگر در یادگیری ماشین، مفهوم رگرسیون چند جمله‌ای از علم آمار سرچشمه می‌گیرد. متخصص‌های علم آمار زمانی از رگرسیون چند جمله‌ای برای تجزیه و تحلیل استفاده می‌کنند که رابطه غیر خطی بین متغیر x و میانگین شرطی متناظر برای میانگین y وجود نداشته باشد .
تصور کنید می‌خواهید پیشبینی کنید که پست جدید شما در رسانه‌های اجتماعی در هر شبکه به خصوص چه تعداد لایک پس از انتشار دریافت می‌کند. در این مورد هیچ همبستگی خطی (linear correlation) بین تعداد لایک‌ها و زمانی که از انتشار پست گذشته وجود ندارد. پست شما ممکن است در ۲۴ ساعت اول لایک‌های زیادی دریافت کند اما به تدریج از تعداد لایک‌ها کاسته شود.
ریاضیات پشت رگرسیون چند جمله‌ای
در اینجا معادله کلی رگرسیون چند جمله‌ای را مشاهده می‌کنید:
y=b0+b1x1+b2x12+b2x13+…bnx1n
در این معادله y متغیر وابسته، x متغیر مستقل و b0-bn پارامترهایی هستند که شما می‌توانید بهینه کنید.

ریاضیات رگرسیون چند جمله‌ای

از آنجایی که رگرسیون در پارامتر‌ها به صورت خطی است،  می‌توانید نمودار منحنی را با استفاده از همان روشی که برای رگرسیون خطی استفاده کردید با داده های خود مطابقت دهید. در حقیقت  به عنوان یک متخصص تیز بین در زمینه ریاضی و آمار احتمالا متوجه شده‌اید که این فقط یک مورد به خصوص از رگرسیون خطی چندگانه (multiple linear regression است.
دوباره به مثال کاهش وزن اشاره می‌کنیم.
در این مورد از رگرسیون خطی چندگانه، شما علاقه مند هستید که بدانید چگونه چندین متغیر مختلف بر کاهش وزن تاثیر می گذارند؛    مثلاساعت‌ های سپری شده در باشگاه، مقدار شکر مصرف شده در روز و … .اما در مدل رگرسیون چند جمله ای، شما می‌خواهید بدانید  چگونه چندین قدرت مختلف یک متغیر تاثیر گذار خواهد بود (x,x2,x3 که x مقدار مقدار شکر مصرف شده در طول روز است).
حتی اگر منحنی در حالت دوم خم شود، مشکل برآورد آماری در هر دو مورد یکسان است.

چرا در یادگیری ماشین به رگرسیون چند جمله ای نیاز داریم؟

رگرسیون چند جمله ای در بسیاری از موارد مفید است. از آنجا که رابطه بین متغیر های وابسته و مستقل نیازی به خطی بودن ندارد، شما آزادی بیشتری برای انتخاب dataset و موقعیت هایی که می‌توانید با آنها کار کنید دارید؛ بنابراین زمانی که رگرسیون خطی ساده مناسب داده های شما نباشد، این روش می‌تواند مورد استفاده قرار گیرد.
مزایای رگرسیون چند جمله ای
در ادامه مزایای رگرسیون چند جمله ای برای مدل بعدی شما در یادگیری ماشین آورده شده است:
●    شما می‌توانید روابط غیر خطی بین متغیرها را مدل کنید.
●    توابع زیادی برای فیلتر کردن داده شما وجود دارد.
●    برای اهداف اکتشافی بسیار مناسب است؛ بنابراین می‌توانید وجود انحنا و مقدار خمیدگی منحنی را تست کنید.
در مجموع ابزار قابل انعطافی است که می‌تواند برای مقادیر مختلفی از داده ها مناسب باشد.
معایب رگرسیون چند جمله ای
مانند رگرسیون خطی، رگرسیون چند جمله ای ابزار جهانی و جامعی نیست. از معایب آن میتوان به موارد زیر اشاره کرد:
●    حتی یک نقطه پرت یا داده outlier می‌تواند نتیجه را به به طور جدی خراب کند.
●    مدل های PR آماده تناسب بیش از حد هستند. اگر از پارامترها کافی استفاده کنید می‌توانید هر چیزی را در آن fit کنید.
●    با توجه به موارد گذشته، مدل های PR ممکن است در خارج از دیتا استفاده و بهره وری خوبی نداشته باشند .
رگرسیون چند جمله ای در کدام بخش یادگیری ماشین استفاده می‌شود؟
در ادامه چند مثال کاربردی از اینکه polynomial regression در کدام حوزه ها مورد استفاده قرار گرفته است می‌پردازیم.

پیش بینی میزان مرگ و میر

وقتی حادثه هایی مانند: بیماری اپیدمیک، آتش سوزی یا سونامی اتفاق می‌افتد، برآورد میزان زخمی ها و تعداد فوتی ها برای تیم های مدیریت بحران بسیار مهم و حیاتی است؛ زیرا مدیریت کردن در این شرایط کاری حساس، مهم و حیاتی است. کاهش عواقب این اتفاق ها ممکن است روزها و ماه ها طول بکشد. بنابراین تیم ها باید آمادگی کامل داشته باشند.
رگرسیون چند جمله ای به ما امکان ساخت مدل های انعطاف پذیر یادگیری ماشین را می‌دهد. این مدل ها با استفاده از آنالیز فاکتور های مختلف ، قابلیت تجزیه‌ و تحلیل و ارائه گزارش از میزان مرگ و میر را را می‌دهد.
به طور مثال، در بیماری همه گیری کرونا عوامل می‌تواند این باشد که آیا سابقه بیماری پیش زمینه ای داشته اید یا خیر؟ هر چند وقت یکبار در معرض گروهی از افراد قرار می‌گیرید؟ آیا به تجهیزات پزشکی دسترسی دارید یا خیر؟

پیش‌بینی نرخ رشد بافت

پیش‌بینی نرخ رشد بافت در موارد مختلفی استفاده می‌شود. رگرسیون چند جمله ای اغلب برای نظارت بر بیماران انکولوژی و تشخیص گسترش تومورهای آنها استفاده می‌شود. این نوع از رگرسیون به توسعه و ساختن مدلی که بتواند ویژگی غیر خطی را در نظر بگیرد کمک می‌کند.
همچنین پیش‌بینی نرخ رشد بافت برای تشخیص و نظارت رشد آنتوژنیک نیز استفاده می‌شود. به بیان دیگر، به پزشکان این امکان را می‌دهد که رشد ارگان ها را در رحم از مراحل اولیه بررسی کنند.

نرم افزار تنظیم سرعت

امروزه بسیاری از نرم افزار های تنظیم سرعت با استفاده از یادگیری ماشین و با هدف بهبود رفتار مردم و جلوگیری از رفتار های نادرست در رانندگی طراحی شده است. مدل های پیش بینی با کمک رگرسیون چند جمله ای به شما امکان جستجو برای رفتار های رانندگی را می‌دهند؛  به علاوه لزوم رعایت قوانین و اعلان آن حتی قبل از سبقت گرفتن از سرعت مجاز را ممکن می‌سازد.
جمع بندی
رگرسیون چند جمله ای ابزاری ساده و قدرتمندی برای پیش بینی و تحلیل است که به شما امکان در نظر گرفتن روابط غیر خطی بین متغیرها و رسیدن به نتیجه مطلوب را می‌دهد. این نوع رگرسیون می‌تواند به شما در پیش‌بینی میزان شیوع بیماری، محاسبه غرامت یا پیاده‌سازی یک نرم‌افزار مقررات پیشگیرانه برای حفظ ایمنی جاده کمک کند.

منبع : https://serokell.io/blog/polynomial-regression-analysis