رگرسیون چند‌ جمله ای چیست؟ (تحلیل Polynomial Regression)

دسته بندی: هوش تجاری (BI)
9 دقیقه زمان مطالعه
1400/10/03
1 نظر

رگرسیون چند جمله ای یا Polynomial Regression یکی از الگوریتم‌های یادگیری ماشین است که برای پیشبینی استفاده می‌شود. به طور مثال از این رگرسیون به شکلی گسترده برای پیشبینی بیماری کووید ۱۹یا دیگر بیماری‌های واگیردار استفاده می‌شود. این مفهوم از مفاهیمی است که درک آن در حرفه‌هایی مثل هوش تجاری که با علم داده سر و کار دارند، بسیار کارآمد است.  اگر می‌خواهید با این موضوع بیشتر آشنا شوید با ما همراه باشید.

تجزیه و تحلیل رگرسیون یا Regression Analysis‌ چیست؟

تجزیه و تحلیل رگرسیون، یک ابزار آماری برای مطالعه همبستگی بین دو مجموعه رویداد یا بررسی آماری بین متغیر وابسته (Dependent Variable) و یک یا چند متغیر مستقل (Independent Variables) است. به طور مثال کاهش وزن شما (متغیر وابسته) به این بستگی دارد که چند ساعت در باشگاه ورزش کرده باشید (متغیر مستقل). انواع مختلفی از مدل‌های رگرسیون آماری وجود دارد.

رگرسیون خطی ساده (Simple Linear Regression)

این مدل از رگرسیون مشابه مثال بالا، به شما امکان تخمین همبستگی خطی بین دو متغیر را می‌دهد. معمولا وقتی شما زمان بیشتری را برای فعالیت‌های فیزیکی می‌گذارید، به مراتب وزن بیشتری از دست می‌دهید؛ با توجه به موارد گفته شده در اینجا همبستگی خطی وجود دارد.

رگرسیون خطی ساده

رگرسیون خطی چندگانه (Multiple Linear Regression)

رگرسیون خطی چندگانه به رگرسیون خطی ساده مربوط می‌شود؛ اما به جای نشان دادن همبستگی بین یک متغیر مستقل و یک متغیر وابسته، شما می‌توانید چندین متغیر مستقل را در نظر بگیرید. به طور مثال برای کاهش وزن، علاوه بر ساعت‌هایی که در باشگاه ورزش می‌کنید، می‌توانید میزان مصرف روزانه شکر و میزان کالری دریافتی را هم در نظر بگیرید.

رگرسیون چند جمله‌ای (Polynomial Regression)

رگرسیون چند جمله‌ای

از رگرسیون چند جمله‌ای زمانی استفاده می‌شود که هیچ همبستگی‌ای میان متغیرها وجود نداشته باشد؛ بنابراین به جای اینکه شبیه یک خط باشد، مانند یک تابع غیر خطی به نظر می‌رسد. در ادامه عمیق‌تر به این نوع رگرسیون می‌پردازیم.

رگرسیون چند جمله‌ای در یادگیری ماشین به چه معنی است؟

مانند بسیاری از موارد دیگر در یادگیری ماشین، مفهوم رگرسیون چند جمله‌ای از علم آمار سرچشمه می‌گیرد. متخصص‌های علم آمار زمانی از رگرسیون چند جمله‌ای برای تجزیه و تحلیل استفاده می‌کنند که رابطه غیر خطی بین متغیر x و میانگین شرطی متناظر برای میانگین y وجود نداشته باشد.
تصور کنید می‌خواهید پیش‌بینی کنید که پست جدید شما در رسانه‌های اجتماعی در هر شبکه به خصوص، چه تعداد لایک پس از انتشار دریافت می‌کند. در این مورد هیچ همبستگی خطی (Linear Correlation) بین تعداد لایک‌ها و زمانی که از انتشار پست گذشته وجود ندارد. پست شما ممکن است در ۲۴ ساعت اول لایک‌های زیادی دریافت کند، اما به تدریج از تعداد لایک‌ها کم شود.

ریاضیات پشت رگرسیون چند جمله‌ای

در اینجا معادله کلی رگرسیون چند جمله‌ای را مشاهده می‌کنید:

y=b0+b1x1+b2x12+b2x13+…bnx1n

در این معادله y متغیر وابسته، x متغیر مستقل و b0-bn پارامترهایی هستند که شما می‌توانید بهینه کنید.

ریاضیات رگرسیون چند جمله‌ای

از آنجایی که رگرسیون در پارامتر‌ها به صورت خطی است،  می‌توانید نمودار منحنی را با استفاده از همان روشی که برای رگرسیون خطی استفاده کردید با داده های خود مطابقت دهید. در حقیقت  به عنوان یک متخصص تیز بین در زمینه ریاضی و آمار احتمالا متوجه شده‌اید که این فقط یک مورد به خصوص از رگرسیون خطی چندگانه multiple linear regression است. دوباره به مثال کاهش وزن اشاره می‌کنیم.

در این مورد از رگرسیون خطی چندگانه، شما علاقه مند هستید که بدانید چگونه چندین متغیر مختلف بر کاهش وزن تاثیر می گذارند؛    مثلاساعت‌ های سپری شده در باشگاه، مقدار شکر مصرف شده در روز و مواردی از این دست. اما در مدل رگرسیون چند جمله ای، شما می‌خواهید بدانید چگونه چندین قدرت مختلف یک متغیر تاثیر گذار خواهد بود (x,x2,x3 که x مقدار مقدار شکر مصرف شده در طول روز است). حتی اگر منحنی در حالت دوم خم شود، مشکل برآورد آماری در هر دو مورد یکسان است.

چرا در یادگیری ماشین به رگرسیون چند جمله ای نیاز داریم؟

رگرسیون چند جمله ای در بسیاری از موارد مفید است. از آنجا که رابطه بین متغیر های وابسته و مستقل نیازی به خطی بودن ندارد، شما آزادی بیشتری برای انتخاب مجموعه داده و موقعیت هایی که می‌توانید با آنها کار کنید، دارید؛ بنابراین زمانی که رگرسیون خطی ساده مناسب داده های شما نباشد، این روش می‌تواند مورد استفاده قرار گیرد.

مزایای رگرسیون چند جمله ای

در ادامه مزایای رگرسیون چند جمله ای برای مدل بعدی شما در یادگیری ماشین آورده شده است.

  • شما می‌توانید روابط غیر خطی بین متغیرها را مدل کنید.
  • توابع زیادی برای فیلتر کردن داده شما وجود دارد.
  • برای اهداف اکتشافی بسیار مناسب است؛ بنابراین می‌توانید وجود انحنا و مقدار خمیدگی منحنی را تست کنید.

در مجموع ابزار قابل انعطافی است که می‌تواند برای مقادیر مختلفی از داده ها مناسب باشد.

معایب رگرسیون چند جمله ای

مانند رگرسیون خطی، رگرسیون چند جمله ای ابزار جهانی و جامعی نیست. از معایب آن می‌توان به موارد زیر اشاره کرد:

  • حتی یک نقطه پرت یا داده outlier می‌تواند نتیجه را به به طور جدی خراب کند.
  • مدل های PR آماده تناسب بیش از حد هستند. اگر از پارامترها کافی استفاده کنید می‌توانید هر چیزی را در آن fit کنید.
  •  با توجه به موارد گذشته، مدل های PR ممکن است در خارج از دیتا استفاده و بهره وری خوبی نداشته باشند.

رگرسیون چند جمله ای در کدام بخش یادگیری ماشین استفاده می‌شود؟

در ادامه چند مثال کاربردی از اینکه Polynomial Regression در کدام حوزه ها مورد استفاده قرار گرفته است می‌پردازیم.

پیش بینی میزان مرگ و میر

وقتی حادثه هایی مانند: بیماری اپیدمیک، آتش سوزی یا سونامی اتفاق می‌افتد، برآورد میزان زخمی ها و تعداد فوتی ها برای تیم های مدیریت بحران بسیار مهم و حیاتی است؛ زیرا مدیریت کردن در این شرایط کاری حساس، مهم و حیاتی است. کاهش عواقب این اتفاق ها ممکن است روزها و ماه ها طول بکشد. بنابراین تیم ها باید آمادگی کامل داشته باشند.

مطالعه بیشتر: بازار کار دیتا ماینینگ Data Mining در ایران

رگرسیون چند جمله ای به ما امکان ساخت مدل های انعطاف پذیر یادگیری ماشین را می‌دهد. این مدل ها با استفاده از آنالیز فاکتور های مختلف، قابلیت تجزیه‌ و تحلیل و ارائه گزارش از میزان مرگ و میر را را می‌دهد. به طور مثال، در بیماری همه گیری کرونا عوامل می‌تواند این باشد که آیا سابقه بیماری پیش زمینه ای داشته اید یا خیر؟ هر چند وقت یکبار در معرض گروهی از افراد قرار می‌گیرید؟ آیا به تجهیزات پزشکی دسترسی دارید یا خیر؟

پیش‌بینی نرخ رشد بافت

پیش‌بینی نرخ رشد بافت در موارد مختلفی استفاده می‌شود. رگرسیون چند جمله ای اغلب برای نظارت بر بیماران انکولوژی و تشخیص گسترش تومورهای آنها استفاده می‌شود. این نوع از رگرسیون به توسعه و ساختن مدلی که بتواند ویژگی غیر خطی را در نظر بگیرد کمک می‌کند.
همچنین پیش‌بینی نرخ رشد بافت برای تشخیص و نظارت رشد آنتوژنیک نیز استفاده می‌شود. به بیان دیگر، به پزشکان این امکان را می‌دهد که رشد ارگان ها را در رحم از مراحل اولیه بررسی کنند.

نرم افزار تنظیم سرعت

امروزه بسیاری از نرم افزار های تنظیم سرعت با استفاده از یادگیری ماشین و با هدف بهبود رفتار مردم و جلوگیری از رفتار های نادرست در رانندگی طراحی شده است. مدل های پیش بینی با کمک رگرسیون چند جمله ای به شما امکان جستجو برای رفتار های رانندگی را می‌دهند؛  به علاوه لزوم رعایت قوانین و اعلان آن حتی قبل از سبقت گرفتن از سرعت مجاز را ممکن می‌سازد.

تفاوت رگرسیون و همبستگی 

همبستگی و رگرسیون دو روش آماری هستند که برای تحلیل رابطه بین دو متغیر مورد استفاده قرار می گیرند. تفاوت اصلی بین همبستگی و رگرسیون این است که از همبستگی برای نشان دادن رابطه خطی بین دو متغیر استفاده می شود، در حالی که رگرسیون رابطه را در قالب یک معادله بیان می کند.

همبستگی یک آماره یا نقطه داده واحد است که قدرت رابطه خطی بین دو متغیر را اندازه می‌گیرد، در حالی که از رگرسیون عمدتاً برای ساخت مدل‌ها/معادلات برای پیش‌بینی پاسخ کلیدی (از مجموعه‌ای از متغیرهای پیش‌بینی‌کننده (X)) استفاده می‌شود. علاوه بر این، رگرسیون مشخص می‌کند که چگونه یک متغیر باعث تغییر متغیر دیگر می‌شود. از طرفی همبستگی علیت را نشان نمی دهد، در حالی که از رگرسیون می‌توان برای استنتاج علیت استفاده کرد.

از آن‌جایی که این مقاله در رابطه با رگرسیون است، در ادامه انواع مختلف رگرسیون را بررسی می‌کنیم و از همبستگی می‌گذریم. 

انواع رگرسیون

انواع مختلفی از تحلیل رگرسیون در یادگیری ماشین و علم داده استفاده می‌شود:

  • از جمله رگرسیون خطی (linear regression)
  • رگرسیون لجستیک (logistic regression)
  • رگرسیون ریج (ridge regression)، رگرسیون لاسو (lasso regression)
  • رگرسیون چند جمله‌ای (polynomial regression) 
  • رگرسیون خطی بیزی (Bayesian linear regression)
  • رگرسیون خطی ساده (simple linear regression)
  • رگرسیون خطی چندگانه (multiple linear regression) 

در میان این همه انواع رگرسیون، بسته به تعداد عوامل موجود، نوع مورد نظر برای استفاده انتخاب می‌شود. این عوامل شامل نوع متغیر هدف، شکل خط رگرسیون و تعداد متغیرهای مستقل است. در این مقاله از وبلاگ آسا، قصد داریم در مورد رگرسیون‌های خطی ساده، خطی چندگانه و چند جمله‌ای  صحبت کنیم. 

تحلیل رگرسیون چند متغیره 

رگرسیون چند متغیره (Multivariate regression)‌ تکنیکی است که برای اندازه‌گیری میزان ارتباط چند متغیر مستقل (پیش‌بینی‌کننده‌ها) و چند متغیر وابسته (خروجی‌ها) استفاده می‌شود.

این نوع رگرسیون از رگرسیون خطی بسط داده شده است که رابطه بین یک متغیر مستقل و یک متغیر وابسته را مدل می‌کند. 

مراحل انجام تحلیل رگرسیون چند متغیره شامل تعیین مدل، تخمین پارامترها، آزمایش مفروضات مدل و تفسیر نتایج است. مدل با تعریف متغیرهای پیش بینی کننده و متغیرهای نتیجه و همچنین هرگونه تعامل بین آن‌ها مشخص می‌شود. پارامترها هم با استفاده از روش‌های آماری مانند برآورد حداکثر درست‌نمایی یا برآورد حداقل مربع‌ها برآورد می‌شوند. نکته قابل توجه این است که مفروضات مدل باید برای اطمینان از معتبر بودن آنها قبل از تفسیر نتایج آزمایش شوند. پس از تکمیل این مراحل، می‌توانیم نتایج را بر حسب اینکه چگونه هر متغیر پیش‌بینی‌کننده بر هر متغیر نتیجه تأثیر می‌گذارد، تفسیر کنیم. 

جمع بندی

رگرسیون چند جمله ای ابزاری ساده و قدرتمندی برای پیش بینی و تحلیل است که به شما امکان در نظر گرفتن روابط غیر خطی بین متغیرها و رسیدن به نتیجه مطلوب را می‌دهد. این نوع رگرسیون می‌تواند به شما در پیش‌بینی میزان شیوع بیماری، محاسبه غرامت یا پیاده‌سازی یک نرم‌افزار مقررات پیشگیرانه برای حفظ ایمنی جاده کمک کند.

منبع مقاله

امتیاز شما به این مقاله:
نویسنده: عضو درون گرای تیم BI که اهل مطالعه و سفر است و از خلق ارزش لذت می‌برد.

مطالب مرتبط