R-squared এবং Adjusted R-squared কি ? এবং এদের পার্থক্য কি?

by 6:02 PM 0 comments



রিগ্রেশন এনালাইসিস এ R-squared এবং Adjusted R-squared
এর গুরুত্ব অপরিসীম। আজকে আমরা R-squared এবং Adjusted R-squared কি এবং এদের পার্থক্য কোথায় সেটা নিয়ে আলোচনা করবো। 


R-squared (R²) 
একটি মডেল এ সব গুলো ইন্ডেপেন্ডেন্ট ভ্যারিয়াবল দ্বারা ডিপেন্ডেন্ট ভ্যারিয়াবল এর কতটুকু variation প্রকাশিত হচ্ছে সেটা পরিমাপ করাই হচ্ছে  R-squared এর কাজ। এটাতে ধরে নেওয়া হয় যে  মডেল এর প্রত্যেকটি ইন্ডেপেন্ডেন্ট  ভ্যারিয়াবল ডেপেন্ডেন্ট ভ্যারিয়াবল এর variation এক্সপ্লাইন করে ।  মূলত একটা মডেল কত ভালভাবে ফিট হচ্ছে সেটা R-squared এর দ্বারা পরিমাপ করা হয়। R-squared মান যত বেশী হবে, মডেলটি তত ভালোভাবে  ফিট  হবে।
Mathematically, R² SSres + SSreg = SStot 
                       R² = Explained variation / Total Variation 





R-squared Equation
R-Squared 'coefficient of determination' নামেও পরিচিত . এটার মান 0 থেকে 1 পর্যন্ত .  
R-squared মান 1মানে হচ্ছে 
                                   ' the model explains all the variation of the target variable'. 
এবং  ০ মানে হচ্ছে  
                                  'zero predictive power of the model'. 
        
                                 Higher R-squared value, better the model.


"R-square is 0.8, it means 80% of the variation in the dependent variable is explained by the independent variables"

কিন্তু সমস্যা হল ভ্যারিয়াবল বাড়াতে থাকলে  R-squared এর মান কমে না বরং বাড়তে থাকে । এমন হতে পারে যে, একটা  মডেল এ  কিছু নতুন ভ্যারিয়াবল যুক্ত করা হল কিন্তু সে ভ্যারিয়াবল গুলো ডিপেন্ডেট ভ্যারিয়াবল এর variation এক্সপ্লাইন করে না । কিন্তু  তা সত্যেও R-squared এর মান কমে না বরং বাড়তে থাকে । এক্ষেত্রে "Higher R-squared value, better the model" কথাটি গ্রহণযোগ্যতা হারাবে ।  

Adjusted R-Squared
একটি মডেল এ শুধুমাত্র যেসব ইন্ডেপেন্ডেন্ট ভ্যারিয়াবল সত্যিকারার্থে  ডিপেন্ডেন্ট ভ্যারিয়াবল এর variation প্রকাশ করে তাদের ক্ষেত্রে কতটুকু variation প্রকাশিত সেটা পরিমাপ করাই হচ্ছে Adjusted R-squared এর কাজ।
Adjusted R-Squared Equation
 dft is the degrees of freedom n– 1 of the estimate of the population variance , and dfe is the degrees of freedom n – p – 1 of the estimate of the underlying population error variance.

উপরের Equation simplify করলে আমরা পাব -




Difference between R-square and Adjusted R-square
  1. Independent variable বাড়াতে থাকলে  R-squared এর মান কমে না বরং বাড়তে থাকে  এমন কি independent variable insignificant থাকলেও এটা কমে না. অন্যদিকে  Adjusted R-squared এর মান বাড়ে  শুধুমাত্র যদি  independent variable significant  হয় এবং dependent variable এর variation প্রকাশ করে। 
  2. R-Squared vs. Adjusted R-Squared
      adjusted r-squared is maximum when we included two variables. It declines when third variable is added. Whereas r-squared increases when we included third variable. It means third variable is insignificant to the model.
  3. R- squared কখনই negative হয় না, অন্যদিকে r-squared এর মান যখন 0 এর কাছাকাছি হয় তখন adjusted r-squared negative হয় 
  4. Adjusted r-squared value সবসময়ই r-squared value এর চেয়ে ছোট বা তার সমান হয়.



Which is better?
Adjusted R-square should be used to compare models with different numbers of independent variables. Adjusted R-square should be used while selecting important predictors (independent variables) for the regression model. 

Programming



R Script : Calculate R-Squared and Adjusted R-Squared

মনে কর, তুমার কাছে actual and predicted dependent variable এর values আছে । এখন আমরা নিচের Script এ এই values গুলোর sample বানাব - 
y = c(21, 21, 22.8, 21.4, 18.7, 18.1, 14.3, 24.4, 22.8, 19.2)
yhat = c(21.5, 21.14, 26.1, 20.2, 17.5, 19.7, 14.9, 22.5, 25.1, 18)
R.squared = 1 - sum((y-yhat)^2)/sum((y-mean(y))^2)
print(R.squared)
Final  : R-Squared = 0.6410828 
n = 10
p = 3
adj.r.squared = 1 - (1 - R.squared) * ((n - 1)/(n-p-1))
print(adj.r.squared)
In this case, adjusted r-squared value is 0.4616242 assuming we have 3 predictors and 10 observations.

Shawon Sikder
Dept. of Statistics
Bangabandhu Sheikh Mujibur Rahman Science & Technology University(BSMRSTU)

Shawon

Blogger,Developer, Programmer

0 comments:

Post a Comment