এর গুরুত্ব অপরিসীম। আজকে আমরা R-squared এবং Adjusted R-squared কি এবং এদের পার্থক্য কোথায় সেটা নিয়ে আলোচনা করবো।
R-squared (R²)
একটি মডেল এ সব গুলো ইন্ডেপেন্ডেন্ট ভ্যারিয়াবল দ্বারা ডিপেন্ডেন্ট ভ্যারিয়াবল এর কতটুকু variation প্রকাশিত হচ্ছে সেটা পরিমাপ করাই হচ্ছে R-squared এর কাজ। এটাতে ধরে নেওয়া হয় যে মডেল এর প্রত্যেকটি ইন্ডেপেন্ডেন্ট ভ্যারিয়াবল ডেপেন্ডেন্ট ভ্যারিয়াবল এর variation এক্সপ্লাইন করে । মূলত একটা মডেল কত ভালভাবে ফিট হচ্ছে সেটা R-squared এর দ্বারা পরিমাপ করা হয়। R-squared মান যত বেশী হবে, মডেলটি তত ভালোভাবে ফিট হবে।
Mathematically, R² = SSres + SSreg = SStot
R² = Explained variation / Total Variation
R-squared Equation |
R-squared মান 1মানে হচ্ছে
' the model explains all the variation of the target variable'.
এবং ০ মানে হচ্ছে
'zero predictive power of the model'.
Higher R-squared value, better the model.
"R-square is 0.8, it means 80% of the variation in the dependent variable is explained by the independent variables"
কিন্তু সমস্যা হল ভ্যারিয়াবল বাড়াতে থাকলে R-squared এর মান কমে না বরং বাড়তে থাকে । এমন হতে পারে যে, একটা মডেল এ কিছু নতুন ভ্যারিয়াবল যুক্ত করা হল কিন্তু সে ভ্যারিয়াবল গুলো ডিপেন্ডেট ভ্যারিয়াবল এর variation এক্সপ্লাইন করে না । কিন্তু তা সত্যেও R-squared এর মান কমে না বরং বাড়তে থাকে । এক্ষেত্রে "Higher R-squared value, better the model" কথাটি গ্রহণযোগ্যতা হারাবে ।
Adjusted R-Squared
একটি মডেল এ শুধুমাত্র যেসব ইন্ডেপেন্ডেন্ট ভ্যারিয়াবল সত্যিকারার্থে ডিপেন্ডেন্ট ভ্যারিয়াবল এর variation প্রকাশ করে তাদের ক্ষেত্রে কতটুকু variation প্রকাশিত সেটা পরিমাপ করাই হচ্ছে Adjusted R-squared এর কাজ।উপরের Equation simplify করলে আমরা পাব -
Difference between R-square and Adjusted R-square
Which is better?
R Script : Calculate R-Squared and Adjusted R-Squared
মনে কর, তুমার কাছে actual and predicted dependent variable এর values আছে । এখন আমরা নিচের Script এ এই values গুলোর sample বানাব -
- Independent variable বাড়াতে থাকলে R-squared এর মান কমে না বরং বাড়তে থাকে এমন কি independent variable insignificant থাকলেও এটা কমে না. অন্যদিকে Adjusted R-squared এর মান বাড়ে শুধুমাত্র যদি independent variable significant হয় এবং dependent variable এর variation প্রকাশ করে।
- R- squared কখনই negative হয় না, অন্যদিকে r-squared এর মান যখন 0 এর কাছাকাছি হয় তখন adjusted r-squared negative হয়
- Adjusted r-squared value সবসময়ই r-squared value এর চেয়ে ছোট বা তার সমান হয়.
Which is better?
Adjusted R-square should be used to compare models with different numbers of independent variables. Adjusted R-square should be used while selecting important predictors (independent variables) for the regression model.
R Script : Calculate R-Squared and Adjusted R-Squared
মনে কর, তুমার কাছে actual and predicted dependent variable এর values আছে । এখন আমরা নিচের Script এ এই values গুলোর sample বানাব -
y = c(21, 21, 22.8, 21.4, 18.7, 18.1, 14.3, 24.4, 22.8, 19.2)Final : R-Squared = 0.6410828
yhat = c(21.5, 21.14, 26.1, 20.2, 17.5, 19.7, 14.9, 22.5, 25.1, 18)
R.squared = 1 - sum((y-yhat)^2)/sum((y-mean(y))^2)
print(R.squared)
n = 10In this case, adjusted r-squared value is 0.4616242 assuming we have 3 predictors and 10 observations.
p = 3
adj.r.squared = 1 - (1 - R.squared) * ((n - 1)/(n-p-1))
print(adj.r.squared)
Dept. of Statistics
Bangabandhu Sheikh Mujibur Rahman Science & Technology University(BSMRSTU)
0 comments:
Post a Comment