Chapter 6 Simple Linear Regression (W5-1)

6.1 What is a Regression?

  • 회귀분석(Regression)이란? 위키피디아
    • 변수와 변수와의 관계를 봐서 값을 예측하는 통계방법 (원인과 결과)
    • A –> B (A가 B에 영향을 끼치는 것)
    • y = ax + b
      • 독립변수(Independent variable): x이며 y 값에 영향을 주는 변수
      • 종속변수(Dependent variable): y이며 분석대상이 되는 변수
  • 회귀분석의 목적
    • 예측(Prediction): 답이 없어서 과거 데이터로 맞춘다 (날씨, Uncertain event) [참조]
    • 추론 (Inference): 이미 알고 있는 것으로부터 논리적 결론을 도출하는 행위 또는 과정 [참조]
  • 회귀분석의 종류
    • 단순회귀분석: 종속변수 1개, 독립변수도 1개
    • 다중회귀분석: 종속변수 1개, 독립변수는 2개 이상
  • 단순회귀분석이 해석이 쉽고 명확하지만 종속변수를 1개의 독립변수로 설명하기 어렵다는 한계를 가짐

6.2 Simple Linear Regression

  • 단순선형회귀(Simple Linear Regression)란?
    • In statistics, simple linear regression is a linear regression model with a single explanatory variable.That is, it concerns two-dimensional sample points with one independent variable and one dependent variable and finds a linear function… [위키피디아(영어)]
  • 사용할 함수
    • lm(formula,data)
    • lm은 선형모델 (linear model)의 약자
  • 데이터
    • 키: 151, 174, 138, 186, 128, 136, 179, 163, 152, 131
    • 몸무게: 63, 81, 56, 91, 47, 57, 76, 72, 62, 48
  • 단순선형회귀 공식
    • y = ax + b
    • 몸무게 = a(키) + b
    • x, y는 어떻게 선택하는가?
      • 알려고 하는 것이 y이다
      • 우리는 몸무게를 알고 싶다
      • (예. 키가 175이면 몸무게가 몇일가?)

6.3 예제

키와 몸무게의 관계를 보기 위해 회귀분석을 해보자

  • x(키)와 y(몸무게)에 데이터를 넣고
  • abline(): 직선그리기
  • plot을 사용하여 그래프를 그린다
x <- c(151, 174, 138, 186, 128, 136, 179, 163, 152, 131)  # 키입력
y <- c(63, 81, 56, 91, 47, 57, 76, 72, 62, 48)  # 몸무게 입력

# lm() 함수적용
myLM <- lm(y ~ x)  # myLM에 함수를 적용한 것을 저장 
summary(myLM)  # 결과 출력
## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.3002 -1.6629  0.0412  1.8944  3.9775 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -38.45509    8.04901  -4.778  0.00139 ** 
## x             0.67461    0.05191  12.997 1.16e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.253 on 8 degrees of freedom
## Multiple R-squared:  0.9548, Adjusted R-squared:  0.9491 
## F-statistic: 168.9 on 1 and 8 DF,  p-value: 1.164e-06
  • P-value (유의확률)이 0.00 미만으로 나타나 키가 몸무게에 유의미한 영향을 미치는 것으로 판단이 됨
    • P-value는 낮을 수록 좋고, 별이 한개(0.01 미만)라도 있어야 유의하다는 것임.
    • 결과출력이 알아서 별을 붙이므로, 별이 한개면 P-value가 0.01 미만이므로, 별이 2개면 P-value가 0.001 미만이므로 x가 y에 유의미한 영향을 미치는 것으로 판단이 된다는 식으로 설명하면 됨
    • 별이 없다면 x가 y에 유의미한 영향을 미치는 것이 않는다고 해석하면 됨
  • 키가 1cm 커짐에 따라 몸무게가 0.67461kg 늘어남

회귀직선 그리기

plot(x, y, ylab = "Weight", xlab = "Height")  # 그래프 그리기, 라벨 추가
abline(myLM)  # 위에서 그린 plot에 직선그리기

  • 잔차 표준오차(Residual standard error)
    • 잔차 표준오차 : 3.253
    • 잔차란? y값과 추정된 y값과의 차이
    • 즉 이 모형으로 키로부터 몸무게를 예측했을 때 평균 3.23kg의 오차가 생긴다는 의미
Data Structure

Figure 6.1: Data Structure

  • R-Square(결정계수): 모델의 설명력 –> 설명력이 높다 낮다의 의미
    • 0에 가까우면 독립변수는 종속변수를 잘 예측할 수 없다는 의미
    • 1에 가까우면 독립변수는 종속변수를 잘 예측할 수 있다는 의미 (1이면 오차없이 예측가능하다)
    • 0.9548 –> 독립변수가(키, x)가 종속변수(몸무게, y)의 설명을 95.48% 할 수 있다
  • Coefficients
    • Intercept: 절편
      • x 값이 0일 경우의 y값
      • -38.45509 (키가 0이면 몸무게는 -38.45509이다, 키가 0일수는 없지만 분석결과처럼 선을 그리면 그렇다는 의미)
    • 기울기: 0.67461
  • y=0.6741x - 38.45509
  • p-value
    • 일반적으로 0.5보다 작으면 유의하다 (학문의 분야나 방법론에 따라 0.1, 0.01, 0.001 등을 사용하기도 함)
    • ’키는 몸무게에 영향을 준다’라고 주장했는데, 이것이 아닐 확률

모델에 따르면 키가 174 이면 몸무게가 몇일까?

y <- 0.6741 * 174 - 38.45509
y
## [1] 78.83831