코린이의 공부일기

[Boost Camp]1WEEK. 4Days-1 확률론의 기초 본문

BOOST CAMP_정리

[Boost Camp]1WEEK. 4Days-1 확률론의 기초

SOJUNG 2021. 8. 8. 22:28

부스트코스에서 제공하는 AI Tech 6강부터 ~ 8강까지의 요약본입니다.

 

1. 딥러닝에서 확률론이 왜 필요한가?

  • 딥러닝은 확률론 기반의 기계학습 이론에 바탕을 두고 있다.
  • 기계학습에서 사용되는 손실함수들의 작동원리는 데이터 공간을 통계적으로 해석해 유도한다.
  • 회귀 분석에서 손실함수로 사용되는 L2-Norm은 예측오차의 분산을 가장 최소화하는 방향으로 학습하도록 유도한다.
  • 분류 문제에서 사용되는 cross-entropy는 모델 예측의 불확실성을 최소화하는 방향으로 학습하도록 유도한다.
  • 확률변수는 확률분포 D에 따라 이산형과 연속형 확률변수로 구분하게 됩니다.

 

2. 조건부 확률

  • P(y|x)는 입력변수 x에 대해 정답이 y일 확률을 나타낸다
  • 로지스틱 회귀에서 사용했던 선형모델과 소프트맥스 함수의 결합은 데이터에서 추출된 패턴을 기반으로 확률을 해석하는데 사용된다.
  • 분류문제에서 softmax(W∅+b)은 데이터 x로부터 추출된 특징패턴 ∅(x)과 가중치행렬 W을 통해 조건부확률 P(y|x)을 계산합니다.- 주어진 데이터 x에 대해서 결과 y에 대한 확률 값 을 의미
  • 회귀 문제의 경우 조건부기대값 E[y|x]을 추정한다.

*회귀문제에서 조건부기대값을 사용하는 이유는 L2-norm을 최소화하는 것을 목적으로 갖고 있기 때문이다.

 

3. 기대값

  • 확률분포가 주어지면 데이터를 분석하는데 사용 가능한 여러종류의 통계적 범함수를 계산할 수 있다.
  • 기대값은 데이터를 대표하는 통계량이며 동시에 확률분포를 통해 다른 통계적 범함수를 계산하는데 사용된다.

-기대값을 이용해 분산, 첨도, 공분산 등 여러 통계량을 계산할 수 있다.

4. 몬테카를로 샘플링

  • 기계학습의 많은 문제들은 확률분포를 명시적으로 모를때가 대부분이기에 데이터를 이용하여 기대값을 계산하려면 몬테카를로 샘플링 방법을 사용해야한다.

*몬테카를로는 이산형이든 연속형이든 상관없이 성립

5. 모수

  • 통계적 모델링은 적절한 가정위에 확률분포를 추정하는 것이 목표이다 이것은 기계학습과 통계학이 공통적으로 추구하는 목표이다.
  • 데이터가 특정 확률분포를 따른다고 선험적으로 가정한 후 그 분포를 결정하는 모수(parameter)을 추정하는 방법을 모수적(parametric)방법론이라 한다.
  • 특정 확률분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀐다면 비모수(nonparametric)방법론이라 한다.

6. 모수의 추정

  • 데이터의 확률분포를 가정했다면 정규분포의 모수는 평균과 분산으로 이를 추정하는 통계량은 다음과 같다.

  • 통계량의 확률분포를 표집분포(sampling distribution)이라 부른다.

7. 딥러닝에서의 최대가능도 추정법

  • 최대가능도 추정법을 이용하여 기계학습 모델을 학습할 수 있다.
  • 딥러닝의 모델의 가중치 θ들을 분류문제에서 소프트맥스 벡터는 카테고리분포의 모수들을 모델링한다.
  • 원핫벡터(one-hot vector)로 표현한 정답레이블들을 관찰데이터로 이용하여 확률분포인 소프트맥스 벡터의 로그가능도를 최적화할 수 있다.

8. 조건부 확률

  • 베이즈 정리는 조건부확률을 이용해 정보를 갱신하는 방법을 알려줌

9. 베이즈 정리를 통한 정보의 개신

  • 베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 이용하여 갱신된 사후확률을 계산할 수 있다.

10. 조건부 확률 -> 인과관계?

  •  조건부 확률을 유용한 통계적 해석을 제공하지만 인과관계(causality)을 추론할 때 함부로 사용해선 안된다.
  • 인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요하다.
  • 인과관계를 알아내기 위해서는 중첩요인(confunding factor)의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야 한다.

 

 

Comments