[영화 추천 인공지능 만들기] (1) 피어슨 상관 계수에 대한 이해 (Pearson Correlation Coefficient)

2021. 3. 24. 18:15컴퓨터과학

반응형

파이썬 인공지능 실습을 진행중이다.

이에 선행되어야 할 피어슨 상관 관계에 대한 개념 이해를 위해

짚고 넘어가기로 한다.

 

 

 

 


 

 

 

 

 

[개념]

ㆍ피어슨 상관 계수란?

- 두 변수의 상관관계를 의미하는 수치

- 0을 기준으로 +1은 완벽한 양의 상관 관계, -1은 완벽한 음의 상관 관계를 의미.

 

변수 X와 Y의 'Pearson Correlation Coefficient' 식

- X, Y는 각 각 벡터

- 'Xi'는 해당 벡터의 각 항목 값

- 'X_'는 해당 벡터의 표본 평균 값

 

위 식을 풀어 쓴다면

1. 각 벡터에서 해당 값을 Normalization 한다. = 각 벡터의 각 원소 값에서 평균 값을 빼준다.

2. X벡터와 Y벡터에서 Normalization된 값들 끼리 Cosine Similarity를 계산한다. ('Pearson Correlation값 = Cosine Similarity값'으로 이해할 수 있음.)

 

 

 

 

 


 

 

 

 

 

 

[적용 방식 in 영화 추천 알고리즘]

User-User간의 관계, 혹은 Item-Item간의 관계에서 Pearson Correlation값을 구해 사용할 수 있다.아래 예시는 User(영화를 보고 평가를 내린 사람)와 Item(영화)중에 Item간의 관계를 다룬다. 그리고 가장 비슷한 Item을 추천해주는것이 목적이다.

 

아래 그림에서 Rating값은 User가 Item(영화)에 대해 내린 평가 값이다. (0~5점으로 주어지는 영화평점)

 

 

아래 세 사진은 영화 평점 테이블에서 'Pearson Correlation Coefficient'식의 분자를 구하는 예시.

 

 

[Table1] 영화1, 영화2의 각 Rating값 Table _출처 글 하단
[Table2] 'Table1'각 행 값 - 'Table1'평균값 _출처 글 하단
[Table3] 'Table2' 각 열 값을 곱한다. 그리고 그 값의 합을 구한다. (0.75) _출처 글 하단

 

 

 

 

 

 

 

 

-참고 출처-

유튜브 / www.youtube.com/watch?v=mLwMe4KUZz8

엄범선생님의 블로그 / umbum.dev/1006

반응형