[영화 추천 인공지능 만들기] (3) 데이터 불러오기

2021. 3. 25. 17:18컴퓨터과학

반응형

www.youtube.com/watch?v=mLwMe4KUZz8

위 유튜브 설명을 토대로 실습을 진행하였습니다.

 

이 글은 각 과정을 분석하며 학습하는 목적으로 작성되었습니다.

 

 

 


1번 Cell) 라이브러리 가져오기

1번 Cell : 라이브러리 가져오기

ㆍnumpy

- 수치 데이터를 다루는 파이썬 패키지. Numpy의 핵심이라고 불리는 다차원 행렬 자료구조인 ndarray를 통해 벡터 및 행렬을 사용하는 선형 대수 계산에서 주로 사용된다. 편의성, 속도면에서 순수 파이썬에 비해 압도적으로 앞선다는 장점이 있다.

- Numpy의 주요 모듈
  1. np.array() # 리스트, 튜플, 배열로 부터 ndarray를 생성 
  2. np.asarray() # 기존의 array로 부터 ndarray를 생성
  3. np.arange() # range와 비슷
  4. np.linspace(start, end, num) # [start, end] 균일한 간격으로 num개 생성     
  5. np.logspace(start, end, num) # [start, end] log scale 간격으로 num개 생성

 

ㆍpandas

- 파이썬 데이터 처리를 위한 라이브러리. 파이썬을 이용한 데이터 분석과 같은 작업에서 필수 라이브러리로 알려져있다. 

- 총 세가지의 데이터 구조를 사용한다 : 시리즈, 데이터프레임, 패널

 

ㆍjson

- JavaScript Object Notation의 약자로서 JavaScript 문법에 영향을 받아 개발된 Lightweight한 데이타 표현 방식이다.

- 웹 브라우져와 웹서버 사이에 데이타를 교환하는데 많이 사용되고 있는 데이터 교환 포맷이다. Python에서 JSON라이브러리를 사용하면, Python파입의 Object를 JSON문자열로 변경할 수 있으며(인코딩) 또한 JSON문자열을 다시 Python타입으로 변환할 수 있다.(디코딩)

 

 

참고
예제로 배우는 파이썬 프로그래밍 - JSON 데이타 (pythonstudy.xyz)
4) 판다스(Pandas) and 넘파이(Numpy) and 맷플롭립(Matplotlib) - 딥 러닝을 이용한 자연어 처리 입문 (wikidocs.net)

 

 

 

 

 

2번 Cell) 내 컴퓨터에서 영화 데이터셋 불러오기

2번 Cell) 내 컴퓨터에서 영화 데이터셋 불러오기

 

ㆍ유저들이 영화에 매긴 평점 데이터셋을 다운로드

- www.kaggle.com/rounakbanik/the-movies-dataset

 

ㆍ다운받은 .csv파일 경로를 통해 import

 

low_memory=False

-  low_memory옵션은 대용량의 데이터를 불러오는 경우 각 칼럼의 데이터 타입(dtype)을 추측하는 것이 매우 많은 메모리를 사용하기 때문에 대용량의 데이터를 불러올때 메모리 에러가 발생하는 경우 이를 False로 설정할 것을 권장한다.

 

ㆍmeta.head()

-  pandas에서 데이터를 확인하는 방법이다.

- DataFrame 내의 처음 5줄의 데이터를 출력한다. 

 

참고
wikidocs.net/46751
데이터의 확인(head, tail, print함수 사용) - pandas(6) :: EG공간 (tistory.com)

 

반응형