2021. 3. 25. 17:18ㆍ컴퓨터과학
www.youtube.com/watch?v=mLwMe4KUZz8
위 유튜브 설명을 토대로 실습을 진행하였습니다.
이 글은 각 과정을 분석하며 학습하는 목적으로 작성되었습니다.
1번 Cell) 라이브러리 가져오기
ㆍnumpy
- 수치 데이터를 다루는 파이썬 패키지. Numpy의 핵심이라고 불리는 다차원 행렬 자료구조인 ndarray를 통해 벡터 및 행렬을 사용하는 선형 대수 계산에서 주로 사용된다. 편의성, 속도면에서 순수 파이썬에 비해 압도적으로 앞선다는 장점이 있다.
- Numpy의 주요 모듈
1. np.array() # 리스트, 튜플, 배열로 부터 ndarray를 생성
2. np.asarray() # 기존의 array로 부터 ndarray를 생성
3. np.arange() # range와 비슷
4. np.linspace(start, end, num) # [start, end] 균일한 간격으로 num개 생성
5. np.logspace(start, end, num) # [start, end] log scale 간격으로 num개 생성
ㆍpandas
- 파이썬 데이터 처리를 위한 라이브러리. 파이썬을 이용한 데이터 분석과 같은 작업에서 필수 라이브러리로 알려져있다.
- 총 세가지의 데이터 구조를 사용한다 : 시리즈, 데이터프레임, 패널
ㆍjson
- JavaScript Object Notation의 약자로서 JavaScript 문법에 영향을 받아 개발된 Lightweight한 데이타 표현 방식이다.
- 웹 브라우져와 웹서버 사이에 데이타를 교환하는데 많이 사용되고 있는 데이터 교환 포맷이다. Python에서 JSON라이브러리를 사용하면, Python파입의 Object를 JSON문자열로 변경할 수 있으며(인코딩) 또한 JSON문자열을 다시 Python타입으로 변환할 수 있다.(디코딩)
참고
예제로 배우는 파이썬 프로그래밍 - JSON 데이타 (pythonstudy.xyz)
4) 판다스(Pandas) and 넘파이(Numpy) and 맷플롭립(Matplotlib) - 딥 러닝을 이용한 자연어 처리 입문 (wikidocs.net)
2번 Cell) 내 컴퓨터에서 영화 데이터셋 불러오기
ㆍ유저들이 영화에 매긴 평점 데이터셋을 다운로드
- www.kaggle.com/rounakbanik/the-movies-dataset
ㆍ다운받은 .csv파일 경로를 통해 import
ㆍ low_memory=False
- low_memory옵션은 대용량의 데이터를 불러오는 경우 각 칼럼의 데이터 타입(dtype)을 추측하는 것이 매우 많은 메모리를 사용하기 때문에 대용량의 데이터를 불러올때 메모리 에러가 발생하는 경우 이를 False로 설정할 것을 권장한다.
ㆍmeta.head()
- pandas에서 데이터를 확인하는 방법이다.
- DataFrame 내의 처음 5줄의 데이터를 출력한다.
참고
wikidocs.net/46751
데이터의 확인(head, tail, print함수 사용) - pandas(6) :: EG공간 (tistory.com)
'컴퓨터과학' 카테고리의 다른 글
[JAVA개념공부]is-a관계 (상속관계의 객체화) (0) | 2021.05.25 |
---|---|
[JAVA개념공부]메소드 오버로딩, 접근 지정자 (0) | 2021.05.24 |
[영화 추천 인공지능 만들기] (4) 평가 Matrix 만들기, 입력한 영화와 비슷한 영화 추천하기 (0) | 2021.03.25 |
[영화 추천 인공지능 만들기] (2) Jupyter Notebook으로 환경 조성. (0) | 2021.03.24 |
[영화 추천 인공지능 만들기] (1) 피어슨 상관 계수에 대한 이해 (Pearson Correlation Coefficient) (0) | 2021.03.24 |