책/파이썬 데이터과학통계학습(23.01.03-23.01.09)(정보문화사)
Part01 데이터 과학을 위한 체계
정지홍
2023. 1. 4. 09:14
이 챕터는 데이터분석을 하기전에 알아야할 내용을 담고 있는 챕터이다.
데이터과학은 우리가 가진 데이터로 필요한 것들만 골라서 이것을 우리에게 유용하게 활용하는 것이다.
우리가 가진 데이터들은 크게 3가지로 나뉜다.
- 정형데이터---> 고정된 구조 안에서 있는 데이터들 ex)도서관 책 데이터,자동차 자판 데이터
- 비정형데이터--->고정되지 않고 불규칙한 데이터들 ex)자연어,이미지,동영상
- 반정형데이터--->고정된 구조안에 저장되어 있지않은 정형데이터 ex)코드
데이터들은 또한 관측한 시간에 따라서 다르게 나뉜다.
- 시계열데이터--->시간에 따라 관측한 데이터들
- 횡단면데이터--->같이 시간에 서로 다른 대상을 관측한것
- 패널데이터--->횡단면데이터를 시간에 따라 나열한것
모집단에서 표본 추출시 무작위로 추출해야함
척도에 따른 변수의 유형
- 범주형 변수
- 질적변수
- 수치형변수
- 양적변수
오차의 종류
- 분산:데이터들이 얼마나 퍼져있는지
- 편향:데이터들이 어느 한쪽으로 치우쳐져 있는지
- 축소불가능오차:줄일 수 없는 오차