정지홍 2023. 1. 4. 09:14

이 챕터는 데이터분석을 하기전에 알아야할 내용을 담고 있는 챕터이다.


데이터과학은 우리가 가진 데이터로 필요한 것들만 골라서 이것을 우리에게 유용하게 활용하는 것이다.

우리가 가진 데이터들은 크게 3가지로 나뉜다.

  • 정형데이터---> 고정된 구조 안에서 있는 데이터들 ex)도서관 책 데이터,자동차 자판 데이터
  • 비정형데이터--->고정되지 않고 불규칙한 데이터들 ex)자연어,이미지,동영상
  • 반정형데이터--->고정된 구조안에 저장되어 있지않은 정형데이터 ex)코드

 

데이터들은 또한 관측한 시간에 따라서 다르게 나뉜다.

  • 시계열데이터--->시간에 따라 관측한 데이터들
  • 횡단면데이터--->같이 시간에 서로 다른 대상을 관측한것
  • 패널데이터--->횡단면데이터를 시간에 따라 나열한것

 

모집단에서 표본 추출시 무작위로 추출해야함

 

척도에 따른 변수의 유형

  • 범주형 변수
  • 질적변수
  • 수치형변수
  • 양적변수

오차의 종류

  • 분산:데이터들이 얼마나 퍼져있는지
  • 편향:데이터들이 어느 한쪽으로 치우쳐져 있는지
  • 축소불가능오차:줄일 수 없는 오차