코딩 및 기타

RMSE , MAE , describe() , value_counts() , 데이터 섞고 나누는 함수

정지홍 2024. 10. 13. 11:29
  • RMSE 평균 제곱근 오차 root mean square error
    • 오차가 커질수록 이 값은 더욱 커짐 ==> 예측에 얼마나 오차가 있는지 가늠

  • MAE 평균 절대 오차 mean absolute error
    • 이상치로 보이는 구역이 많을시 RMSE보다 MAE를 사용을 고려
    • MAE , RMSE 둘 다 예측값과 목표값의 벡터 사이의 거리를 측정하는 방법

  • 벡터 사이의 거리 측정 방법 ( 노름 , norm )
    • 노름의 지수가 클수록 큰 값의 원소에 치우침. 즉, 작은 값은 무시될수도 있음.
    • 그래서 RMSE가 MAE보다 이상치에 민감
    • 유클리드 노름
      • RMSE에서 사용
      • 즉, 제곱항을 합한 것의 제곱근 계산
    • 맨해튼 노름
      • 절댓값의 합을 계산하는것

 


data 프레임에 대한 기술 통계량을 보여줌

 

특정 열에 대한 value값을 카운트 해준다.


# 데이터 섞고 나누는 함수
# 입력 인자는 데이터 및 테스트 데이터 비율
# 반환은 데이터 프레임 및 인덱스 

import numpy as np
def suffle_split( data , test_ratio ):
    suffle_indices = np.random.permutation( len ( data ) )  
    test_size = int( len(data) * test_ratio )
    test = suffle_indices[ : test_size ]
    train = suffle_indices[ test_size : ]
    print(f'test size if {test_size} ' )
    print( train)
    print(test)
    
    return data.iloc[ train ] , data.iloc[ test ] , train , test