RMSE , MAE , describe() , value_counts() , 데이터 섞고 나누는 함수
정지홍2024. 10. 13. 11:29
RMSE 평균 제곱근 오차 root mean square error
오차가 커질수록 이 값은 더욱 커짐 ==> 예측에 얼마나 오차가 있는지 가늠
MAE 평균 절대 오차 mean absolute error
이상치로 보이는 구역이 많을시 RMSE보다 MAE를 사용을 고려
MAE , RMSE 둘 다 예측값과 목표값의 벡터 사이의 거리를 측정하는 방법
벡터 사이의 거리 측정 방법 ( 노름 , norm )
노름의 지수가 클수록 큰 값의 원소에 치우침. 즉, 작은 값은 무시될수도 있음.
그래서 RMSE가 MAE보다 이상치에 민감
유클리드 노름
RMSE에서 사용
즉, 제곱항을 합한 것의 제곱근 계산
맨해튼 노름
절댓값의 합을 계산하는것
data 프레임에 대한 기술 통계량을 보여줌
특정 열에 대한 value값을 카운트 해준다.
# 데이터 섞고 나누는 함수
# 입력 인자는 데이터 및 테스트 데이터 비율
# 반환은 데이터 프레임 및 인덱스
import numpy as np
def suffle_split( data , test_ratio ):
suffle_indices = np.random.permutation( len ( data ) )
test_size = int( len(data) * test_ratio )
test = suffle_indices[ : test_size ]
train = suffle_indices[ test_size : ]
print(f'test size if {test_size} ' )
print( train)
print(test)
return data.iloc[ train ] , data.iloc[ test ] , train , test