코딩 및 기타

신경망 택시요금예측

정지홍 2023. 3. 6. 14:47

심층 전방향 신경망을 사용하여 뉴욕 택시 요금 예측한다.

 

key는 pickup_datetime과 같으니 이 열은 삭제해도 된다. fare_amount는 지불요금이며 예측할 목표이다. longitude및 latitude는 각각 위도 경도를 의미\


승차

위치 데이터를 시각화 하였다. 우선 승하차 위치를 뉴욕시 안으로만 한정하였으며 랜드마크에 집중되서 승하차 했을 수도 있으니 랜드마크 위치를 표시하게 나타내었다.

 


하차


요일별 택시 승차 횟수 분포이며 0은 월요일부터 6은 일요일이다.


시간별 승차 횟수 히스토그램


데이터 전처리를 위해서 결측치가 있는 지 확인학고 50만 행중에서 5개만 결측치를 가지고 있으니 이것들만 삭제

 


통계량중에 운임요금을 보면 최솟값에 음수가 있다.


히스토그램을 살펴보면 이상점이 많지는 않으니  삭제해도 될 거 같으며  50달러 주위가 갑자기 툭 높아지는 거를 볼수 있다. 일단은 0달러보다 작고 100달러보다 큰 것들을 제거해본다


승객수를 보면 0명인 데이터가 있으니 이 경우는 최빈값인 1을 사용하여 대체한다.


승하차 위치의 이상점이 있는지 본다. 표를 보면 혼자 멀리 떨어진 것들이 이상점이니 이 값들을 제거한다.


pickup_datetime을 신경망에 사용 할 수 있도록 다 나누어 주었다.


 

df=df.drop(['pickup_datetime'],axis=1)#픽업 데이트 타임 바이바이


데이터셋에는 운행거리 정보가 없으니 유클리드 거리를 이용하여 거리를 구한뒤에 운행거리와 요금사이의 관계를 살펴본다. 이것을 보면 40달러와 60달러 사이에 수직선이 3개 정도 보이며 이는 공항근처에서 승차한 기록이 있으니 공항사이를 오고 가는 정액 요금일 경우가 있다.