본문 바로가기

schema2

MLops - 5.2 (TFDV) 5.1에 이어서 이번에는 '데이터 드리프트 및 스큐'에 대해서 정리하려고 한다. 데이터 검증 ( TFDV ) 데이터 검증 TFDV 스키마 추론과 스키마 환경 데이터 드리프트 및 스큐 데이터 드리프트 기본적으로 모델을 배포한 다음에는 갈수록 하락한다. 어떻게 인지할수 있을까? 들어오는 인풋값의 분포가 바뀔수 도 있다.예를들어서, 유저에 90%가 남성이었는데, 갑자기 여성이 많아지면서 성비가 5:5가 되었다. 이를 데이터 드리프트가 발생했다고 할 수 있다. 데이터들의 인풋값이 바뀐 것을 어떻게 측정을 할까? 데이터 드리프트 및 스큐 확인 TFDV는 드리프트 및 스큐를 감지하는 기능도 제공한다. 스키마에 지정된 드리프트 / 스큐 비교를 기반으로 여러 데이터 셋 통계를 비교하여 검사를 수행한다. 드리프트 드리프.. 2022. 2. 2.
MLops - 5.1 (TFDV) MLops-5 글에 이어서 이번에는 '스키마 추론과 스키마 환경'에 대해서 이어서 정리를 해보려고 한다. 데이터 검증 ( TFDV ) 데이터 검증 TFDV 스키마 추론과 스키마 환경 데이터 드리프트 및 스큐 스키마 추론 tfdv.infer_schema를 사용해서 데이터에 대한 스키마를 생성할 수 있다. csv에서 학습데이터에 대한 스키마를 뽑을 수 있다. 피쳐들이 자료형인지(int, float..) 알아서 정리를 해준다. 카테고리도 마찬가지로 정리가 된다. TFDV를 통해서 스키마에 대한 추론을 한 다음에, 스키마가 어떻게 구성되어 있는지를 하나의 스키마로 출력을 할 수 있다. schema = tfdv.infer_schema(statistics=train_stats) tfdv.display_schema(.. 2022. 2. 2.