본문 바로가기

TFDV3

MLops - 5.2 (TFDV) 5.1에 이어서 이번에는 '데이터 드리프트 및 스큐'에 대해서 정리하려고 한다. 데이터 검증 ( TFDV ) 데이터 검증 TFDV 스키마 추론과 스키마 환경 데이터 드리프트 및 스큐 데이터 드리프트 기본적으로 모델을 배포한 다음에는 갈수록 하락한다. 어떻게 인지할수 있을까? 들어오는 인풋값의 분포가 바뀔수 도 있다.예를들어서, 유저에 90%가 남성이었는데, 갑자기 여성이 많아지면서 성비가 5:5가 되었다. 이를 데이터 드리프트가 발생했다고 할 수 있다. 데이터들의 인풋값이 바뀐 것을 어떻게 측정을 할까? 데이터 드리프트 및 스큐 확인 TFDV는 드리프트 및 스큐를 감지하는 기능도 제공한다. 스키마에 지정된 드리프트 / 스큐 비교를 기반으로 여러 데이터 셋 통계를 비교하여 검사를 수행한다. 드리프트 드리프.. 2022. 2. 2.
MLops - 5.1 (TFDV) MLops-5 글에 이어서 이번에는 '스키마 추론과 스키마 환경'에 대해서 이어서 정리를 해보려고 한다. 데이터 검증 ( TFDV ) 데이터 검증 TFDV 스키마 추론과 스키마 환경 데이터 드리프트 및 스큐 스키마 추론 tfdv.infer_schema를 사용해서 데이터에 대한 스키마를 생성할 수 있다. csv에서 학습데이터에 대한 스키마를 뽑을 수 있다. 피쳐들이 자료형인지(int, float..) 알아서 정리를 해준다. 카테고리도 마찬가지로 정리가 된다. TFDV를 통해서 스키마에 대한 추론을 한 다음에, 스키마가 어떻게 구성되어 있는지를 하나의 스키마로 출력을 할 수 있다. schema = tfdv.infer_schema(statistics=train_stats) tfdv.display_schema(.. 2022. 2. 2.
MLOps - 5 (TFDV) 데이터 검증 ( TFDV ) 데이터 검증 TFDV 스키마 추론과 스키마 환경 데이터 드리프트 및 스큐 데이터 검증 TFDV 데이터 검증이 필요한 이유 머신러닝 시스템에서 데이터로 인한 장애는 파악하기 쉽지 않다. 데이터가 잘못 들어와도 예측은 정상적으로 수행되기 때문에 잘못된 예측값을 늦게서야 인지하는 경우가 많아서, 데이터를 사용하기 전에 미리 데이터가 정상적인지 확인하는 과정을 거쳐야한다. 'TFDV'에는 기술 통계보기, 스키마 추론, 이상 항목 확인 및 수정, 데이터 세트의 드리프트 및 왜곡확인이 포함된다. #Pip 업그레이드 try: import colab !pip install --upgrade pip except: pass #TensorFlow 설치 $ pip install tensorflow.. 2022. 1. 23.