mlops8 MLOps - 5 (TFDV) 데이터 검증 ( TFDV ) 데이터 검증 TFDV 스키마 추론과 스키마 환경 데이터 드리프트 및 스큐 데이터 검증 TFDV 데이터 검증이 필요한 이유 머신러닝 시스템에서 데이터로 인한 장애는 파악하기 쉽지 않다. 데이터가 잘못 들어와도 예측은 정상적으로 수행되기 때문에 잘못된 예측값을 늦게서야 인지하는 경우가 많아서, 데이터를 사용하기 전에 미리 데이터가 정상적인지 확인하는 과정을 거쳐야한다. 'TFDV'에는 기술 통계보기, 스키마 추론, 이상 항목 확인 및 수정, 데이터 세트의 드리프트 및 왜곡확인이 포함된다. #Pip 업그레이드 try: import colab !pip install --upgrade pip except: pass #TensorFlow 설치 $ pip install tensorflow.. 2022. 1. 23. MLOps - 4 리서치 코드 품질 관리 자동화 본 강의에서는 코드 문제 및 CI(+실습)에 대해서 말씀을 해주셨다. 리서치 코드 품질 문제 일반적으로 리서치 조직에서 생기는 코드 품질의 문제에 대해 이해 한다. 복사 붙여 넣기 - 괜찮은 오픈소스를 일단 복사 붙여놓고, 돌아가는지 확인하고 자신의 task에 맞게 바꾸는 경우가 되게 많다고한다. 그러다보니 실제 코드를 만들 때, 관리 및 정리가 부족하고 새로운 것을 적용하려고 할때 어려움이 잦다고 한다. (꼭 다 그렇다는 것은 아니다.) 깨진 유리창의 법칙 품질이 낮은 코드를 쌓아올리기 시작하면, 곧 다른 협업자들의 코드 품질도 떨어지기 시작한다는 것이다. 문제 코드 중복 코드 재사용성 너무 많은 전역 변수 - 당장 쓰기에는 편할 수 있지만, 항상 사이드이펙트를 가져온다... 2022. 1. 6. MLOps - 2 머신러닝 파이프 라인 단계 데이터 수집(Data Ingestion / versioning) :데이터 수집은 모든 머신러닝 파이프라인의 시작 데이터 버전 관리(Data Ingestion / versioning) : 들어오는 데이터를 버전 관리하여 데이터 스냅샷을 파이프라인 끝에 있는 학습된 모델과 연결하는 것도 중요 데이터 유효성 검사(Data validation) : 새 모델 버전을 학습하기 전에 새 데이터를 검증해야 한다. : 새 데이터의 통계가 예상대로인지 확인하는데 초점을 맞춘다. : 또한 이상 징후가 감지 될 경우 데이터 과학자에 게 경고한다. 데이터 전처리(Data preprocessing) : 학습 실행에 사용하기 위한 데이터를 미리 처리 해야한다. : 모델을 학습하기 전에 학습 라이프사이클 .. 2021. 12. 12. MLOps (머신러닝 오퍼레이션 자동화) 최근, 머신러닝에 대해서 이것저것 서칭을 하다가 MLOps에 관한 키워드가 많이 보여서 한번 알아보았다. 한 프로젝트 안에서 코드를 짜서 머신러닝을 돌려서 테스트를 해보는 것은 물론 중요한 부분이다. 하지만 이것이 실제로 어떻게 실생활에서 적용이 되고, 어떤 식으로 서비스가 이루어지는지 크게 보면 사소한 부분이라고 볼 수 있다고 한다. MLOps는 ML + Ops를 합친 용어로 머신러닝 모델 개발과 머신러닝 운영 Workflow의 간극을 줄이기 위한 분야이다. 크게 Model Development와 Model Prediction으로 나누는 관점으로 볼 수 있다. MLOps의 목표는 머신러닝 모델 개발과 머신러닝 모델 운영에서 사용되는 문제의 반복을 최소화 하면서 비즈니스 가치를 창출하는 것 모델링에 집중.. 2021. 11. 15. 이전 1 2 다음