공부/MLOps7 MLops - 6. 도커 & 쿠버네틱스 Docker '쿠베플로우' 라는 툴을 사용하기 위해서는 그전에 '도커'와 '쿠버네티스'를 알고 넘어가야한다. 쿠버네티스를 사용하기 위해서는 도커를 이해해야하는데, 요즘 '도커'없이는 개발하기 힘들기 때문에 필수적으로 알아야할 툴이다. 1. 도커 개요 도커가 필요한 이유 - Docker는 애플리케이션을 개발, 제공 및 실행하기위한 개방형 플랫폼 - Docker를 사용하면 애플리케이션을 인프라에서 분리할 수 있으므로, sw를 빠르게 제공할 수 있다. - 애플리케이션을 관리하는 것과 동일한 방식으로 인프라를 관리할 수 있고, 코드를 신속하게 전달, test 및 배포를 위한 Docker의 방법론을 활용하면 코드 작성과 프로덕션 실행 사이의 지연을 크게 줄일 수 있다. 도커 플랫폼 - 컨테이너라고하는 느슨하게 격.. 2022. 3. 1. MLops - 5.1 (TFDV) MLops-5 글에 이어서 이번에는 '스키마 추론과 스키마 환경'에 대해서 이어서 정리를 해보려고 한다. 데이터 검증 ( TFDV ) 데이터 검증 TFDV 스키마 추론과 스키마 환경 데이터 드리프트 및 스큐 스키마 추론 tfdv.infer_schema를 사용해서 데이터에 대한 스키마를 생성할 수 있다. csv에서 학습데이터에 대한 스키마를 뽑을 수 있다. 피쳐들이 자료형인지(int, float..) 알아서 정리를 해준다. 카테고리도 마찬가지로 정리가 된다. TFDV를 통해서 스키마에 대한 추론을 한 다음에, 스키마가 어떻게 구성되어 있는지를 하나의 스키마로 출력을 할 수 있다. schema = tfdv.infer_schema(statistics=train_stats) tfdv.display_schema(.. 2022. 2. 2. MLOps - 5 (TFDV) 데이터 검증 ( TFDV ) 데이터 검증 TFDV 스키마 추론과 스키마 환경 데이터 드리프트 및 스큐 데이터 검증 TFDV 데이터 검증이 필요한 이유 머신러닝 시스템에서 데이터로 인한 장애는 파악하기 쉽지 않다. 데이터가 잘못 들어와도 예측은 정상적으로 수행되기 때문에 잘못된 예측값을 늦게서야 인지하는 경우가 많아서, 데이터를 사용하기 전에 미리 데이터가 정상적인지 확인하는 과정을 거쳐야한다. 'TFDV'에는 기술 통계보기, 스키마 추론, 이상 항목 확인 및 수정, 데이터 세트의 드리프트 및 왜곡확인이 포함된다. #Pip 업그레이드 try: import colab !pip install --upgrade pip except: pass #TensorFlow 설치 $ pip install tensorflow.. 2022. 1. 23. MLOps - 4 리서치 코드 품질 관리 자동화 본 강의에서는 코드 문제 및 CI(+실습)에 대해서 말씀을 해주셨다. 리서치 코드 품질 문제 일반적으로 리서치 조직에서 생기는 코드 품질의 문제에 대해 이해 한다. 복사 붙여 넣기 - 괜찮은 오픈소스를 일단 복사 붙여놓고, 돌아가는지 확인하고 자신의 task에 맞게 바꾸는 경우가 되게 많다고한다. 그러다보니 실제 코드를 만들 때, 관리 및 정리가 부족하고 새로운 것을 적용하려고 할때 어려움이 잦다고 한다. (꼭 다 그렇다는 것은 아니다.) 깨진 유리창의 법칙 품질이 낮은 코드를 쌓아올리기 시작하면, 곧 다른 협업자들의 코드 품질도 떨어지기 시작한다는 것이다. 문제 코드 중복 코드 재사용성 너무 많은 전역 변수 - 당장 쓰기에는 편할 수 있지만, 항상 사이드이펙트를 가져온다... 2022. 1. 6. 이전 1 2 다음