본문 바로가기

전체 글23

MLops - 6. 도커 & 쿠버네틱스 Docker '쿠베플로우' 라는 툴을 사용하기 위해서는 그전에 '도커'와 '쿠버네티스'를 알고 넘어가야한다. 쿠버네티스를 사용하기 위해서는 도커를 이해해야하는데, 요즘 '도커'없이는 개발하기 힘들기 때문에 필수적으로 알아야할 툴이다. 1. 도커 개요 도커가 필요한 이유 - Docker는 애플리케이션을 개발, 제공 및 실행하기위한 개방형 플랫폼 - Docker를 사용하면 애플리케이션을 인프라에서 분리할 수 있으므로, sw를 빠르게 제공할 수 있다. - 애플리케이션을 관리하는 것과 동일한 방식으로 인프라를 관리할 수 있고, 코드를 신속하게 전달, test 및 배포를 위한 Docker의 방법론을 활용하면 코드 작성과 프로덕션 실행 사이의 지연을 크게 줄일 수 있다. 도커 플랫폼 - 컨테이너라고하는 느슨하게 격.. 2022. 3. 1.
MLops - 6 (WIT) 모델 분석 WIT ( What-lf-Tool ) 모델 분석이 필요한 이유 전통적인 소프트웨어 개발과 머신러닝 소프트웨어 개발 방식의 차이 전통적인 SW개발 ML SW 개발 개발 접근법 개발자는 명시적으로 컴퓨터에게 해야할 일을 알려줘야 한다. 개발자는 Data를 통해서 특정 작업을 수행하도록 알고리즘을 학습시킨다. 데이터 요구사항 데이터가 거의 필요하지 않다. 사람이 직접 data로부터 논리를 만들어낸다. 프로젝트의 성공이 data의 품질과 양에 크게 의존한다. 적응력 환경이 변했을 때, SW 디자인을 다시 해야한다. 새로운 환경이 오더라도, 새로운 data를 보여주면 적응한다. What-If-Tool 소개 WIT 도구는 훈련된 ML 모델의 동작을 분석하는 시각화 기반 도구이다. 도구를 시작할 때, 예상.. 2022. 2. 6.
MLops - 5.2 (TFDV) 5.1에 이어서 이번에는 '데이터 드리프트 및 스큐'에 대해서 정리하려고 한다. 데이터 검증 ( TFDV ) 데이터 검증 TFDV 스키마 추론과 스키마 환경 데이터 드리프트 및 스큐 데이터 드리프트 기본적으로 모델을 배포한 다음에는 갈수록 하락한다. 어떻게 인지할수 있을까? 들어오는 인풋값의 분포가 바뀔수 도 있다.예를들어서, 유저에 90%가 남성이었는데, 갑자기 여성이 많아지면서 성비가 5:5가 되었다. 이를 데이터 드리프트가 발생했다고 할 수 있다. 데이터들의 인풋값이 바뀐 것을 어떻게 측정을 할까? 데이터 드리프트 및 스큐 확인 TFDV는 드리프트 및 스큐를 감지하는 기능도 제공한다. 스키마에 지정된 드리프트 / 스큐 비교를 기반으로 여러 데이터 셋 통계를 비교하여 검사를 수행한다. 드리프트 드리프.. 2022. 2. 2.
MLops - 5.1 (TFDV) MLops-5 글에 이어서 이번에는 '스키마 추론과 스키마 환경'에 대해서 이어서 정리를 해보려고 한다. 데이터 검증 ( TFDV ) 데이터 검증 TFDV 스키마 추론과 스키마 환경 데이터 드리프트 및 스큐 스키마 추론 tfdv.infer_schema를 사용해서 데이터에 대한 스키마를 생성할 수 있다. csv에서 학습데이터에 대한 스키마를 뽑을 수 있다. 피쳐들이 자료형인지(int, float..) 알아서 정리를 해준다. 카테고리도 마찬가지로 정리가 된다. TFDV를 통해서 스키마에 대한 추론을 한 다음에, 스키마가 어떻게 구성되어 있는지를 하나의 스키마로 출력을 할 수 있다. schema = tfdv.infer_schema(statistics=train_stats) tfdv.display_schema(.. 2022. 2. 2.