본문 바로가기

분류 전체보기23

MLOps - 3 이번에는 MLOps에서 'Weights and Biases'에 대해서 정리를 해보겠다. 실험관리 문제에 대해서 이해를 해야하는데, 이 부분은 나도 공감을 많이 했다. 어떤 모델을 학습시켜서 Test를 하고 그에 따른 결과를 볼 때, 딱 1가지만 학습을 해보진 않는다. 여러 하이퍼파라미터를 가지고 이것 저것 시도를 해본 후, 가장 성능이 좋은 모델을 찾는다. 하이퍼파라미터 뿐만 아니라, 여러 데이터 셋으로 시도를 해볼 수 도 있기 때문에, 아무리 로그를 저장해두더라도 헷갈리기 마련이다. 그래서 'Weights and Biases'를 사용하는 것이다. 위의 2개의 사진을 보면 어떤 느낌인지 확 올 것이라고 생각한다. 1번째 사진의 경우, 학습한 모델을 시각화로 나타낼 수 도 있고 2번째 사진의 경우, 언제,.. 2022. 1. 3.
Python3 vs Pypy3 코테 문제를 접하다가 시간초과에 걸리는 문제가 발생하였다. 계속해서 시도해도 되지않길래 검색을 통해서 해보니 같은 코드여도 python3로는 시간초과가 발생하고, pypy3로는 통과를 하게 되는 것을 알게되었다. https://ralp0217.tistory.com/entry/Python3-%EC%99%80-PyPy3-%EC%B0%A8%EC%9D%B4 https://choisblog.tistory.com/26 두 가지의 차이점을 찾아보니, 쉽게 말해서 Python3 는 CPython으로부터 구현 된 것이기 때문에, CPython은 인터프리터이면서 컴파일러다. 반면에 pypy3는 즉석으로 컴파일하는 방식이고, 인터프리트하면서 자주 쓰이는 코드를 캐싱하기 때문에 느린 실행 속도를 개선할 수 있다. 즉, PyP.. 2021. 12. 19.
MLOps - 2 머신러닝 파이프 라인 단계 데이터 수집(Data Ingestion / versioning) :데이터 수집은 모든 머신러닝 파이프라인의 시작 데이터 버전 관리(Data Ingestion / versioning) : 들어오는 데이터를 버전 관리하여 데이터 스냅샷을 파이프라인 끝에 있는 학습된 모델과 연결하는 것도 중요 데이터 유효성 검사(Data validation) : 새 모델 버전을 학습하기 전에 새 데이터를 검증해야 한다. : 새 데이터의 통계가 예상대로인지 확인하는데 초점을 맞춘다. : 또한 이상 징후가 감지 될 경우 데이터 과학자에 게 경고한다. 데이터 전처리(Data preprocessing) : 학습 실행에 사용하기 위한 데이터를 미리 처리 해야한다. : 모델을 학습하기 전에 학습 라이프사이클 .. 2021. 12. 12.
MLOps - 1 MLops라는 것에 관심이 생겨서 조금씩 공부해보기로 하였다. Inflearn에서 송호연 강사님의 강의를 수강하여 공부를 이어나가기로 했다. 수업들은 내용과 자료를 바탕으로 나름대로 정리해보고자 한다. *모든 자료와 내용은 송호연 강사님의 자료 출처입니다.* 머신러닝 파이프라인의 이해 파이프라인이 필요한 이유는 리팩토링 종속성 제거 단위 테스트 API 강화 미사용 코드 삭제 문서화 6가지가 필요성에 있는데 이는 '유지보수성 향상'에 도움이 된다. 기존에 알려진 코드 수준의 기술 부채제거 방식으로는 이런 문제를 해결하기 어렵다. 머신러닝 문제의 특징 쉬운 머신러닝 문제 데이터의 변화가 천천히 일어난다. 모델 재학습의 경우, 더 많은 데이터로 모델 성능 개선되거나 sw혹은 시스템의 변화일때 라벨링 어려운 머.. 2021. 12. 7.