공부17 MLOps - 2 머신러닝 파이프 라인 단계 데이터 수집(Data Ingestion / versioning) :데이터 수집은 모든 머신러닝 파이프라인의 시작 데이터 버전 관리(Data Ingestion / versioning) : 들어오는 데이터를 버전 관리하여 데이터 스냅샷을 파이프라인 끝에 있는 학습된 모델과 연결하는 것도 중요 데이터 유효성 검사(Data validation) : 새 모델 버전을 학습하기 전에 새 데이터를 검증해야 한다. : 새 데이터의 통계가 예상대로인지 확인하는데 초점을 맞춘다. : 또한 이상 징후가 감지 될 경우 데이터 과학자에 게 경고한다. 데이터 전처리(Data preprocessing) : 학습 실행에 사용하기 위한 데이터를 미리 처리 해야한다. : 모델을 학습하기 전에 학습 라이프사이클 .. 2021. 12. 12. MLOps - 1 MLops라는 것에 관심이 생겨서 조금씩 공부해보기로 하였다. Inflearn에서 송호연 강사님의 강의를 수강하여 공부를 이어나가기로 했다. 수업들은 내용과 자료를 바탕으로 나름대로 정리해보고자 한다. *모든 자료와 내용은 송호연 강사님의 자료 출처입니다.* 머신러닝 파이프라인의 이해 파이프라인이 필요한 이유는 리팩토링 종속성 제거 단위 테스트 API 강화 미사용 코드 삭제 문서화 6가지가 필요성에 있는데 이는 '유지보수성 향상'에 도움이 된다. 기존에 알려진 코드 수준의 기술 부채제거 방식으로는 이런 문제를 해결하기 어렵다. 머신러닝 문제의 특징 쉬운 머신러닝 문제 데이터의 변화가 천천히 일어난다. 모델 재학습의 경우, 더 많은 데이터로 모델 성능 개선되거나 sw혹은 시스템의 변화일때 라벨링 어려운 머.. 2021. 12. 7. Latex 표 편집 사이트 요즘 논문 작업을 하면서 Latex를 많이 사용한다. Latex는 문서 작성 도구 프로그램으로, 논문이나 출판물 등에서 많이 쓰인다. 논문에 표를 넣으려고 엑셀 또는 직접 만드는 것보다 tableGenerator를 이용해서 표를 만들고 바로 코드로 얻을 수 있다. 자주 쓰일 것 같아서 들어가기 편하게 려놓는다! https://www.tablesgenerator.com/ 2021. 11. 17. Boyer & Moore Algorithm (보이어&무어 알고리즘) 문자열 패턴을 찾는 알고리즘 Naive Algorithm : 가장 쉽게 생각할 수 있는, O(N^2)의 전체 탐색 알고리즘이다.(Brute-Force Algorithm) Rabin & Karp Algorithm : 해시를 이용한 문자열 탐색 알고리즘이다. Boyer & Moore Algorithm : 일반적으로 가장 빠른 알고리즘이다. Suffix Tree / Array : 접미사 트리/배열이라고 불리는 테이블을 이용한 알고리즘이다. KMP : Knuth, Morris, Prett 3명이서 만든 알고리즘으로, 접두사와 접미사를 이용해서 패턴을 찾는다. 위의 5개 중에서 이번에는 Boyer & Moore Algorithm에 대해서 정리해보고자 한다. KMP 알고리즘의 개선판이라고 할 수 있다. Worst .. 2021. 11. 16. 이전 1 2 3 4 5 다음