일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 부스트캠프 회고
- 프로그래머스LEVEL1
- 부스트캠프AITech
- 부캠
- 파이썬 카카오코딩테스트
- 파이썬 양과늑대
- 네이버 부스트캠프
- 도커오류
- Cannot connect to the Docker daemon at unix
- 부스트캠프
- 프레임워크란?
- level1
- docker시작하기
- 프로그래머스 양과늑대
- 프로그래머스 레벨1
- 프로그래머스 파이썬
- 파이썬 재귀함수
- 프로그래머스 레벨2
- 파이썬 프로그래머스
- 카카오 파이썬
- 도커연결오류
- 카카오코딩테스트
- 카카오 코딩테스트
- 프로그래머스 레벨3
- 라이브러리란?
- 코딩테스트
- 카카오코테
- 프로그래머스
- 양과늑대
- 파이썬
- Today
- Total
목록BOOST CAMP_정리 (30)
코린이의 공부일기
모델 개발 프로세스 - Production 웹, 앱 서비스에서 활용할 수 있게 만드는 과정 -"모델에게 데이터(input)을 제공하면서 , output 예측해주세요" 라고 요청하는 과정 MLOps란? -머신러닝 모델을 운영하면서 반복적으로 필요한 업무를 자동화시키는 과정 = 머신러닝 엔지니어링 + 데이터 엔지니어링 + 클라우드 +인프라 즉 머신러닝 모델 개발과 (ML Dev)과 머신러닝 모델 운영(Ops)에서 사용되는 문제, 반복을 최소화하고 비즈니스 가치를 창출하는 것이 목표! -> 모델링에 집중할 ㅅ 있도록 관련된 인프라를 만ㅇ들고, 자동으로 운영되도록 하는 것 게다가 최근에는 비즈니스 문제에는 머신러닝/딥러닝을 적용하는 Case가 많아짐 특히 현실에서는 예측할 수 없는 리스크가 굉장히 많기 때문에 ..
Data Engineering 이 하는 일 - Data Cleansing, Preprocessing , Feature Engineering, Select ML Algorithm, Set Hyperparameters등 -좋은 configuration을 찾을 때까지 반복함 - 주로 expert(대학원생)이 진행 현업에서는 데이터의 추가 , 모델의 변경 등으로 인해 이러한 re-tuning이 계속해서 반복됨 -> AutoML에서는 진정한 end to end learning을 실현하자라는 의미를 갖고있음 -> 반복적인 process에서 사람을 빼내자! AutoML(Hyperparameter Optimization)의 문제정의 ->loss을 가장 minimize을 해주는 hyperparameter 의 config..
-내가 제작한 AI모델이 실제로 얼마나 잘 동작하는 파악하는 것은 굉장이 중요하며, 성능 평가를 통해 실무/연구 단계에서 개선해야 할 점은 무엇인지를 파악해야 합니다. 이번 강의에서는 , 성능평가의 중요성에 대해 다시한번 상기시키며, 전반적인 성능 측정 개념, 및 OCR에서 활용되고 있는 여러 평가방식을 소개합니다. 성능평가란 ? 새로운 데이터가 들어왔을 때 얼마나 잘 동작하는가 ? = 일반화 성능이 얼마나 좋을까? 성능평가를 위해 쓰는 대표적 방식 1. Train - Test split 학습하지 않은 Test Dataset(Test Dataset)을 따로 두어 트레이닝 후, 성능검사를 하는 방식 2. 5- Fold Cross Validation 5개의 Validation set을 다르게한 모델을 만들어..
- Semantic segmentation 에서 필살기를 살펴보고 대회에서 사용하는 기법들을 살펴보자 1. 5-Fold Ensemble -5 fold cross validation을 통해 만들어진 5개의 모델을 ensemble하는 방법 2. Epoch Ensemble checkpoint을 지정해주며 비슷한 값끼리 활용해 ensemble하는 방법도 있다. 3.SWA(Stochastic Weight Averaging) 각 step마다 weight을 업데이트 시키는 SGD와 달리 일정 주기마다 weight를 평균 내는방법 -Train loss에서는 SWA가 더 높을 수 있지만 Test error에서는 SGD가 높다 -> 일반화가 더 잘 되어있는 것 -Warm up period - Epoch가 진행함에 따라서 ..
MMDetection - Pytorch 기반의 Object Detection 오픈소스 라이브러리 Pipeline -input image는 backbone을 통과한 후 Neck(feature map)이 나오며 각각의 feature map에서 RoI을 예측한다. box prediction과 class prediction을 진행해 예측한다. -MMDetection의 pipeline은 detection pipeline과 굉장히 유사하다. DenseHead - RPNHead(localization) RoIHead - Box head, classification head -각각의 모듈 단위로 커스터마이징 -config파일을 이용해 통제할 수 있다. 여기서 Config파일은 무엇일까 ? -Config을 통해 data..
2 Stage Detectors 1. R-CNN -입력 이미지로부터 후보영역들을 선정 (Sliding window , Selective Search) -뽑힌 이미지들을 고정된 사이즈로 변경하여(Semantic vector) Classification하는 방식 그렇다면 Sliding Window가 무엇일까 ? 왼쪽의 Window가 이미지를 sliding하여 뽑아낸다 -> 무수히 많은 후보영역이 나온다.(대부분은 배경) -> 그래서 Sliding window는 잘 사용하지 않음 *그래서 Selective Search을 많이 사용한다 그렇다면 Selective Search란 무엇일까? 색감, 질감, 모양과 같은 이미지의 특징들을 갖고 후보영역들을 나눠 통합하는 방식으로 후보영역을 셀렉한다. Pipeline 1..
ML Engineer 란 ? Machine learning의 기술을 이해하고 , 연구하고 Product 을 만드는 Engineer이다. Deep learning의 급부상으로 Product에 Deep learning을 적용하고자 하는 수요가 발생했다. 폭발적인 발전속도로 인해 Researcher와 Enginner의 경계가 모호하다 (연구와 동시에 Product을 개발) 그렇다면 Full stack ML Enginner 란 ? Deep learning research 을 이해하고 ML Product로 만들 수 있는 Enginner이다. + Apple Job Description '코딩을 잘하고, 창의적이고, 다양한 조직의 사람과 협업할 수 있고, 새로운 기술을 배우는 것을 즐기는 개발자' Full stack..
서비스 관점에서 AI란 ? 학습 데이터셋, 테스트 데이터셋이 없는 경우가 대부분이다. 첫 번째로, 학습 데이터셋 준비하기! -> 서비스 기획팀과 질의응답을 통해 종류/수량/정답 관련 요구사항을 구체화해야 한다. 데이터셋을 모을 때 많은 생각치 못한 경우들을 많이 겪게 되는데 예를 들자면, 한 수식만 나오게 찍기 어렵다 -> 여러 수식을 한번에 찍자. 1. 기술 모듈 -수식 영역 검출 모델 학습데이터의 정답은 AI 모델 별로 입력에 대한 출력 쌍이다. 수식 영역들의 위치를 검출하는 방식을 1~4번에서 선택할 때 모델 구조 설계영역을 고려하며 선택한다. 2. 기술 모듈 - Image to Latex 모델 수식이 있는 이미지을 하나의 모델로 Latex string 결과값을 나오게하는 것은 매우 어려운 일이다...