코린이의 공부일기

[Boost camp] 09_23 특강 본문

BOOST CAMP_정리

[Boost camp] 09_23 특강

SOJUNG 2021. 9. 23. 23:19

서비스 관점에서 AI란 ?

 

학습 데이터셋, 테스트 데이터셋이 없는 경우가 대부분이다.

 

첫 번째로, 학습 데이터셋 준비하기!

 

-> 서비스 기획팀과 질의응답을 통해 종류/수량/정답 관련 요구사항을 구체화해야 한다.

 

 

 

데이터셋을 모을 때 많은 생각치 못한 경우들을 많이 겪게 되는데 예를 들자면, 

한 수식만 나오게 찍기 어렵다 -> 여러 수식을 한번에 찍자.

 

 

1. 기술 모듈 -수식 영역 검출 모델

학습데이터의 정답은 AI 모델 별로 입력에 대한 출력 쌍이다.

수식 영역들의 위치를 검출하는 방식을 1~4번에서 선택할 때 모델 구조 설계영역을 고려하며 선택한다.

 

 

2. 기술 모듈 - Image to Latex 모델

 

수식이 있는 이미지을 하나의 모델로 Latex string 결과값을 나오게하는 것은 매우 어려운 일이다. 그렇기 때문에

검증된 4가지 모델링 조합을 통해 진행해볼 수 있다.

 

이렇게 할 경우, 4개의 모델의 입출력의 정의가 필요하다.

 

 

-이렇게 학습 데이터셋을 모을 때도 서비스의 요구사항 뿐 아니라 AI모델 설계도 어느정도 나와야 그에 맞게 구성해야한다.

- 학습데이터셋을 만들 때 외주업체에 맡기는 경우가 많다 그렇기 때문에 외주업체에 작업 가이드를 꼭 알려줘야한다.

 

 

학습데이터셋 구축을 했다면 어떻게 AI모델을 평가를 할까?

 

실 서비스 적용전에 개발 환경에서의 정량 평가와 (OFFLINE 테스트)

실 서비스 적용 시에 정량 평가는 (ONLINE 테스트)

이질감이 굉장이 클 수 있다.

 

그래서 서비스에서의 품질은 정말 중요하기 때문에

OFFLINE 테스트 결과가 ONLINE 테스트 결과와 유사하게 OFFLINE 테스트를 잘 설계해야 한다.

 

둘 간의 테스트가 유사하게 나와야한다.

 

 

 

테스트 방법

 

 

 

 

모델 요구사항 도출

 

- 처리 시간 : 처리 시간은 하나의 입력이 처리되어 출력이 나올 때까지의 시간

ex) 수식 영역 검출의 경우

OFFLINE TEST: 이미지 입력 후 수식 영역 정보가 출력될 때까지의 시간

ONLINE TEST: 이미지 촬영 후 이미지에서 수식 영역 정보가 화면 상에 표현되기까지의 시간

 

-목표 정확도 : 해당 기술 모듈의 정량적인 정확도

ex ) 신용카드 인식의 경우

OFFLINE TEST: 입력된 이미지 내 카드 번호/유효기간에 대한 EDIT DISTANCE

ONLINE TEST: 사용자가 AI모델의 결과값을 수정할 확률

 

 

Comments