-
(성익) NAG개념 이해가 잘… Lookahead Gradient??
- 업데이트시 발생하는 변화를 어떻게 보고 확인한다는거지?
- (준배님) 넘어간 쪽의 gradient를 보고, 내려가는 거라면 미리 관성을 줄여준다.
- (준배님) momentum이라는 건 local minimum을 피하기 위한 기술
- momentum은 최소점에서 자꾸 올라가게 되는 문제가 있어서, 미리 내다보고 더 내려갈수 있으면 내려가도록 하여 수렴하도록 만드는것.
- (준호님) 수식보면서 설명해주실 수 있나요?
-
(상진) 과제에서 Max Iteration을 왜?
- (준호님) 배치를 나누지 않아서 Epoch 대신 iteration?
- 배치 사이즈, 에폭, 이터레이션 차이
- 배치 사이즈 = 학습시킬 샘플 데이터 한 셋의 크기
- 에폭 = 배치+이터레이션으로 학습데이터 전체에 대해 한번의 학습을 끝내는 주기
- 이터레이션 = 에폭에 대하여 배치를 뽑아 수행하는 수
- 이거는 간단하게 하는거니까 배치를 그냥 중복 허용 랜덤으로 뽑았음. (suffle=True가 중복 금지)
- 원래 배치가 중복이 아니면 이터레이션 * 배치사이즈 = 전체데이터 크기
-
(성익) optimizer가 밖에 나와있어서 객체느낌이 안드는데… 모델의 가중치 업데이트 방식이 바뀌는거죠?
- (준호) 케라스에서는 m.adam이런식으로 객체형태로 관리했던거같기도…
-
(성익) Parameter Norm Penalty
- (준호) cost function이 너무 커지지 않게 하기 위해서 l2-norm으로 weight를 줄인다. - 너무 휘지 않도록 만들어준다
- 부드러운 함수(파라미터의 크기가 작은 함수)는 왜 일반화 성능이 좋은걸까요?
- (준호) 일반화 성능을 낮춰주기 위해서 트레이닝을 방해
-
(현우) Noise를 그럼 언제 넣나요? underfitting과 overfitting을 어떻게 판단하나요?
피어세션기록(3주차, 02.02 화)
오늘 강의 / 과제 / 퀴즈
(상진) 최성준 교수님은 기존에 공부하던 방식대로 가르쳐주셔서 듣기가 편했다.
전체적인 도식도가 있었으면 좋겠다.
시계열 데이터 어디다가 사용하나요?
(지원) 수학 공부가 조금 시간이 오래걸렸다.
Noise가 정확히 뭔가요?
(준호) 최성준 교수님 기다려왔는데 참 좋았는데…
질문
(성익) NAG개념 이해가 잘… Lookahead Gradient??
(상진) 과제에서 Max Iteration을 왜?
(성익) optimizer가 밖에 나와있어서 객체느낌이 안드는데… 모델의 가중치 업데이트 방식이 바뀌는거죠?
(성익) Parameter Norm Penalty
(현우) Noise를 그럼 언제 넣나요? underfitting과 overfitting을 어떻게 판단하나요?
정보 공유
기록할 것
조교님께 질문
bias-variance 트레이드오프
깃헙 팀 만들어졌음!