-
(현우) 과제 코드에서 Pretrained = True/False가 conv layer만 고정하는건가요?
- (준배) fully connected layer는 새로 학습하되,conv layer파트는 고정
-
(준호) fully-connected layer가 분류만 하는 용도라면 굳이 여러 층이 있어야 할 이유가 있을까요?
- (현우) conv layer는 국소적 feature extraction, 여러 층이 있는 건 좀 더 정확성을 높이기 위하여
- (성익) quora
-
(성익) accuracy code는 어떻게 작성해야하나요?
- (현우) 이전 NLP 과제 참조
- (준호) batchsize가 한번 수행할때 들어가는 데이터셋의 개수니까 batchsize로 나누기.
-
(지원) torch.shape()
, torch.size()
차이?
-
(성익) Receptive Field 공식 (P+K+1)
- input size K가 들어와서 하나의 cell이 되고(K), pooling layer는 각 cell 들을 합쳐서 하나만 뽑아내는 거라서 (+P)
- -1은 stride와 관련있나요?
- -1은 stride랑 관련있다기보다는 커널간이 겹치는 영역과 관련이있다…?
-
(현우) Knowledge distillation에서 soft label
- Teacher Model의 prediction 값을 ground truth label처럼 사용한다.
-
(성익) Input channel과 output channel은 왜 2의 배수일까요?
- (준호) gpu 메모리에 꽉 차게 올라가게 하려고 그런거라고 합니다.
- 일반적으로 논문에서 channel 크기가 점점 더 커지다가 작아지는 이유는, 점점 더 세부적으로 보다가 어느 정도가 되면 "됐다"고 판단하고 전체적으로 보기 위해 줄이는 것.
-
(지원) Softmax(T=t)와 (T=1)의 의미
- (성익) ground truth가 아닌 soft label은 확신할 수 없으므로 뭉개버리는 역할. 근데 진짜 ground-truth label은 확신할 수 있으므로 1인것같아요.
- (준호) 그럼 결국 어느 데이터를 더 가치있는 데이터로 쳐서 볼지에 대한 가중치 벡터의 역할도 하는거네요.
- (질문) hard/soft prediction ppt 표기 오류?
피어세션기록(7주차, 03.08 월)
강의/실습/과제 질문
(현우) 과제 코드에서 Pretrained = True/False가 conv layer만 고정하는건가요?
(준호) fully-connected layer가 분류만 하는 용도라면 굳이 여러 층이 있어야 할 이유가 있을까요?
(성익) accuracy code는 어떻게 작성해야하나요?
(지원)
torch.shape()
,torch.size()
차이?(성익) Receptive Field 공식 (P+K+1)
(현우) Knowledge distillation에서 soft label
(성익) Input channel과 output channel은 왜 2의 배수일까요?
(지원) Softmax(T=t)와 (T=1)의 의미
정보 공유
Model()
과Model.forward()
의 차이?Model()
이 좀 더 큰 개념. hook까지 불러온다고.