(준배) Postional Encoding의 개념 - 갑자기 주기함수가 왜 나오는건가요?
- (성익) 주기함수들을 합쳐서 position에 따라서 특정 unique 값을 얻을 수 있음. 여러개의 주기함수를 겹쳐서 사용해야함.
- (준호) 공유
(지원) Feed Forward layer가 왜 있나요?
- (성익) attention은 단어의 관계를 정의하는거고, 관계의 순서를 보장하지는 않는다.
- (준호) rnn의 가장 큰 문제는 병렬 연산이 안되니까 그걸 해결하려고 attention이 나옴. 근데 attention은 순서를 모르니까 positional encoding.
- (성익) 링크
- (성익) 링크2
- (준호) 그래서 dropout이 두개였구나.
(지원) CNN에서 Dense Layer가 왜 있나요?
- (성익) 링크공유
- (성익) Fully connected layer의 비효율성 때문에, 합성곱 레이어로 feature map을 추려낸 뒤에 학습한다.
- (준호) 바로 출력할수도 있는데, 합성곱 레이어는 모든 input을 종합하는게 아니라 input의 subset들에 대한 추론이므로, 이를 fully connected layer로 종합시켜주어야한다.
- (준호) 스택오버플로우
(성익) 차원이 커지면 왜 분산도 커지나요?
- (준호) 차원수가 늘어나면, 축이 많아지므로, 데이터가 sparse해진다. x,y축 거리만 고려하다가 z까지 고려하니까..
- 그러면 아무리 작아봐야 작은 차원과 같은 거리이고, 일반적으로는 거리가 커지니까 분산이 커진다.
(성익) Complexity per Layer 공간복잡도
- GPU가 1개면 시간복잡도로 생각할 수 있고(연산횟수 = 시간이니까), GPU가 N개면 공간복잡도로도 생각 가능