(현우) $\Vert$은 노름인데, |은 어떤 의미?
- (지원) 개수입니다
- 혹시 그럼 $\sum 1$은 어떤 의미인가요?
- (준배) 겹치는 원소의 개수를 세겠다는 의미(원소 1개마다 1)
(준배) 정점표현학습 전체적 개념
- 그래프의 정점들을 벡터로 표현하는 것을 정점 임베딩이라고 하잖아요.
- 기존의 ML 도구들을 사용할 수 있게 만들기 위해서 정점 임베딩을 하는거죠.
- 그런데 "어떤 기준으로 정점을 벡터로 변환해야하는가?"가 목표라고 하는데
- "유사도를 보존하도록 정점 임베딩을 학습"하는 단계란게 정확히 어떤 의미를 가지는 어구죠?
- 인접성 기반 접근법에서.. 0과 1이 간선인데 그럼 이걸 왜 학습하는거죠? 무조건 0 또는 1아닌가요?
- (성익) 그래프에서의 유사도는 그렇게 나오는데, 임베딩 벡터들의 곱은 0이냐 1이냐를 모르기때문에(간선 추정) 임베딩 벡터를 잘 학습시켜서 비슷한 매트릭스를 만들어내는 게 목적입니다.
- (성익) 정점표현학습이란, 노드임베딩 과정을 learning하는것.
- (지원) 변환식 정점표현학습은 정확히 말하면 벡터 자체를 직접 학습시키는것같아요. 인코더가 아니라. 노드임베딩 과정이 아니라 노드임베딩 값 자체를 학습시키는겁니다.
(준호) $R^d$에서 d에 대한 언급이 있었나요?
- 노드가 많으면 노드 갯수를 d 대신 써도 유사도를 충분히 표현할 수 있지만, 너무 벡터가 커진다.
- 그래서 벡터를 좀 줄여서 유사도를 표현하려고 한다.(일종의 feature개념. 차원을 한정시키는 개념이네요.)
- (현우) 실습보면 차원을 정해두고 하는데, 아마도 차원을 한정해두는 개념이 맞는거같아요.
- (지원) 단어임베딩에서 차원을 정해두는것도 비슷하지 않을까 싶네요.
- (현우) 유사도를 보존할 수 있는 한 차원을 축소시키는 것과 비슷한거같네요.
(지원) 임의보행에서 P에 exp가 왜 나오나요?
- (준호) 유사도값이 -가 나올수 있어서, 정규화를 해서 0부터 1사이의 값으로 만들어준다.
- 만약 극단적으로 유사도값이 대부분 -가 나와버리면, loss가 -가 되어버리지 않을까요?
- (지원) 다항분류할때 비슷한 내용이 나왔던것 같습니다
(성익) 경로기반 접근법에서, 왜 A^k가 경로중 k인것의 거리가 되나요?
- 경로 != 최단경로군요.. ㅠㅠ 이해했습니다.
- (현우) 그럼 k는 하이퍼파라미터인가요?
- (준호) k는 (최대) 지름일거같아요.
- 시그마도 들어가야할까요?
- (지원) A를 k번 곱하면 k이하인 경우의 수가 다 나오기때문에 안곱해도 될것같아요.
(성익) Cluster와 Community의 차이?
- Cluster를 좌표공간하에 있는 벡터들의 군집, Community를 임베딩 이전의 그래프이론에서의 군집으로 표현하는건가요?
- (준호) 클러스터는 엣지가 없는 단순한 벡터들의 군집이 아닐까 싶습니다.
- 실습의 n-clustering이 그 K네요!
(지원) 중첩 기반 접근법이 거리기반 보다 좋은건가요?