visual attention Show, attend and tell Transformer (Self-attention) Sound representation Speech processing - Modules and applications Metric learning : positive pair(연관성이 있는)는 거리를 가깝게 negatve pair는 멀어지게 유도하는 학습 방법. 을 사용하여 joint embedding space를 디자인 기존 이미지 캡셔님의 문제점 - Attention의 등장(요즘 유행하는 Transformer에 나오는 그 Attention 맞음) - 상대적인 관계나 공간 위치가 고려되지 않음. - Global average pooling 같은 과정에서 작은 사물들이 무시되는 경향이..