728x90

@@@ 인공지능/이론 4

Attention

visual attention Show, attend and tell Transformer (Self-attention) Sound representation Speech processing - Modules and applications Metric learning : positive pair(연관성이 있는)는 거리를 가깝게 negatve pair는 멀어지게 유도하는 학습 방법. 을 사용하여 joint embedding space를 디자인 기존 이미지 캡셔님의 문제점 - Attention의 등장(요즘 유행하는 Transformer에 나오는 그 Attention 맞음) - 상대적인 관계나 공간 위치가 고려되지 않음. - Global average pooling 같은 과정에서 작은 사물들이 무시되는 경향이..

Multi-Model Learning

Multi-Model Learning Text embedding Image tagging Recurrent neural networks Image captioning Multi-Model Learning 다양한 형태로 이루어진 데이터 특징을 효과적으로 학습하기 위한 방법 Multi-Model Learning 의 어려움 - 소리는 웨이브 형태의 데이터, 영상은 2차원의 칼라값을 넣은 array 형태, Text는 벡터로 존재. 각각의 데이터 표현 방식과 자료 구조가 다름. - 서로다른 데이터 타입 간 가지고 있는 정보의 비대칭 관계 하나의 문장이 여러 Image로 표현이 가능함. Text embedding - 문자열 표현은 인공지능 모델들이 사용하기에 어려움. - Dense vector로 치환하여 사용(Co..

영상 처리(CNN)

CNN vs FNN(Fully-Connected NN) FNN : 데이터가 주어지면 하나의 피처를 뽑기위해서(하나의 히든 노드를 정의하기위해서) 모든 연결을 다 사용함. - 우리가 배워야하는 파라미터가 기하급수적으로 커짐. 조금만 변경되어도 파라미터 값이 많이 달라짐. LNN(Locally-Connected NN) : CNN 전단계, 국소적인 부분만 뉴럴 네트워크를 정의. 해당부분으로만 연결이 되어서 하나의 히든 노드를 도출. - 배워야하는 파라미터의 수가 줄어듦. 이렇게 하는 이유는 영상의 경우 전체를 보지 않고 부분적인 부분만 봐도 무엇인지 파악할 수 있기 때문. # 해당 영역의 파라미터를 다른 영역에서도 사용가능. 즉, 파라미터를 공유(이는 LNN에서 CNN으로 변환되는 과정) - 적은 파라미터로 ..

기계학습

기계학습의 구성요소 - 경험 사례 - 모델 - 평가 기준 기계 학습이란? 계산/추론(computation/inference) : 함수를 주고, Output이 나오도록 계산 (F = ma, V = IR) 최적화(Optimization) : 한 세트의 (input,output)을 주고, 관계를 가장 잘 설명하는 f(함수)를 찾는 것. 이 2가지는 input과 output 두가지와 에러만 없으면 되지만, 우리가 모든 데이터를 사용할 수 없다. 즉, 우리가 모르는 데이터를 입력 하였을 때 제대로된 출력이 나오게 만들어야한다. 이는 일반화(Generalization)을 통해 수행되어진다. 일반화(Generalization) : 최적화를 통해 학습된 함수를 통해 학습된 적 없는 입력을 가지고 정확한 출력을 나오도록..

728x90