설명 가능한 AI는 무엇인지 알아보자!

딥러닝 모델은 내부적으로 어떻게 계산이 되는지 알아보기 쉽지 않고, 어떤 근거에 의해서 결과를 산출했는지 알기 어렵다.

XAI 중요성

  • 결과 분석 용이
  • 시각적 이해도 향상
  • 모델 내부에 대한 이해도 향상

 

이미지 분야의 XAI

  • Class Activation Map(CAM)
    • 모델이 이미지를 분류하는데 이미지에서 어떤 부분을 가장 많이 받는지 시각화해줌
  • Attention
    • 이미지 안에서 어느 부분이 제일 두드러지는 가중치를 가지고 있는지 시각화해줌
    • 이미지뿐만 아니라 시계열, 언어 분석에서도 사용 가능
  • Activation Maxmization
    • 특정 피쳐맵이 발현되려면 어떤 이미지가 들어왔을 때 가장 크게 발현되는지 시각화해줌

 

 

이번 강의에서는 이미지에서 처리 가능한 기술을 주로 설명해줘서 일단 패스!!

 

내용에 문제가 있으면 댓글로 알려주세요!

 

출처 : 인프런 - 실전 인공지능으로 이어지는 딥러닝 개념 잡기(딥러닝 호형)

준지도 학습과 비지도 학습에 대해 알아보자

학습 방법의 종류

  • 지도 학습(supervised learning)
    • 정답을 알려주며 학습시키는 방법
    • 라벨을 이용하여 정답을 맞혀가며 학습하는 방법
    • 예) Classification, Regression
    • 장점 : 높은 정확도(모델이 예측한 값이 비슷한지 아닌지 판단할 수 있기 때문), 학습 데이터에 대한 정확한 학습
    • 단점 : 라벨이 필요, 라벨링 오류의 위험 
    • 직관적인 메카니즘을 가지고 있어서 많이 사용됨
  • 준지도 학습(semi-supervised learning)
    • 라벨이 없는 데이터와 라벨이 있는 데이터를 모두 학습에 사용
    • 예) PseudoLabel
    • 장점 : 더 많은 데이터의 확보(사람이 직접하지 라벨링 하지 않기 때문에 빠름), 지도 학습 효과
    • 단점 : 라벨링의 불확실성(모델이 학습을 잘 못한 상태에서 PseudoLabel을 적용할 경우, 라벨이 틀린 경우가 많아짐)
    • 기본적인 메카니즘은 지도 학습
    • 라벨이 없는 데이터(실제값이 없음)는 PseudoLabel 방법을 사용해서 실제 값을 생성함
    • PseudoLabel 방법은 모델에 라벨링 없는 데이터가 들어갈 경우 나온 예측값을 라벨링으로 사용하도록 함
    • 즉, 모델한테 라벨링을 맡기는 것
    • 실제값이 있는 데이터의 경우, 출력 값과 실제값을 비교하고
    • 실제값이 없는 데이터의 경우, Pseudo 라벨 값을 비교함
    • 초기에 모델을 잘 구축해뒀을 경우, PseudoLabel이 꽤 괜찮은 라벨링을 해줌
  • 비지도 학습(unsupervised learning)
    • 정답을 알려주지 않고 학습을 시키는 방법
    • 라벨 없이 데이터의 특성을 파악하는 학습 방법
    • 예) Clustering, Generative models - GAN, Autoencoder
    • 장점 : 라벨 불필요
    • 단점 : 상대적으로 낮은 정확도(모델한테 데이터의 특성을 알아서 파악하라고 하기 때문에 컨트롤하기 힘듦)
    • 일반적으로 지도 학습보다는 정확도가 낮음
    • 라벨이 불필요하기 때문에 더 많은 데이터를 사용할 수 있음
  • 강화 학습(reinforcement learning)
    • 주위 환경으로부터 정보를 받아들여 학습을 하는 방법

 

 

 

내용에 문제가 있으면 댓글로 알려주세요!

 

출처 : 인프런 - 실전 인공지능으로 이어지는 딥러닝 개념 잡기(딥러닝 호형)

전이 학습이 뭔지 잘 모르겠으니,,,, 공부해보쟈

전이 학습은 연구에서 가장 중요한 부분이라고 한다..

전이 학습이란?

  • 기존에 알고 있는 다른 지식(source domain)을 통해 새로운 문제(target domain)를 해결하는 학습 방법
  • 전이 학습을 통해서 더 많은 지식을 얻음으로써 성능도 향상시키고 학습 속도도 빠르게 만들 수 있음
  • 성능을 향상시키려면 기본적으로 데이터가 많아야 함
  • 데이터 부족을 극복하기 위해 다른 지식 데이터를 가져옴
  • 학습된 다른 데이터를 가져올 수도 있고, 학습된 다른 모델을 가져올 수도 있음

 

전이 학습 장점

  • 보다 적은 데이터 양으로 성능 개선 가능
    •  적은 우리 데이터 + 많은 소스 데이터
  • 학습 시간 절약

 

전이 학습 종류

  1. Instances-based
    • 적절한 가중치를 이용한 소스 도메인을 활용
    • Instance라고 하면 데이터 하나하나를 말함
    • 소스 도메인에서 타겟도메인과 유사한 데이터를 끌어와서 사용함
    • 소스 도메인에서 데이터를 가져올 경우 데이터 분포 간의 차이가 있기 때문에 소스 도메인에 적절한 가중치를 적용해서 사용함
  2. Mapping-based
    • 두 도메인의 유사성을 이용하여 새로운 데이터를 생성
    • 소스 도메인과 타겟 도메인의 성질의 공통점을 가진 공간을 만들어서 그 데이터 셋으로 모델을 학습 시킴
    • 맵핑 방법 예) cycleGAN
  3. Network-based
    • 소스 도메인의 사전 학습된 모델을 사용
    • 전이 학습에서 가장 많이 사용되는 방법
    • 파이토치에서 Pretrained라는 이름으로 모델을 공유함
  4. Adversarial-based
    • Adversarial Layer를 통해 도메인 라벨을 생성하고 적대적 네트워크가 도메인을 잘 구분하지 못하는 방향으로 학습하여 다른 도메인으로부터 오는 피쳐맵의 차이를 적게 함
    • Adversarial Layer를 만들어서 도메인을 구분할 수 있는 장치를 하나 만듦
    • 모델에 소스 도메인 데이터와 타겟 도메인 데이터가 들어오는데 데이터 분포가 다르다 보니까 소스 도메인으로부터 Pretrained된 모델을 가져와서 타겟 도메인에 적용을 시키면 학습이 잘 되지 않을 수 있음
    • 소스 도메인과 타겟 도메인의 차이를 모델이 구분을 하지 못하게 하기 위해 도메인 라벨을 만들어서 같이 loss를 고려함

 

 

 

내용에 문제가 있으면 댓글로 알려주세요!

 

출처 : 인프런 - 실전 인공지능으로 이어지는 딥러닝 개념 잡기(딥러닝 호형)

+ Recent posts