Differences
This shows you the differences between two versions of the page.
data_analysis:statistics_and_machine_learning [2024/07/04 07:06] – [Diffusion_model] prgram | data_analysis:statistics_and_machine_learning [2025/07/07 14:12] (current) – external edit 127.0.0.1 | ||
---|---|---|---|
Line 762: | Line 762: | ||
GAN이 가장 많이 기여한 것이 바로 이미지 합성 분야다. 두 개의 다른 이미지를 합성하여 새로운 이미지를 생성하는 데 GAN이 사용된다. 예를 들어, 풍경 사진에 구름을 추가하려고 한다면, GAN을 사용하여 풍경 이미지와 구름 이미지의 잠재공간의 벡터를 얻은 뒤, 두 벡터 값을 적절하게 결합해 새로운 벡터를 생성한다. 이후 새로운 벡터를 디코딩하면 원래 풍경 이미지에 구름이 있는 새로운 이미지를 얻는다. | GAN이 가장 많이 기여한 것이 바로 이미지 합성 분야다. 두 개의 다른 이미지를 합성하여 새로운 이미지를 생성하는 데 GAN이 사용된다. 예를 들어, 풍경 사진에 구름을 추가하려고 한다면, GAN을 사용하여 풍경 이미지와 구름 이미지의 잠재공간의 벡터를 얻은 뒤, 두 벡터 값을 적절하게 결합해 새로운 벡터를 생성한다. 이후 새로운 벡터를 디코딩하면 원래 풍경 이미지에 구름이 있는 새로운 이미지를 얻는다. | ||
[20230331_Everything Everywhere All at Once AI가 불러온 신산업 혁명_미래에셋증권] | [20230331_Everything Everywhere All at Once AI가 불러온 신산업 혁명_미래에셋증권] | ||
+ | |||
+ | [[data_analysis: | ||
===VAE=== | ===VAE=== | ||
AE는 데이터 압축과 특징 추출에 주로 사용되는 반면, VAE는 데이터의 확률적 모델링과 새로운 데이터 생성에 더 적합합니다. | AE는 데이터 압축과 특징 추출에 주로 사용되는 반면, VAE는 데이터의 확률적 모델링과 새로운 데이터 생성에 더 적합합니다. | ||
Line 826: | Line 828: | ||
[[data_analysis: | [[data_analysis: | ||
- 디코더만 사용 | - 디코더만 사용 | ||
+ | - Large model이면 디코더만 있어도 decoder-only models can internally encode necessary context from prior tokens, reducing the need for an explicit encoder. | ||
+ | - Decoder-only models still leverage self-attention (though in a causal form), allowing them to capture dependencies efficiently. | ||
+ | - Many tasks that traditionally required encoder-decoder architectures can now be handled end-to-end with a sufficiently large decoder-only model. | ||
+ | - With enough training data, a decoder-only model learns latent representations of input text similar to an encoder but in a more flexible, autoregressive way. | ||
+ | |||
+ | === 유사도 Encoder === | ||
+ | **Cross-Encoder: | ||
+ | 1. 구조: 두 문장을 동시에 하나의 인코더에 입력하여 처리합니다[1]. | ||
+ | 2. 성능: 일반적으로 더 높은 정확도를 보입니다. 문맥을 고려하므로 더 나은 검색 성능을 제공할 수 있습니다[2]. | ||
+ | 3. 처리 방식: 질의와 문서 쌍을 함께 입력으로 받아 처리합니다. 입력 형식은 " | ||
+ | 4. 단점: 계산 비용이 높고 처리 시간이 많이 소요됩니다. 특히 큰 데이터셋에서는 사용하기 어렵습니다[2]. | ||
+ | |||
+ | **Bi-Encoder: | ||
+ | 1. 구조: 두 문장을 별도의 인코더로 독립적으로 처리합니다[1]. | ||
+ | 2. 성능: Cross-Encoder보다 정확도가 다소 낮을 수 있지만, 실제 사용에 더 유리합니다[3]. | ||
+ | 3. 처리 방식: 문서와 질의를 각각 별도로 인코딩한 후, 유사도를 측정하여 관련성이 높은 문서들을 찾습니다[2]. | ||
+ | 4. 장점: 문서들을 미리 임베딩하여 저장해놓을 수 있어, 실제 검색 시 질의에 대해서만 임베딩한 후 유사도 측정을 진행하면 되므로 소요 시간이 비교적 적습니다[2]. | ||
+ | 5. 확장성: 대규모 데이터셋에 적합하며, | ||
+ | 결론적으로, | ||
+ | |||
+ | Citations: | ||
+ | [1] https:// | ||
+ | [2] https:// | ||
+ | [3] https:// | ||
+ | [4] https:// | ||
+ | [5] https:// | ||
+ | |||
+ | 실제 응용에서는 두 방식을 결합하여 사용하는 경우도 많습니다. 예를 들어, 대규모 검색에서는 Bi-Encoder를 사용하여 초기 검색을 수행한 후, 상위 결과에 대해 Cross-Encoder를 적용하여 더 정확한 순위를 매기는 방식을 사용할 수 있습니다. 이렇게 함으로써 Bi-Encoder의 효율성과 Cross-Encoder의 정확성을 모두 활용할 수 있습니다. | ||