Project/eda 프로젝트

Model기반 Black-box 최적화 알고리즘 개발

junslee 2025. 1. 14. 22:01
출처 : 2024 Samsung AI Challenge : Black-box Optimization

[배경] 

  • 반도체 공정은 설비와 공정 파라미터의 조정에 따라 재현성 있는 결과를 얻을 수 있도록 파라미터화되어 있습니다.
    그러나 반도체 공정이 점점 더 미세화됨에 따라 기존의 지식에 기반한 개발은 점점 어려워지고 있습니다.
    이러한 복잡한 공정에서 최적의 파라미터를 찾는 일은 높은 복잡성 때문에 매우 어려운 문제입니다. 더불어, 최적화된 파라미터의 타당성을 검증하는 과정에서도 큰 비용이 소요되어 문제가 더욱 해결하기 힘듭니다.
  • 이를 해결하기 위해 모델 기반 최적화(model-based optimization) 방법이 사용됩니다.
    모델 기반 최적화는 시뮬레이션이나 과거 데이터를 활용하여 최적의 파라미터를 찾는 방법입니다.
    특히, 새로운 데이터 조회 없이 과거 데이터로부터 학습한 모델을 활용해 복잡한 공정의 입력 변수를 최적화하는 과정을 오프라인 모델 기반 최적화(Offline Model-based Optimization)라고 합니다.
  • 이 문제의 어려움 중 하나는 기존 데이터로만 학습해야 하므로, 데이터 분포에서 벗어난 파라미터에 대해 학습된 모델이 이를 제대로 반영하지 못할 가능성이 높다는 점입니다.
    특히 최적화된 파라미터는 기존 데이터와 많이 차이가 날 가능성이 큽니다. 따라서, 데이터 분포와 최적화된 파라미터 사이의 균형점을 잘 찾는 것이 중요합니다.
  • 이러한 상황에서 본 대회는 반도체 공정과 같이 복잡한 Black box 문제에 대한 최적화 문제를 풀 수 있는 AI 알고리즘의 발전을 목표로 합니다.

[설명]

  • 최적의 모델을 개발하기 위해, 오프라인 모델 기반 최적화 기법을 활용하여 데이터 분포와 최적화된 파라미터의 균형점을 잘 찾아야 합니다.
    이를 통해 Black box 문제에 대한 AI 알고리즘의 성능을 최대한 향상시키는 것이 목표입니다.
  • 주어진 입력 변수 x_0​부터 x_10​까지의 값을 통해 예측된 타겟 변수 y의 값 중에서 상위 10%를 찾아내고, 이 예측된 상위 10%의 데이터 중 실제 상위 5%에 해당하는 데이터가 얼마나 포함되어 있는지를 측정하고 평가합니다.

[데이터 설명]

Dataset Info.

  • train.csv [파일]
  • 총 40,118개의 학습 샘플
  • ID : 샘플 별 식별 ID
  • x_0 ~ x_10 : 입력 변수
  • y : 타겟 변수

  • test.csv [파일]
  • 총 4,986개의 추론 샘플
  • ID : 샘플 별 식별 ID
  • x_0 ~ x_10 : 입력 변수

  • sample_submission.csv [파일] - 제출 양식
  • ID : 샘플 별 식별 ID
  • y : 예측한 타겟 변수

※ 예측 값에 결측이 존재하는 경우, 제출이 불가능합니다.


[프로젝트 설명]

개요

 

  • 2024 Samsung AI Challenge :Black-box Optimization의 기본 학습입니다.

  • Stage 1.
    참가자 분들께 대회에 기본적인 참여 방법에 대한 베이스라인 코드를 무료로 제공합니다.
    이를 통해, 참가자 여러분은 대회 참여할 때 필요한 기본 지식과 도구를 갖출 수 있습니다.

  • Stage 2.
    참가자 분들의 경험을 한층 더 심화시키는 단계로, 유료 구독을 통해 제공합니다.
    구독자는 대회에 대한 상세한 소개와 대회에 접근하기 위한 기본 방법인 베이스라인 코드에 대한 해설을 볼 수 있습니다.

[프로젝트 과정]

베이스라인

  • Stage 1.
    본 베이스라인은 대회 진행을 위한 기본 베이스라인 코드입니다.
    이 초기 단계에서는 참가자 여러분에게 대회의 기본적인 이해와 참여를 위한 출발점을 마련 해 드리기 위해 베이스라인 코드를 무료로 제공합니다.
    참가자는 제공된 베이스라인 코드를 활용하여 자신의 아이디어와 솔루션을 시작할 수 있습니다.

  • Stage 2.
    본 베이스라인은 대회 진행을 위한 기본 베이스라인 코드와 해설입니다.
    Stage 2는 참가자의 경험을 한층 더 심화시키기 위해 유료로 진행되며, 구독자에게는 코드 에 대한 자세한 해설을 제공합니다.
    이 단계를 통해 참가자는 자신의 데이터 과학 및 분석 능력을 더욱 향상시킬 수 있는 기회를 가질 수 있습니다.

'Project > eda 프로젝트' 카테고리의 다른 글

공개된 EDA 과정 분석  (0) 2025.01.15
baseline 코드  (0) 2025.01.15
데이터 분석 EDA 핵심 도구  (0) 2025.01.15
환경 감수성 분석 프로젝트  (0) 2025.01.07