[논문] LLM을 활용한 QA 생성

Project/DL 프로젝트

[논문] LLM을 활용한 QA 생성

junslee 2025. 2. 20. 15:11

이 콘텐츠는 LLM을 활용한 질문 생성의 새로운 방법론인 PFQS(Planning First, Question Second)를 소개합니다. PFQS는 Llama 2 모델을 사용하여 답변 계획을 먼저 생성한 뒤, 이를 기반으로 질문을 생성하는 접근 방식을 제시합니다. 본 연구는 기존 방법들과 비교하여 정확성과 일관성을 높인 결과를 보이며, 교육 평가에서의 활용 가능성을 강조합니다. 이를 통해 질문의 내용과 난이도를 동시에 조절할 수 있는 제어 가능성을 제공합니다. 이 콘텐츠는 교육적 가치 창출에 기여하는 질문 생성 시스템의 발전을 다루고 있습니다.

핵심 용어

LLM: LLM는 'Large Language Model'의 약자로, 대규모 자연어 처리 모델을 의미합니다. 이는 많은 텍스트 데이터를 학습하여 사람처럼 언어를 이해하고 생성할 수 ...

1. 📚 LLM 기반 질문 생성 방법론

PFQS(Planning First, Question Second) 방법론은 학생들의 능력을 평가하기 위한 효과적인 질문 생성을 위해 Llama 2를 활용하여 답변 계획을 생성하고 이를 바탕으로 질문을 만들어낸다. 이렇게 생성된 질문은 내용과 난이도 조절을 동시에 가능하게 한다.
실험 결과, PFQS는 기존의 최첨단 방법들보다 뛰어난 성능을 발휘하며, 특히 교육적 요구에 대한 일관성을 개선하는 데 효과적임을 보여준다.
이 방법은 답변 계획을 통해 질문 생성 시 다양한 정보와 요구 조건을 반영하여 질문의 질을 향상시키며, 교육의 맥락에 적합한 질문을 생성하여 다양한 평가 가능성을 가진다.

1.1. 질문 생성의 개선을 위한 접근 방법

교육 분야에서 학생의 능력을 평가하기 위해 생성된 질문은 전문가의 요구를 충족해야 한다.
질문 생성의 필요성은 통제 가능한 질문 생성(CQG)의 중요성을 나타내고 있다.
현재의 CQG 방법은 주로 난이도 조정에 초점을 맞추고 있으며, 질문의 내용과 평가되는 능력의 통제는 간과하고 있다.

1.2. LLM을 활용한 질문 생성 방법론

PFQS(Planning First, Question Second) 방법론은 Llama 2를 활용하여 답변 계획을 생성하고, 이를 바탕으로 질문을 생성하는 방식을 제안한다.
이 방법은 후보 답변뿐만 아니라 LLM의 이해력과 다양한 요구사항을 통합하여 질문 생성을 단순화하고 조절 가능하도록 한다.
Fairy-taleQA 데이터셋을 사용한 실험 결과, PFQS는 이전의 가장 발전된 방법보다 더 나은 성과를 보이며 요구사항의 일관성에서도 개선점을 나타낸다.
Llama2와 Mistral에의 추가 적용은 제로샷 설정에서도 요구 사항의 일관성을 더욱 향상시킨다.
PFQS에 의해 생성된 질문은 금본 질문과의 유사성과 전문가의 주석 레이블과의 일관성이 더 높은 경향을 보인다.

1.3. LLM 기반 QA 생성 방법론 제안

다양성과 난이도는 교육적 QG에서 중요한 요소로 인식된다. 많은 연구들이 자동 생성된 QA 쌍에서 이들 요소의 중요성을 강조하고 있다.
교육적인 상황에서는 맥락에 기반한 자동 생성 질문이 학생들의 다양한 능력을 평가할 수 있어야 하며, 난이도를 조절할 수 있는 것이 필수적이다.
제안된 PFQS(Planning First, Question Second) 방법은 질문의 내용과 난이도를 동시에 조절할 수 있도록 설계되었다.
PFQS 방법은 Llama2를 활용해 후보 답변을 포함한 답변 계획을 생성하며, 이는 질문 생성의 컨트롤 정보를 포함한다.
실험 결과, PFQS는 기존의 최첨단 방법보다 0.254에서 0.413으로 MAP@1에서 개선됐으며, 대규모 언어 모델을 사용했을 때 요구 사항 일관성을 높이는 데 기여했다.

1.4. 질문 생성에서 후보 답안 선택의 중요성

질문 생성(QG)에서 후보 답안 선택은 높은 품질과 관련성 있는 질문을 생성하기 위해 잠재적인 답안을 선택하는 과정이다.
기존의 여러 QG 방법들은 명시적 추출에만 초점을 맞추어 후보 답안의 다양성을 제한하는 경향이 있다.
최근의 QG 방법은 답안 생성기를 훈련시켜 후보 답안을 생성함으로써 이 문제를 해결하고자 한다.
교육적 질문 생성에서는 자연어 질문을 자동으로 생성하여 아동의 독해 능력 평가에 적합한 질문이 필요하다.
최근 연구들은 질문 생성에서 다양성의 중요성을 강조하며, 본 논문은 생성된 질문의 교육적 가치를 확대하기 위한 다양한 요소를 탐구한다.

1.5. ️ 질문 생성의 조절 가능성

조절 가능 질문 생성(CQG)에는 두 가지 주요 범주가 있으며, 이는 유형 조절 질문 생성(TCQG)과 난이도 조절 질문 생성(DCQG)이다.
TCQG는 덜 탐구된 과제로, Cao와 Wang(2021) 및 Gao 외(2022)는 다양한 질문 유형에 대한 온톨로지를 정의하여 유형 인식 질문 생성을 수행했다.
DCQG는 비교적 새로운 과제로, 질문 난이도의 정의는 최근 몇 년 동안 일관되지 않았다.
Cheng 외(2021)는 질문에 답변하는 데 필요한 추론 단계의 수를 난이도로 정의하고, 질문 생성을 위한 그래프 기반 프레임워크를 제안했다.
본 연구에서는 생성된 질문의 내용과 어려성을 모두 고려하여 교육적 QG의 핵심 요인들을 다룬다.

2. 🛠️ QA 생성 과정

QA 생성 과정은 계획 생성과 질문 생성의 두 주요 단계로 구성된다. 계획 생성을 위해, Llama 2라는 LLM을 사용하여 주어진 문맥과 요구 사항에 따라 답변 계획을 생성한다.
초기 계획 생성을 위해 주어진 문맥과 속성 레이블 기반의 프롬프트 디자인이 사용되며, LLM의 출력을 통해 초기 계획이 생성된다.
생성된 초기 계획은 질문 생성(QG) 모델로 전달되어 질문-답변 쌍이 만들어진다. 그러나 초기 계획의 일부 항목은 질문 생성에 적합하지 않기 때문에 이 단계에서 필터링이 필요하다.
QG 모델의 입력으로서는 계획과 문맥, 그리고 지정된 프롬프트가 사용되며, 이 과정에서 model의 훈련 목표는 모든 매개변수에 대한 로그 가능성을 최소화하는 것이다.
최종 계획은 원래 계획에서 무작위로 선택된 여러 포인트로 구성되며, 이는 생성된 질문의 다양성을 높이는 데 도움이 된다.

3. 📊 실험 설정 및 결과 분석

FairytaleQA 데이터셋은 아동 독해력을 위한 고품질 데이터셋으로, 10,580개의 질문이 278개의 아동 친화적인 이야기에서 출처를 두고 생성되었다. 이 데이터셋은 4719개의 질문과 답변 쌍을 포함하고 있다.
질문 생성을 위해 내러티브 요소 라벨과 난이도 라벨이 전문가에 의해 주석 처리되며, 이를 통해 컨텐츠와 난이도를 제어하면서 질문을 생성한다.
주된 실험에서 MAP@N과 Rouge-L, BERTScore 점수를 사용하여 생성된 질문과 실제 질문 쌍 간의 토큰 수준 및 의미상의 유사성을 평가한다.
PFQS 방법은 네 가지 기준 모델(FQAG, SQG, DQAG, BART-large)과 비교 분석되었고, 이들 모델 모두는 고객 질문 생성을 위한 설계로 되어 있다.
실험 결과, PFQS 방법은 모든 기준 모델보다 우수한 성능을 기록하였으며, 특히 BART-large에 비해 MAP@1, MAP@3, MAP@5, MAP@10 모두에서 유의미한 개선을 보였다.

3.1. FairytaleQA 데이터셋 개요

FairytaleQA는 4,719개의 고품질 어린이 독해 문제를 포함한 데이터셋으로, 278개의 아동 친화적인 이야기에서 다양한 난이도의 10,580개 질문을 관찰할 수 있다.
이 데이터셋의 학습, 검증 및 테스트 세트는 각각 8,548, 1,025 및 1,007개의 QA 쌍으로 구성되어 있다.
질문 생성을 위해 전문가들이 주석을 단 서사적 요소와 난이도 레이블을 활용하여 콘텐츠와 난이도를 제어한다.
주된 실험에서 사용된 메트릭은 MAP@N 점수이며, 생성된 질문의 토큰 수준 유사성과 의미 유사성을 평가하기 위해 ROUGE-L과 BERTScore를 사용한다.
실험에서 PFQS 방법과 네 가지 기준선 방법(FQAG, SQG, DQAG, BART-large)을 비교하는데, 이들 모두는 질문 생성을 위한 설계가 되어 있다.

3.2. LLM을 활용한 QA 생성 성과 비교

참고 질문 기반 답변은 기준선에 포함되지 않는다.
실험 결과는 표 2에서 기초 성과와 PFQS 방법의 성능을 비교하여 제시된다.
MAP@N과 Rouge-L 지표에서 FQAG와 SQG 방법의 성능이 각각 0.440/0.435, 0.460/0.455로 나타났다.
DQAG 방법은 MAP@N에서 0.500/0.503을 기록하며 가장 높은 성능을 보였다.
PFQS 방법은 MAP@N에서 0.569/0.547의 성과를 달성하여 다른 모델들과 비교해 상당한 성능 개선을 보여준다.

3.3. PFQS 방법의 성능 분석

MAP@N 점수는 Rouge-LF1과 BERTScore F1으로 측정되며, 결과는 SLMQ를 기준으로 한다.
BART-large + Prompt 및 BART-large + Plan 모델은 각각 MAP@1, MAP@3, MAP@5, MAP@10에서 성능 증가를 보인다.
PFQS 방법은 검사 결과에서 DQAG보다 0.044 높은 성능을 나타내며, 질의 생성의 정확성이 향상됨을 보여준다.
질문 생성을 위해 프롬프트와 계획 모두를 포함하는 것이 모델의 성능 개선에 긍정적인 영향을 미친다.
실험 결과, 질문은 높은 품질을 가지고 있으며, 프롬프트와 계획이 결합되었을 때 성능이 가장 우수하다.

3.4. 질문 생성과 레이블 일관성 평가

전문가 주석 레이블은 Fairy-tale QA에서 질문의 content와 난이도를 조절하기 위해 중요하다.
질문은 서사적 요소에 따라 다양성을 가지며, 이는 학생들의 다양한 능력을 평가하는 데 필요한 정보를 제공한다.
예를 들어, 설정에 대한 질문은 학생이 정보를 추출할 수 있는지를 평가하고, 인과 관계에 대한 질문은 더 깊은 이해를 요구한다.
BART-large를 이용한 PFQS 방법은 레이블 일관성을 평가하는 데 우수하며, 질문의 난이도를 효과적으로 통제한다고 여겨진다.
프롬프트가 조정된 플랜에서 BART-large와의 비교를 통해, 프롬프트가 레이블 일관성을 높이는 데 긍정적인 영향을 미친다는 것이 나타났다.

3.5. LLM의 레이블 일관성 평가 결과

레이블 일관성을 평가한 결과로는 Llama2와 Mistral에 대한 PFQS 방법의 성능이 제시되었으며, Llama2에서는 0.8669와 Mistral에서는 0.5938이라는 수치가 관찰되었다.
프롬프트와 계획이 LLM의 성능 향상에 기여함을 보여주는데, 특히 조정된 계획의 추가가 레이블 일관성에서 가장 높은 성능을 나타내었다.
조정된 계획에서는 모든 레이블에 대한 정보를 포함하고 있어 프롬프트 추가가 새로운 정보를 제공하지 못하기 때문에 성능이 감소할 수 있다.
결과를 통해 Llama2와 Mistral 모델 모두 조정된 계획을 사용한 경우 일관성이 높아지며, 프롬프트의 추가가 긍정적인 효과를 미친다고 평가된다.
프롬프트의 영향을 분석한 결과 BART-large의 경우와 유사하게 나타났으며, 프롬프트가 지역 또는 합계 정보 부족을 보완하는 역할을 할 수 있음을 시사한다.

4. 📊 다양한 QG 모델의 성능 분석

PFQS 방법은 여러 QG 모델(BART-large, T5-base, flan-T5-base)의 성능을 분석하는 데 사용된다. 이들은 FairytaleQA에 대해 직접 훈련되거나 프롬프트 및 계획이 추가된 상태에서 평가된다.
BART-large 모델은 프롬프트와 계획이 추가될수록 성능이 향상되며, 특히 MAP@1 점수에서 프롬프트가 중요한 영향을 미친다.
T5-base와 flan-T5-base 모델도 유사한 경향을 보이지만, 각 모델마다 성능 차이와 프롬프트 및 계획의 영향력이 다르게 나타난다.
QG 모델 성능은 품질 향상을 위해 프롬프트와 계획을 모두 결합했을 때 가장 효과적이며, 이는 PFQS 방법의 강력함을 나타낸다.
계획 생성 방법으로, 초기 계획, 융합 계획, 필터링된 계획, 랜덤 계획, 금본위 계획이 실험되며, 특히 융합 계획이 모든 MAP@N 점수에서 향상 효과를 보인다.

5. 📘 LLM 기반 질문 생성(QG) 방법 PFQS

PFQS는 LLM을 활용하여 후보 답변 선택을 위한 답변 계획을 생성하는 새로운 질문 생성 방법이다.
이 방법은 표준 프롬프트를 확장하여 후보 답변, LLM의 이해, 통제 정보를 포함한다.
실험 결과, PFQS는 우수한 성능을 보이며, 계획을 통합함으로써 QG 모델의 다양성과 라벨 일관성을 향상시킨다.
향후 더 많은 교육 질문 생성 데이터셋이 등장하면, PFQS의 '계획 우선, 질문 후속' 접근법의 응용 가치가 드러날 것으로 보인다.
제안된 방법은 자동 평가가 가능한 데이터셋을 필요로 하며, 일반화된 성능 개선을 위해 적합한 라벨이 요구된다.

5.1. PFQS: LLM 기반 질문 생성 방법론

PFQS는 LLM을 활용한 새로운 질문 생성(QG) 방법으로, 기존 QG 방법들과는 달리 답변 계획을 생성하여 후보 답변을 선택하는 방식을 사용한다.
이 방법은 표준 프롬프트를 확장하며, 후보 답변, LLM의 이해, 제어 정보 등을 포함하여 질문 생성에 기여한다.
실험 결과, PFQS는 뛰어난 성능을 보여주며, 계획의 통합은 QG 모델의 다양성과 레이블 일관성을 향상시킨다. 이는 표준 프롬프트를 사용하는 것과 비교했을 때 더욱 두드러진다.
PFQS 접근법은 LLM의 도움을 받아 복잡한 요구사항이 있는 질문 생성 작업에서 다른 모델을 훈련하는 대신 더 많은 정보를 프롬프트에 통합할 수 있는 새로운 가능성을 열어준다.

5.2. QA 생성 기법의 효과성과 한계

전문가 주석이 있는 레이블이 포함된 교육 질문 생성 데이터셋을 활용하면, 연구 방법의 적용 가치를 점진적으로 보여줄 수 있다.
연구 방법은 FairytaleQA 데이터셋에서 비교 평가되었으며, 다른 데이터셋에서의 전문가 주석 레이블이 더 많을 경우 보다 포괄적인 평가가 가능할 것으로 추정된다.
질문 생성(QG) 모델의 MAP@1 점수를 높이기 위한 랭커 모델 구축 시도 결과, 안정적인 개선 효과는 발견되지 않았다.
향후 연구에서는 로버스트한 랭커 모델이나 긍정 및 부정 샘플을 포함하는 데이터셋이 필요할 것으로 예상된다.
본 연구에서는 LLN을 활용하여 QG 모델의 질문 생성 능력을 다양하게 향상하고자 하였으며, 사용된 데이터셋과 모델은 모두 공개된 자료이다.

5.3. 윤리적 문제 없이 진행된 QA 생성

최종적으로 계획, 프롬프트 및 질문은 FairytaleQA Nan의 텍스트나 레이블을 기반으로 생성되며, 해로운 정보를 포함하지 않는다. 따라서 본 연구에는 윤리적 문제가 없다.
연구에 대한 귀중한 피드백과 도움을 준 익명의 심사위원들에게 감사의 인사를 전한다.
이 연구는 중국 국가자연과학기금의 지원을 받았다. (지원번호: No.62277002)

5.4. 최근 연구 및 접근법에 대한 개요

질문 생성 및 답변 회복을 통한 학습을 강조한 연구가 진행되고 있다. 이를 통해 다양한 질문 형식을 탐구하는 사례가 제시된다.
질문 난이도 추정에 대한 최근 접근법을 포함한 조사 연구가 2023년에 발표되었다. 이는 질문 생성을 위한 한 가지 중요한 기준으로 작용할 수 있다.
2021년의 연구에서는 복잡성과 단순성을 조절할 수 있는 질문 생성을 위한 기법이 개발되었다. 이를 통해 질문의 난이도를 사용자 정의 가능하게 하였다.
교육 목적을 가진 자동 질문 생성에 대한 체계적인 리뷰가 발표되었으며, 교육 환경에서의 실용성을 논의하고 있다.
AI 기반 질문 생성 모델의 다양성과 효과성에 대한 연구가 진행되고 있으며, 이는 점점 더 발전하고 있는 분야이다.

5.5. Llama2를 활용한 질문 생성 프롬프트 디자인

초기 계획 생성을 위해서는 여러 질문의 속성 레이블이 필요하며, 총 7개의 속성이 전문가에 의해 주석화된다.
초기 계획 생성을 위한 프롬프트 템플릿에서 [ATTRIBUTE]와 [CONTEXT]는 주어진 정보로 대체된다.
주요 포인트 생성을 위한 프롬프트 템플릿에서는 질문과 답변을 활용하여 Llama2가 답변이 포함된 문장을 생성하도록 한다.
문장 패러프레이징 프롬프트에서는 주어진 문장을 바탕으로 의미를 지나치게 바꾸지 않으면서 다른 단어를 사용하도록 Llama2가 유도된다.
질문 생성에는 프롬프트 템플릿이 사용되며, 특정 요소를 중심으로 질문과 답변을 생성하도록 한다.

5.6. 질문 생성의 일관성 평가 방법

질문 생성의 일관성을 평가하기 위해 생성된 질문과 관련된 다양한 레이블 간의 일관성을 분석하는 방법을 소개한다.
Llama2 모델은 명시적 답변과 암시적 답변을 잘 구분하지 못하며, 대답의 성격을 판단하기 위해서 단어 수준에서 비교와 판단이 필요하다.
명시적 답변의 경우 대답과 맥락에서 공통적으로 나타나는 단어 수가 많고, A와 B의 비율에 따라 답변이 명시적인지 암시적인지를 판단하는 규칙을 제안한다.
PFQS 방법에서는 Llama-2-7B-chat 모델을 사용하여 답변 계획을 생성하며, BART-large 모델로 QG 모델을 초기화한다.
실험에서는 코사인 유사도를 계산하기 위해 MiniLM-L6-v2 모델을 사용하고 있으며, 모든 모델은 Nvidia A100 GPU에서 훈련된다.

5.7. QA 생성 사례 분석

두 개의 사례(Table 15와 Table 16)는 BART-large 모델을 활용하여 생성된 완전한 예시를 보여준다. 이들은 질문 생성의 전형적인 상황을 잘 나타낸다.
특정 포인트들이 여러 질문을 생성하는 능력을 지니고 있으며, 이는 QG 모델이 각 포인트에 대해 질문을 생성하는 대신 필터링할 수 있는 능력이 있음을 나타낸다.
생성된 질문-답변 쌍은 두 사례 모두에서 높은 품질과 다양성을 보인다.
각 질문은 텍스트에서 한 개의 문장을 기반으로 하여 명확한 답을 제공하고, 질문의 통합이 이루어진다.
결과적으로, 제시된 예시들은 질문 생성 과정에서 발생할 수 있는 종료 및 결과의 연관성을 잘 설명하고 있다.

'Project > DL 프로젝트' 카테고리의 다른 글

RAG(Retrieval-Augmented Generation) 시스템을 고도화하기 위한 몇 가지 핵심 기술과 방법 (0)	2025.03.03
BoardgameQA: A Dataset for Natural LanguageReasoning with Contradictory Information (0)	2025.02.18
[DL 프로젝트]보드게임 AI 챗봇 데이터 수집 검증 체계 구축 방안 (0)	2025.02.18
다중 모달 이미지 변환 (Multimodal Image Transformation) (1)	2025.02.12
DL 주제별 참고 자료 정리 (1)	2025.02.12

현재글[논문] LLM을 활용한 QA 생성

DataPioneerJun

'Data를 보면 세상을 볼 수 있다' DataScientist이자 DataPioneer인 junslee의 블로그입니다.

점프 투 파이썬, asac7기, 해시, light in the dark, 문자열 뒤집기, 나머지, 힙(heap), light_in_the_darkness, 스택/큐, asac 7기, 소인수분해, 영어회화, 데이터분석, 너의 평점은, ASAC, litd, 백준, 아일루, day 03, kaggle, 약수 구하기, 25206번, 세탁소 사장 동혁, 최댓값, 파이썬, 2903번, 중앙 이동 알고리즘, 2720번, SQL, 프로그래머스,

Today :
Yesterday :

DataPioneerJun