Project/DL 프로젝트

BoardgameQA: A Dataset for Natural LanguageReasoning with Contradictory Information

junslee 2025. 2. 18. 15:24
이 자료는 모순된 정보를 다루는 자연어 추론에 대한 데이터셋인 BoardgameQA를 소개합니다. 이 데이터셋은 자동화된 추론의 필요성을 강조하며, 기계 학습 모델이 모순된 정보 조합에서 어떻게 결론을 도출하는지를 측정할 수 있게 설계되었습니다. 또한, 정보 출처에 대한 우선순위를 설정하여 모순 해결 방법을 제공합니다. 이 연구는 현재의 언어 모델들이 실제 상황에서의 모순된 정보 처리를 잘 수행하지 못함을 보여줍니다. BoardgameQA는 모순된 입력을 기반으로 한 다단계 추론의 최초 데이터셋으로, 인공지능 시스템의 강건성을 발전시키기 위한 기초 자료가 될 수 있습니다.
핵심 용어
  • 모순된 정보: 모순된 정보는 서로 상반되거나 충돌하는 정보를 의미합니다. 두 개의 사실이 있을 때 하나는 옳고 다른 하나는 그르다는 상황을 가져오는 것이죠. 예를 들어, 한 소스에서는 '...

1. 🎲 보드게임QA: 모순 정보를 활용한 자연어 추론 데이터셋

  • 보드게임QA는 자동화된 추론을 위해 모순 정보와 정보 출처에 대한 선호도를 활용하는 데이터셋이다. 이 데이터셋은 LMs의 추론 능력을 측정할 수 있도록 설계되었다.

  • 연구에 따르면, 최신 LMs는 모순된 출처의 정보로 인해 추론하는 데 한계를 보이며, 특히 최소한의 입력 정보로는 성능이 더 떨어진다.

  • 보드게임QA는 불완전한 지식을 기반으로 하며, 보드게임 시나리오 형태로 복잡한 규칙을 포함하여 연구에 필요한 배경 지식을 LM 스스로 추가하여 해결해야 한다.

1.1. BoardgameQA 데이터셋 소개
  • BoardgameQA는 모순된 정보로 자연어 추론을 위한 데이터셋이다.

  • 자동화된 추론은 비구조적 자연어 텍스트에서 필수적인 요구 사항으로, 많은 잠재적 응용 분야가 있다.

  •  
  • 기존의 자동화된 추론 평가는 일관되고 일관된 정보 집합에 대한 접근을 가정하지만, 실제 세계에서는 정보가 자주 모순되거나 부정확하다.

  • 따라서, 모델은 이러한 갈등을 해결할 수 있는 전략이 필요하다.

  • 정보 출처의 신뢰성을 바탕으로 우선순위를 부여하는 방법이 갈등을 해결하는 일반적인 방식으로 제시된다.

1.2. BoardgameQA의 다중 홉 추론 연구
  • BoardgameQA는 LMs의 추론 능력을 측정하기 위해 설계된 데이터셋으로, 암묵적 배경지식을 통합하여 실제 추론 문제를 반영한다.

  • 최신의 LMs들은 정보의 충돌이 존재할 때 성능이 떨어지며, 이는 fine-tuning으로 개선될 수 있지만 여전히 미흡하다.

  • 기존의 자동화된 추론 연구는 제공된 지식이 일관하다고 가정하지만, 많은 실제 응용 프로그램에서는 정보의 비일관성과 모순이 발생한다.

  • 정보의 충돌을 해결하기 위해 출처의 신뢰성최신성을 기준으로 선호도를 적용하는 방법이 사용된다.

  • BoardgameQA는 다중 홉 추론을 요구하는 시나리오로 구성되어 있으며, 모델이 자체적으로 부족한 지식을 처리해야 한다는 점에서 기존의 추론 벤치마크와 차별화된다.

1.3. 텍스트 기반 논리적 추론 및 충돌 해결
  • 정보는 많은 응용 프로그램에서 일상적인 시나리오이며, 강력한 AI 시스템 개발에 필수적이다.

  • 텍스트 기반의 논리적 추론 접근법에서 초기 연구는 언어 모델(LM)을 미세 조정하여 논리적 추론 질문에 대한 답변을 직접 제공하도록 하였다.

  • 규칙 R1에서 개구리가 사자와 개의 총 금액보다 많은 돈을 가지면 발전소를 건설하고, R2에서는 우선순위 규칙으로 인해 개구리가 공격하지 않으면 발전소를 건설하는 것을 결정짓는 방식이 다르게 작용한다.

  • 기존의 강화학습 기법과 함께 여러 가지 접근을 통해 성능 개선과 더 정밀한 중간 증명 체인을 달성할 수 있다고 보고된다.

  • 불완전한 정보 내에서의 추론을 다룬 연구들은 부분정보가 필요한 상황을 설정하고 그것에서 오는 모델의 역할을 강조한다.

1.4. 논리 이론 및 우선순위 규칙
  • 연역적 이론인 T는 양수 또는 음수의 사실 집합 F와 규칙 집합 R로 구성되며, T에서 도출할 수 있는 사실 f를 정의한다.

  • 쇠퇴 가능 이론 T(d)는 사실 집합 F, 규칙 집합 R, 그리고 우선순위를 가진 규칙 쌍 O로 구성되며, 이를 통해 더 높은 우선순위의 규칙에 의해 결론이 반박될 수 있다.

  • 예를 들어, 한 규칙이 사실임을 시사하더라도, 더 높은 우선순위의 규칙이 이를 반대할 때 높은 우선순위의 규칙에서 유도된 결론을 수용한다.

  • 충돌 유형은 두 개의 규칙이 동시에 진리일 수 없는 경우 발생하며, 이론 T(d)에서 각 규칙의 우선순위가 이를 결정한다.

  • 이론 T(d)의 예시는 "Tweety는 펭귄이다"라는 사실에서 시작하여, 다른 규칙들과의 상충을 통해 결론 "Tweety는 날지 않는다"로 이어진다.

1.5. 보드게임 QA 데이터셋 생성 방법
  • BoardgameQA 데이터셋은 모순된 입력을 가진 추론 능력을 측정하기 위해 생성된다. 이 데이터셋은 역행 이야기 생성 전략을 사용하여 구성된다.

  • 각 예제는 (논리가 결여된) 이론과 질문으로 구성되며, 질문에 대한 라벨은 proved, disproved, unknown으로 설정된다.

  • 이 데이터셋은 여러 수준의 어려움을 측정하기 위해 다양한 변수를 포함하고, 각각의 이론은 보드게임의 현재 상태와 규칙을 설명한다.

  • 사용되는 개체술어는 정해진 집합에서 샘플링되며, 개체로는 동물들이 사용되고, 보드게임에서 영감을 받은 동사들이 술어로 사용된다.

  • 데이터셋 생성 시 훈련테스트에서 서로 다른 개체와 술어를 사용하여 문제를 더 도전적으로 만들기 위해 접근한다.

 

2. 🧩 BoardgameQA의 정보의 불완전성 및 갈등 해결의 영향

  • BoardgameQA는 다양한 갈등 수준과 정보의 불완전성을 조절하는 변수를 활용하여 모델의 인식 능력을 평가하는 데이터셋이다.

  • 각 모델은 갈등 개수가 증가함에 따라 성능이 감소하며, 이는 갈등 해결이 주요한 문제의 난이도 요소임을 보여준다.

  • 갈등 유형에 따라 모델의 성능이 다르며, 주로 Type1 갈등에서 더 나은 성능을 발휘하는 경향이 있다.

  • 정보의 부족이 존재할 경우, 필요한 지식의 양이 증가함에 따라 세밀하게 조정된 모델의 성능이 떨어지는 경향이 관찰된다.

  • 실험 결과들은 모델이 스푸리어스 증명을 통해 높은 정확도를 달성하고 있다고 지적하며, 이는 실제로 유효한 추론단계를 반영하지 않는다.

2.1. 보드게임 QA의 범주 및 예시
  • 범주는 개체의 나이를 특정 단위와 비교하는 것으로, 예를 들어, "그 개가 1년 이상인 경우"로 설명된다.

  • 정형화는 이름의 글자에 대한 질문을 포함하며, 예를 들어, "개 이름이 'Paco'이고 고양이 이름이 'Pashmak'인 경우"에서 나타난다.

  • 비교는 개가 다른 숫자와 비교되는 상황을 다루며, 예를 들어, "개가 10명 미만의 친구를 가진 경우"로 정의된다.

  • 세상에 대한 지식은 규칙 본문과 사실을 연결하는 데 필요하며, "개가 현재 캐나다에 있다면"이 예시로 주어진다.

  • 객체의 적합성을 이해하기 위해 그 개체가 가진 특성이나 도구에 대한 지식이 요구되며, "개가 칼을 가지고 있다면" 등의 예시로 설명된다.

2.2. 이론 생성 및 질문 샘플링 방법
  • 이론 생성을 위해 각 질문을 증명하거나 반증해야 하며, 질문은 샘플에서 선택된 엔티티와 술어로 구성된다.

  • 질문의 긍정 및 부정에 대한 신호를 샘플링한 후, 자연어로 변환하여 처리한다.

  • 룰 타입을 선택하고, 각각의 질문에 대해 재귀적으로 새로운 룰과 사실을 생성하는 과정이 필요하다.

  • 갈등 여부는 확률적 방법(동전 던지기)에 따라 결정되며, 갈등을 생성하기 위한 새로운 서브 질문과 룰을 만들어 사용한다.

  • 알고리즘의 재귀 호출은 이론 생성 시 추가 홉(hop)이 포함된 증명으로 이어지며, 최대 홉 수에 의해 중단 기준이 설정된다.

2.3. 불완전 정보의 생성 과정
  • 불완전 정보를 바탕으로 질문과 규칙을 생성하여, 특정 지식이 언어 모델(LM)에서 파생되도록 한다.

  • 예시로 “개와 고양이가 합쳐진다”는 목표를 위해 서브 질문과 규칙을 생성하여, 추가적인 지식을 필요로 하는 단계가 요구된다.

  • 문제를 더 복잡하게 만들기 위해, 훈련 세트에 일부 추가 지식과 추론만 포함하여 모델이 훈련 세트에서 단순히 배우지 못하도록 한다.

  • 텍스트 형식으로 변환하기 위해 수작업으로 구성된 템플릿을 사용하며, 테스트 세트 전용 템플릿도 포함된다.

  • 예시를 생성할 때, 증명된 예시와 부정된 예시의 생성 방식이 다르며, 이를 통해 다양한 레이블을 갖는 예시를 생성할 수 있다.

2.4. 보드게임 QA 실험 개요
  • 실험의 주요 목표는 LM(언어 모델)이 타당한 추론(Reasoning)을 할 수 있는지를 검증하는 것이다.

  • 다양한 LM 아키텍처(인코더 전용, 인코더-디코더 및 디코더 전용)와 여러 사전 훈련 및 학습 패러다임을 사용하여 실험을 진행한다.

  • 실제 실험에서는 BERT-large, T5 1.1 XXL, PaLM 62B, 및 FLAN-PaLM 540B 모델들의 성능을 평가하며, 여러 깊이에서의 정확도를 측정한다.

  • 선택한 학습 방법에는 파인튜닝, Few-Shot 학습, 및 소프트 프롬프트 튜닝이 포함되며, 주로 정확도(Classification Accuracy)를 지표로 사용한다.

  • 추가적인 데이터셋 버전을 생성하여 모델의 타당한 추론 능력을 보다 상세히 이해하려고 한다.

2.5. 충돌 입력의 추론 난이도
  • BoardgameQA 데이터셋은 다양한 변수들을 사용하여 충돌의 양과 유형, 추가 정보의 필요성을 조절한다.

  • 모델들은 깊이 1에서 비교적 괜찮은 성능을 보이지만, 깊이 2와 3에서는 성능이 상당히 저하된다.

  • 충돌 입력을 처리하는 것은 파인 튜닝이 진행된 모델에서조차 어려워지며, 일부 모델들은 모든 깊이에서 저조한 성능을 보인다.

  • 최근 연구 결과에 따르면 대규모 LM들이 높은 정확도를 달성하기 위해 간접적인 추론을 사용하는 경향이 나타난다.

  • 모델의 성능은 충돌이 많아질수록 일관되게 저하되며, 이는 문제 해결 난이도의 주요 요소로 작용한다.

 

3. 📊 주의 산만 요소가 추론에 미치는 영향

  • BoardgameQA 데이터셋에서 0, 1, 또는 2개의 주의 산만 요소를 추가하여 성능을 평가하였다. 이 데이터셋은 "주의 산만 요소가 포함되지 않음(NoDistractors)", "일부 주의 산만 요소(SomeDistractors)", "많은 주의 산만 요소(ManyDistractors)" 세 가지 버전으로 나뉜다.

  • 모델 성능은 적은 수의 주의 산만 요소가 추가될 때 크게 저하되지 않는 것으로 나타났다. 이는 주의 산만 요소가 모델이 거짓 상관관계를 피하는 데 도움을 줄 수 있음을 시사한다.

  • 그러나 많은 주의 산만 요소가 포함될 경우, 성능이 일관되게 감소하는 경향을 보였다. 이는 실제 응용 시 흔히 발생하는 문제임을 강조한다.

  • 특히, 충분한 데이터가 없이도 문제를 해결하는 몇 가지 모델의 성능이 저조했으며, 이들은 상충하는 정보 세트를 관리하는 데 어려움을 겪었다.

  • 이러한 결과는 현재의 언어 모델이 모순된 입력에 대한 추론 능력의 격차를 보여주며, 향후 연구에서 이 문제를 해결할 수 있는 방법론 개발을 위한 가이드가 되기를 희망한다.

3.1. 모델 크기와 지식의 영향
  • 모델의 크기가 크고, 모델에 포함된 지식량이 많기 때문에 결과는 상대적으로 변화가 적은 경향이 있다.

  • 현실 세계의 지식을 활용하는 것이, 이러한 모델에게는 학습하는 데 더 용이할 수 있다.

3.2. 방해 정보가 추론에 미치는 영향
  • 본 연구에서는 방해가 되는 사실과 규칙이 모델 성능에 미치는 영향을 측정한다. 특히 방해 요인은 증명에 나타나지 않으며 레이블을 변경하지 않는 요소이다.

  • 방해 요소를 포함한 서브 질문을 샘플링하여 BoardgameQA 데이터셋의 세 가지 버전(NoDistractors, SomeDistractors, ManyDistractors)을 생성하였다.

  • 실험 결과, 소수의 방해 요인이 있는 경우 모델 성능이 크게 저하되지 않지만, 방해 요인을 많이 추가하면 모델 성능이 크게 감소하는 경향이 나타났다.

  • 몇몇 방해 요인이 성능에 미치는 영향은 일관되며, 특히 방해 요인의 수가 많을수록 몇 샷 모델의 성능이 지속적으로 감소한다.

  • 본 연구는 BoardgameQA 데이터셋을 통해 언어 모델의 논리적 추론 능력에 대한 중대한 격차를 강조하며, 특히 모순된 정보 세트를 다루는 것이 현실 세계 응용에서 흔한 시나리오임을 보여준다.

3.3. 데이터셋의 활용과 미래 연구 방향
  • 이 데이터셋은 향후 언어 모델의 추론 능력 향상을 위한 방법론 개발에 기여할 것으로 기대된다.

  • 또한, 데이터셋은 갈등 해결을 위한 대안적인 공식화를 찾는 데 유용할 수 있다.

3.4. 모델 성능 비교
  • BoardgameQA의 세 가지 버전에서 모델 performances는 다양한 불완전한 정보에 대한 정확도 차이를 보여주고 있다.

  • 세 가지 모델(BERT Large, T5 XXL, PaLM 62B, PaLM 540B)에 따라 정확도가 다르게 나타났다.

  • 다양한 방해 요소(distractors)의 영향을 분석하여 모델의 성능을 평가한 결과, 각 모델의 정확도가 달라짐을 관찰할 수 있다.

3.5. 참고 문헌 목록
  • Emily Allaway 외 5명이 "Penguins don’t fly: Reasoning about generics through instantiations and exceptions"를 발표하였다. 이 논문은 일반적 개념에 대한 추론을 다룬다.

  • Forough Arabshahi 외 5명의 연구는 대화형 신경 심볼릭 상식 추론에 대한 내용을 포함하고 있으며, AAAI 2021에서 발표되었다.

  • Chandra Bhagavatula 외 6명은 "Abductive commonsense reasoning"에 대한 논문을 발표하였고, 이는 추론의 과정에 중점을 두고 있다.

  • Marco Billi 외 6명이 법률에서의 논증과 반박 가능한 추론을 다룬 연구를 2021년에 발표하였다.

  • Tom Brown 외 19명의 연구는 "Language models are few-shot learners"라는 제목으로, 언어 모델의 능력에 대한 중요한 실험 결과를 보여준다.

  • 2023년에 David Poole 외 누구나 이해할 수 있는 논문에서 논의된 기본적인 추론 원칙에 대한 설명이 있다.

 

4. 📊 모델 성능 및 오류 사례 분석

  • BoardgameQA 데이터셋에 대한 모델 성능이 여러 깊이에서 분석되었으며, 이는 모델들이 알려지지 않은 라벨을 처리하는 데 특히 어려움을 겪고 있음을 보여준다.

  • 모델의 실패 원인 중 일부는 갈등과 선호를 오해하거나, 불완전한 정보를 올바르게 채울 수 없는 경우를 포함한다.

  • 실험 결과는 심층이 증가할수록 모델이 알려지지 않은 라벨의 증거를 생성하는 경향이 있음을 보여준다.

  • 잘못된 증명의 주요 오답 사례로는 사실 및 규칙에 대한 오해, 그리고 모델이 흐름을 잘못 검증하거나 오도되는 경우가 나타났다.

  • 여러 실험에서 모델의 출력 혼동 행렬이 제공되었으며, 이를 통해 정확한 예측 비율을 분석할 수 있다.

4.1. 연구 및 출처
  • 언어 모델을 통한 기호적 프로그래밍에 대한 논문이 ICML 2022에서 발표되었다.

  • Honghua Zhang 등은 데이터에서 추론하는 역설에 대해 논의하였다.

  • AR-LSAT의 연구가 진행되며 텍스트의 분석적 추론을 조사하였다.

4.2. 모델 성능 및 데이터셋 분석
  • 정확도는 80%, 60%, 40%, 20%로 나누어져 있으며, Binary Classification의 결과가 Figure 10에 보고되었다.

  • 모델의 성능에 대한 다양한 실험 결과가 제시되며, BoardgameQA의 바이너리 버전에서 성능이 조사되었다.

  • Reasoning with unknown labels는 특히 few-shot 언어 모델에서 어려움을 겪으며, 자연스러운 chain-of-thought 제공이 어렵기 때문에 성능이 저조해진 것으로 추정된다.

  • Poor performance의 이유가 unknown label 예시의 존재 때문인지, 아니면 conflict resolution의 어려움 때문인지를 분석하기 위해 특정 조건의 이진 데이터셋을 생성하였다.

4.3. 모델 성능 및 오류 분석
  • T5모델이 깊이 2에서 개선된 결과를 보였지만, 여전히 여러 오류 사례가 발생했다. 이러한 오류는 모델이 갈등과 선호를 잘못 이해하거나, 불완전한 정보를 올바르게 채워넣지 못하는 것이 포함된다.

  • 주요 오류 유형으로는 논리 규칙의 오해, 결합에 있는 두 요소를 증명하지 못하는 것, 산만한 사실과 규칙에 의해 잘못된 증명 경로로 이끄는 것 등이 있다.

  • 모델이 증명으로 조정되었을 때, 낮은 깊이에서의 미지의 레이블 예측은 잘 이루어지나, 높은 깊이에서는 미지의 레이블임에도 불구하고 반드시 증명을 발생시키는 경향을 보인다.

  • 혼동 행렬 분석 결과, 높은 깊이에서 증명 경로가 증가할 때, 모델이 모든 가능한 경로를 검증하지 못하고 대신 어떤 경로를 시작하게 되는 경향이 관찰되었다.

  • 실험은 T5X 프레임워크를 사용하여 수행되었으며, 다양한 조건에서 모델들의 성능을 비교하였다.

4.4. 보드게임 규칙과 예측
  • 해파리는 직경이 27인치인 농구공을 가지고 있으며 현재 이stanbul에 있다. 늑대뱀의 황제를 차지하지 않는다.

  • 규칙2에 따르면 해파리가 37.1 x 37.4 x 23.9인치 박스에 맞는 농구공을 가지고 있다면, 해파리는 백조에게 항복한다.

  • 규칙3에 의해 해파리가 터키에 있을 경우 백조에게 항복하게 되며, 현재 해파리가 이스탄불에 있으므로 백조에게 항복한다.

  • 해파리가 백조에게 항복 경우, 다시 규칙2에 따라 해파리가 적합한 사이즈의 농구공을 가지고 있다고 추정된다.

  • 규칙3에서는 어떤 것이 올빼미을 잡지 않으면 딱따구리를 무장 해제시킨다고 언급되며, 이는 우선 규칙의 중요성을 강조한다.

4.5. 데이터셋의 일관성과 불완전 정보 처리
  • 일관성 있는 이론은 충돌 시 선호도를 통해 해결 가능해야 하며, 이를 위해 BoardgameQA에서는 일관된 이론 생성을 목표로 한다.

  • 알고리즘 실행 시 사용되지 않은 개체만 샘플링하도록 제한하며, 이를 통해 서로 다른 하위 가지에서의 새로운 사실이 서로 모순되지 않도록 한다.

  • 부족한 정보는 플레이어의 나이를 기준으로 양의 정수를 생성하고, 이를 바탕으로 서로 비례 관계를 설정한다.

  • 객체와 속성의 정보를 연계하기 위해 물체의 성질에 대한 설명과 예시를 수작업으로 작성하며, 이 정보는 규칙과 사실에 연결된다.

  • 플레이어의 돈의 양을 나타내는 사실을 생성하고, 서로 간의 비교 관계를 설정해 더 많거나 적은지를 판단한다.

 

5. 📚 보드게임 QA의 규칙과 예측

  • 주어진 규칙에 따라 특정 동물이 특정 행동을 취할지에 대한 예측이 이루어지며, 예를 들어 나무딸기는 특정 조건 하에 흡혈귀를 부르지 않는다고 결론지어진다.

  • 동물 간의 관계 및 사건의 이해를 통해 발생하는 사건에 대한 규칙이 정의되며, 예를 들어, 레인디어가 친구가 5명 미만일 경우 핀치의 사진을 획득한다고 한다.

  • 규칙의 선호도에 따라 결론이 바뀔 수 있으며, 예를 들어, 규칙3이 규칙1보다 선호되므로 이에 따라 결론을 도출한다.

  • 잘못된 증명이 발생할 수 있으며, 이는 정보가 주의 산만해질 경우 발생할 수 있음을 보여준다.

  • 동물의 행동 및 사건 전개를 이해하기 위해 3D 객체의 적합성을 이해해야 하며, 예를 들어, 노트북이나 공의 크기가 관련된 기준에 맞아야 한다.

5.1. ️ 게임에서의 오해와 정보의 불완전성
  • 축구공농구공을 혼동하는 실수가 발생한다.

  • 지름이 29인치인 공이 26.3x25.6x24.2인치 박스에 들어가지 않는다는 것을 인식하지 못하는 정보의 불완전성이 있다.

5.2. 동물과 규칙에 대한 정보
  • 고릴라는 1952년의 영화를 보고 있으며, 의료 분야에서 일할 경우 뱀파이어의 동행을 좋아하지 않는다.

  • 배달새28인치 반지름의 축구공을 가진 경우, 특정 사이즈의 상자에 잘 맞으면 뱀파이어를 부르지 않는다고 규정되어 있다.

  • 만약 적어도 하나의 동물이 드래곤이 사는 집에서 나간다면, 뱀파이어는 불독의 무장을 해제하지 않는다.

  • 만약 어떤 것이 오리에게 욕을 한다면 그것도 드래곤의 집에서 나간다.

  • 규칙 우선 순위가 있으며, 규칙 1은 규칙 2보다 선호되고, 규칙 3은 규칙 4보다 선호된다.

5.3. 게임 규칙 및 예시
  • 두 플레이어에게 이름을 부여하고, 규칙을 "만약 [PLAYER1]의 이름이 [PLAYER2]와 같은 글자로 시작한다면..."의 형태로 작성한다.

  • 특정 직업과 해당 산업을 연결하여 규칙이 활용되며, 예시로는 (간호사, 의료), (고등학교 교사, 교육) 등이 있다.

  • 물체의 차원, 예를 들어 노트의 높이와 너비 또는 공의 반경과 직경이 규칙에 포함되어야 한다.

  • 주요 세계 사건과 그 발생 연도를 수집하여, 관련 사실과 규칙을 연결하는 데 필요하다.

  • 예를 들어, "reindeer는 5년 이상일 경우 finch의 사진을 확보한다"라는 규칙이 있다.

5.4. BoardgameQA의 한계와 향후 연구 방향
  • 현재 연구는 deductive logical entailment에 초점을 맞추고 있으며, 분류 문제로서 질문의 답변이 증명되었는지, 반증되었는지 또는 알 수 없는지를 판단한다.

  • 향후 연구에서는 non-classification cases 확장하여 defeasible logical reasoning을 적용한 질문 해결을 포함해야 한다.

  • 현재 작업은 초기 상태와 게임의 규칙을 포함하는데, 모든 사실과 규칙을 포함할 수 없는 경우에 대한 확장이 필요하다.

  • modus ponens 규칙만 적용되며, 향후 연구에서는 proof by contradiction 등 다른 종류의 규칙으로 분석을 확장해야 한다.

  • 현재 작업에서는 갈등 해결을 위해 단순한 솔루션만 연구했으며, 향후 더 다양한 자연 유형의 갈등 해결에 대한 분석도 필요하다.

5.5. 보드게임 QA 구성 요소
  • 질문 생성은 알고리즘 16을 통해 시작되며, 초기 질문은 (dog, attack, cat)으로 선택된다.

  • 입력 깊이 D=1은 한 단계의 추론이 포함된 이론을 나타내며, 사실 (dog, unite, lion)과 규칙 R1이 함께 생성된다.

  • 생성된 사실과 규칙이 상충할 경우, 새로운 사실 (dog, respect, cat)과 규칙이 추가되며, 이는 서로 모순된 결론을 포함한다.

  • 모순된 규칙에서 하나를 제거하고 나머지 사실에 대해 재귀 호출이 이루어지며, 이를 통해 (dog, unite, lion)을 사실 집합에 추가한다.

  • 보드게임 QA에서 불완전한 정보의 범주와 예시가 수동으로 작성되며, 이는 자동 샘플링 절차에 이용된다.

 

6. 🎲 예시 생성 방법

  • 다른 경우에 예시가 생성되는 방식에 대한 설명이 이루어진다.