BoardgameQA: A Dataset for Natural LanguageReasoning with Contradictory Information
- 모순된 정보: 모순된 정보는 서로 상반되거나 충돌하는 정보를 의미합니다. 두 개의 사실이 있을 때 하나는 옳고 다른 하나는 그르다는 상황을 가져오는 것이죠. 예를 들어, 한 소스에서는 '...
1. 🎲 보드게임QA: 모순 정보를 활용한 자연어 추론 데이터셋
-
보드게임QA는 자동화된 추론을 위해 모순 정보와 정보 출처에 대한 선호도를 활용하는 데이터셋이다. 이 데이터셋은 LMs의 추론 능력을 측정할 수 있도록 설계되었다.
-
연구에 따르면, 최신 LMs는 모순된 출처의 정보로 인해 추론하는 데 한계를 보이며, 특히 최소한의 입력 정보로는 성능이 더 떨어진다.
-
보드게임QA는 불완전한 지식을 기반으로 하며, 보드게임 시나리오 형태로 복잡한 규칙을 포함하여 연구에 필요한 배경 지식을 LM 스스로 추가하여 해결해야 한다.
-
BoardgameQA는 모순된 정보로 자연어 추론을 위한 데이터셋이다.
-
자동화된 추론은 비구조적 자연어 텍스트에서 필수적인 요구 사항으로, 많은 잠재적 응용 분야가 있다.
-
기존의 자동화된 추론 평가는 일관되고 일관된 정보 집합에 대한 접근을 가정하지만, 실제 세계에서는 정보가 자주 모순되거나 부정확하다.
-
따라서, 모델은 이러한 갈등을 해결할 수 있는 전략이 필요하다.
-
정보 출처의 신뢰성을 바탕으로 우선순위를 부여하는 방법이 갈등을 해결하는 일반적인 방식으로 제시된다.
-
BoardgameQA는 LMs의 추론 능력을 측정하기 위해 설계된 데이터셋으로, 암묵적 배경지식을 통합하여 실제 추론 문제를 반영한다.
-
최신의 LMs들은 정보의 충돌이 존재할 때 성능이 떨어지며, 이는 fine-tuning으로 개선될 수 있지만 여전히 미흡하다.
-
기존의 자동화된 추론 연구는 제공된 지식이 일관하다고 가정하지만, 많은 실제 응용 프로그램에서는 정보의 비일관성과 모순이 발생한다.
-
정보의 충돌을 해결하기 위해 출처의 신뢰성나 최신성을 기준으로 선호도를 적용하는 방법이 사용된다.
-
BoardgameQA는 다중 홉 추론을 요구하는 시나리오로 구성되어 있으며, 모델이 자체적으로 부족한 지식을 처리해야 한다는 점에서 기존의 추론 벤치마크와 차별화된다.
-
정보는 많은 응용 프로그램에서 일상적인 시나리오이며, 강력한 AI 시스템 개발에 필수적이다.
-
텍스트 기반의 논리적 추론 접근법에서 초기 연구는 언어 모델(LM)을 미세 조정하여 논리적 추론 질문에 대한 답변을 직접 제공하도록 하였다.
-
규칙 R1에서 개구리가 사자와 개의 총 금액보다 많은 돈을 가지면 발전소를 건설하고, R2에서는 우선순위 규칙으로 인해 개구리가 공격하지 않으면 발전소를 건설하는 것을 결정짓는 방식이 다르게 작용한다.
-
기존의 강화학습 기법과 함께 여러 가지 접근을 통해 성능 개선과 더 정밀한 중간 증명 체인을 달성할 수 있다고 보고된다.
-
불완전한 정보 내에서의 추론을 다룬 연구들은 부분정보가 필요한 상황을 설정하고 그것에서 오는 모델의 역할을 강조한다.
-
연역적 이론인 T는 양수 또는 음수의 사실 집합 F와 규칙 집합 R로 구성되며, T에서 도출할 수 있는 사실 f를 정의한다.
-
쇠퇴 가능 이론 T(d)는 사실 집합 F, 규칙 집합 R, 그리고 우선순위를 가진 규칙 쌍 O로 구성되며, 이를 통해 더 높은 우선순위의 규칙에 의해 결론이 반박될 수 있다.
-
예를 들어, 한 규칙이 사실임을 시사하더라도, 더 높은 우선순위의 규칙이 이를 반대할 때 높은 우선순위의 규칙에서 유도된 결론을 수용한다.
-
충돌 유형은 두 개의 규칙이 동시에 진리일 수 없는 경우 발생하며, 이론 T(d)에서 각 규칙의 우선순위가 이를 결정한다.
-
이론 T(d)의 예시는 "Tweety는 펭귄이다"라는 사실에서 시작하여, 다른 규칙들과의 상충을 통해 결론 "Tweety는 날지 않는다"로 이어진다.
-
BoardgameQA 데이터셋은 모순된 입력을 가진 추론 능력을 측정하기 위해 생성된다. 이 데이터셋은 역행 이야기 생성 전략을 사용하여 구성된다.
-
각 예제는 (논리가 결여된) 이론과 질문으로 구성되며, 질문에 대한 라벨은 proved, disproved, unknown으로 설정된다.
-
이 데이터셋은 여러 수준의 어려움을 측정하기 위해 다양한 변수를 포함하고, 각각의 이론은 보드게임의 현재 상태와 규칙을 설명한다.
-
사용되는 개체와 술어는 정해진 집합에서 샘플링되며, 개체로는 동물들이 사용되고, 보드게임에서 영감을 받은 동사들이 술어로 사용된다.
-
데이터셋 생성 시 훈련과 테스트에서 서로 다른 개체와 술어를 사용하여 문제를 더 도전적으로 만들기 위해 접근한다.
2. 🧩 BoardgameQA의 정보의 불완전성 및 갈등 해결의 영향
-
BoardgameQA는 다양한 갈등 수준과 정보의 불완전성을 조절하는 변수를 활용하여 모델의 인식 능력을 평가하는 데이터셋이다.
-
각 모델은 갈등 개수가 증가함에 따라 성능이 감소하며, 이는 갈등 해결이 주요한 문제의 난이도 요소임을 보여준다.
-
갈등 유형에 따라 모델의 성능이 다르며, 주로 Type1 갈등에서 더 나은 성능을 발휘하는 경향이 있다.
-
정보의 부족이 존재할 경우, 필요한 지식의 양이 증가함에 따라 세밀하게 조정된 모델의 성능이 떨어지는 경향이 관찰된다.
-
실험 결과들은 모델이 스푸리어스 증명을 통해 높은 정확도를 달성하고 있다고 지적하며, 이는 실제로 유효한 추론단계를 반영하지 않는다.
-
범주는 개체의 나이를 특정 단위와 비교하는 것으로, 예를 들어, "그 개가 1년 이상인 경우"로 설명된다.
-
정형화는 이름의 글자에 대한 질문을 포함하며, 예를 들어, "개 이름이 'Paco'이고 고양이 이름이 'Pashmak'인 경우"에서 나타난다.
-
비교는 개가 다른 숫자와 비교되는 상황을 다루며, 예를 들어, "개가 10명 미만의 친구를 가진 경우"로 정의된다.
-
세상에 대한 지식은 규칙 본문과 사실을 연결하는 데 필요하며, "개가 현재 캐나다에 있다면"이 예시로 주어진다.
-
객체의 적합성을 이해하기 위해 그 개체가 가진 특성이나 도구에 대한 지식이 요구되며, "개가 칼을 가지고 있다면" 등의 예시로 설명된다.
-
이론 생성을 위해 각 질문을 증명하거나 반증해야 하며, 질문은 샘플에서 선택된 엔티티와 술어로 구성된다.
-
질문의 긍정 및 부정에 대한 신호를 샘플링한 후, 자연어로 변환하여 처리한다.
-
룰 타입을 선택하고, 각각의 질문에 대해 재귀적으로 새로운 룰과 사실을 생성하는 과정이 필요하다.
-
갈등 여부는 확률적 방법(동전 던지기)에 따라 결정되며, 갈등을 생성하기 위한 새로운 서브 질문과 룰을 만들어 사용한다.
-
알고리즘의 재귀 호출은 이론 생성 시 추가 홉(hop)이 포함된 증명으로 이어지며, 최대 홉 수에 의해 중단 기준이 설정된다.
-
불완전 정보를 바탕으로 질문과 규칙을 생성하여, 특정 지식이 언어 모델(LM)에서 파생되도록 한다.
-
예시로 “개와 고양이가 합쳐진다”는 목표를 위해 서브 질문과 규칙을 생성하여, 추가적인 지식을 필요로 하는 단계가 요구된다.
-
문제를 더 복잡하게 만들기 위해, 훈련 세트에 일부 추가 지식과 추론만 포함하여 모델이 훈련 세트에서 단순히 배우지 못하도록 한다.
-
텍스트 형식으로 변환하기 위해 수작업으로 구성된 템플릿을 사용하며, 테스트 세트 전용 템플릿도 포함된다.
-
예시를 생성할 때, 증명된 예시와 부정된 예시의 생성 방식이 다르며, 이를 통해 다양한 레이블을 갖는 예시를 생성할 수 있다.
-
실험의 주요 목표는 LM(언어 모델)이 타당한 추론(Reasoning)을 할 수 있는지를 검증하는 것이다.
-
다양한 LM 아키텍처(인코더 전용, 인코더-디코더 및 디코더 전용)와 여러 사전 훈련 및 학습 패러다임을 사용하여 실험을 진행한다.
-
실제 실험에서는 BERT-large, T5 1.1 XXL, PaLM 62B, 및 FLAN-PaLM 540B 모델들의 성능을 평가하며, 여러 깊이에서의 정확도를 측정한다.
-
선택한 학습 방법에는 파인튜닝, Few-Shot 학습, 및 소프트 프롬프트 튜닝이 포함되며, 주로 정확도(Classification Accuracy)를 지표로 사용한다.
-
추가적인 데이터셋 버전을 생성하여 모델의 타당한 추론 능력을 보다 상세히 이해하려고 한다.
-
BoardgameQA 데이터셋은 다양한 변수들을 사용하여 충돌의 양과 유형, 추가 정보의 필요성을 조절한다.
-
모델들은 깊이 1에서 비교적 괜찮은 성능을 보이지만, 깊이 2와 3에서는 성능이 상당히 저하된다.
-
충돌 입력을 처리하는 것은 파인 튜닝이 진행된 모델에서조차 어려워지며, 일부 모델들은 모든 깊이에서 저조한 성능을 보인다.
-
최근 연구 결과에 따르면 대규모 LM들이 높은 정확도를 달성하기 위해 간접적인 추론을 사용하는 경향이 나타난다.
-
모델의 성능은 충돌이 많아질수록 일관되게 저하되며, 이는 문제 해결 난이도의 주요 요소로 작용한다.
3. 📊 주의 산만 요소가 추론에 미치는 영향
-
BoardgameQA 데이터셋에서 0, 1, 또는 2개의 주의 산만 요소를 추가하여 성능을 평가하였다. 이 데이터셋은 "주의 산만 요소가 포함되지 않음(NoDistractors)", "일부 주의 산만 요소(SomeDistractors)", "많은 주의 산만 요소(ManyDistractors)" 세 가지 버전으로 나뉜다.
-
모델 성능은 적은 수의 주의 산만 요소가 추가될 때 크게 저하되지 않는 것으로 나타났다. 이는 주의 산만 요소가 모델이 거짓 상관관계를 피하는 데 도움을 줄 수 있음을 시사한다.
-
그러나 많은 주의 산만 요소가 포함될 경우, 성능이 일관되게 감소하는 경향을 보였다. 이는 실제 응용 시 흔히 발생하는 문제임을 강조한다.
-
특히, 충분한 데이터가 없이도 문제를 해결하는 몇 가지 모델의 성능이 저조했으며, 이들은 상충하는 정보 세트를 관리하는 데 어려움을 겪었다.
-
이러한 결과는 현재의 언어 모델이 모순된 입력에 대한 추론 능력의 격차를 보여주며, 향후 연구에서 이 문제를 해결할 수 있는 방법론 개발을 위한 가이드가 되기를 희망한다.
-
모델의 크기가 크고, 모델에 포함된 지식량이 많기 때문에 결과는 상대적으로 변화가 적은 경향이 있다.
-
현실 세계의 지식을 활용하는 것이, 이러한 모델에게는 학습하는 데 더 용이할 수 있다.
-
본 연구에서는 방해가 되는 사실과 규칙이 모델 성능에 미치는 영향을 측정한다. 특히 방해 요인은 증명에 나타나지 않으며 레이블을 변경하지 않는 요소이다.
-
방해 요소를 포함한 서브 질문을 샘플링하여 BoardgameQA 데이터셋의 세 가지 버전(NoDistractors, SomeDistractors, ManyDistractors)을 생성하였다.
-
실험 결과, 소수의 방해 요인이 있는 경우 모델 성능이 크게 저하되지 않지만, 방해 요인을 많이 추가하면 모델 성능이 크게 감소하는 경향이 나타났다.
-
몇몇 방해 요인이 성능에 미치는 영향은 일관되며, 특히 방해 요인의 수가 많을수록 몇 샷 모델의 성능이 지속적으로 감소한다.
-
본 연구는 BoardgameQA 데이터셋을 통해 언어 모델의 논리적 추론 능력에 대한 중대한 격차를 강조하며, 특히 모순된 정보 세트를 다루는 것이 현실 세계 응용에서 흔한 시나리오임을 보여준다.
-
이 데이터셋은 향후 언어 모델의 추론 능력 향상을 위한 방법론 개발에 기여할 것으로 기대된다.
-
또한, 데이터셋은 갈등 해결을 위한 대안적인 공식화를 찾는 데 유용할 수 있다.
-
BoardgameQA의 세 가지 버전에서 모델 performances는 다양한 불완전한 정보에 대한 정확도 차이를 보여주고 있다.
-
세 가지 모델(BERT Large, T5 XXL, PaLM 62B, PaLM 540B)에 따라 정확도가 다르게 나타났다.
-
다양한 방해 요소(distractors)의 영향을 분석하여 모델의 성능을 평가한 결과, 각 모델의 정확도가 달라짐을 관찰할 수 있다.
-
Emily Allaway 외 5명이 "Penguins don’t fly: Reasoning about generics through instantiations and exceptions"를 발표하였다. 이 논문은 일반적 개념에 대한 추론을 다룬다.
-
Forough Arabshahi 외 5명의 연구는 대화형 신경 심볼릭 상식 추론에 대한 내용을 포함하고 있으며, AAAI 2021에서 발표되었다.
-
Chandra Bhagavatula 외 6명은 "Abductive commonsense reasoning"에 대한 논문을 발표하였고, 이는 추론의 과정에 중점을 두고 있다.
-
Marco Billi 외 6명이 법률에서의 논증과 반박 가능한 추론을 다룬 연구를 2021년에 발표하였다.
-
Tom Brown 외 19명의 연구는 "Language models are few-shot learners"라는 제목으로, 언어 모델의 능력에 대한 중요한 실험 결과를 보여준다.
-
2023년에 David Poole 외 누구나 이해할 수 있는 논문에서 논의된 기본적인 추론 원칙에 대한 설명이 있다.
4. 📊 모델 성능 및 오류 사례 분석
-
BoardgameQA 데이터셋에 대한 모델 성능이 여러 깊이에서 분석되었으며, 이는 모델들이 알려지지 않은 라벨을 처리하는 데 특히 어려움을 겪고 있음을 보여준다.
-
모델의 실패 원인 중 일부는 갈등과 선호를 오해하거나, 불완전한 정보를 올바르게 채울 수 없는 경우를 포함한다.
-
실험 결과는 심층이 증가할수록 모델이 알려지지 않은 라벨의 증거를 생성하는 경향이 있음을 보여준다.
-
잘못된 증명의 주요 오답 사례로는 사실 및 규칙에 대한 오해, 그리고 모델이 흐름을 잘못 검증하거나 오도되는 경우가 나타났다.
-
여러 실험에서 모델의 출력 혼동 행렬이 제공되었으며, 이를 통해 정확한 예측 비율을 분석할 수 있다.
-
언어 모델을 통한 기호적 프로그래밍에 대한 논문이 ICML 2022에서 발표되었다.
-
Honghua Zhang 등은 데이터에서 추론하는 역설에 대해 논의하였다.
-
AR-LSAT의 연구가 진행되며 텍스트의 분석적 추론을 조사하였다.
-
정확도는 80%, 60%, 40%, 20%로 나누어져 있으며, Binary Classification의 결과가 Figure 10에 보고되었다.
-
모델의 성능에 대한 다양한 실험 결과가 제시되며, BoardgameQA의 바이너리 버전에서 성능이 조사되었다.
-
Reasoning with unknown labels는 특히 few-shot 언어 모델에서 어려움을 겪으며, 자연스러운 chain-of-thought 제공이 어렵기 때문에 성능이 저조해진 것으로 추정된다.
-
Poor performance의 이유가 unknown label 예시의 존재 때문인지, 아니면 conflict resolution의 어려움 때문인지를 분석하기 위해 특정 조건의 이진 데이터셋을 생성하였다.
-
T5모델이 깊이 2에서 개선된 결과를 보였지만, 여전히 여러 오류 사례가 발생했다. 이러한 오류는 모델이 갈등과 선호를 잘못 이해하거나, 불완전한 정보를 올바르게 채워넣지 못하는 것이 포함된다.
-
주요 오류 유형으로는 논리 규칙의 오해, 결합에 있는 두 요소를 증명하지 못하는 것, 산만한 사실과 규칙에 의해 잘못된 증명 경로로 이끄는 것 등이 있다.
-
모델이 증명으로 조정되었을 때, 낮은 깊이에서의 미지의 레이블 예측은 잘 이루어지나, 높은 깊이에서는 미지의 레이블임에도 불구하고 반드시 증명을 발생시키는 경향을 보인다.
-
혼동 행렬 분석 결과, 높은 깊이에서 증명 경로가 증가할 때, 모델이 모든 가능한 경로를 검증하지 못하고 대신 어떤 경로를 시작하게 되는 경향이 관찰되었다.
-
실험은 T5X 프레임워크를 사용하여 수행되었으며, 다양한 조건에서 모델들의 성능을 비교하였다.
-
해파리는 직경이 27인치인 농구공을 가지고 있으며 현재 이stanbul에 있다. 늑대는 뱀의 황제를 차지하지 않는다.
-
규칙2에 따르면 해파리가 37.1 x 37.4 x 23.9인치 박스에 맞는 농구공을 가지고 있다면, 해파리는 백조에게 항복한다.
-
규칙3에 의해 해파리가 터키에 있을 경우 백조에게 항복하게 되며, 현재 해파리가 이스탄불에 있으므로 백조에게 항복한다.
-
해파리가 백조에게 항복 경우, 다시 규칙2에 따라 해파리가 적합한 사이즈의 농구공을 가지고 있다고 추정된다.
-
규칙3에서는 어떤 것이 올빼미의 왕을 잡지 않으면 딱따구리를 무장 해제시킨다고 언급되며, 이는 우선 규칙의 중요성을 강조한다.
-
일관성 있는 이론은 충돌 시 선호도를 통해 해결 가능해야 하며, 이를 위해 BoardgameQA에서는 일관된 이론 생성을 목표로 한다.
-
알고리즘 실행 시 사용되지 않은 개체만 샘플링하도록 제한하며, 이를 통해 서로 다른 하위 가지에서의 새로운 사실이 서로 모순되지 않도록 한다.
-
부족한 정보는 플레이어의 나이를 기준으로 양의 정수를 생성하고, 이를 바탕으로 서로 비례 관계를 설정한다.
-
객체와 속성의 정보를 연계하기 위해 물체의 성질에 대한 설명과 예시를 수작업으로 작성하며, 이 정보는 규칙과 사실에 연결된다.
-
플레이어의 돈의 양을 나타내는 사실을 생성하고, 서로 간의 비교 관계를 설정해 더 많거나 적은지를 판단한다.
5. 📚 보드게임 QA의 규칙과 예측
-
주어진 규칙에 따라 특정 동물이 특정 행동을 취할지에 대한 예측이 이루어지며, 예를 들어 나무딸기는 특정 조건 하에 흡혈귀를 부르지 않는다고 결론지어진다.
-
동물 간의 관계 및 사건의 이해를 통해 발생하는 사건에 대한 규칙이 정의되며, 예를 들어, 레인디어가 친구가 5명 미만일 경우 핀치의 사진을 획득한다고 한다.
-
규칙의 선호도에 따라 결론이 바뀔 수 있으며, 예를 들어, 규칙3이 규칙1보다 선호되므로 이에 따라 결론을 도출한다.
-
잘못된 증명이 발생할 수 있으며, 이는 정보가 주의 산만해질 경우 발생할 수 있음을 보여준다.
-
동물의 행동 및 사건 전개를 이해하기 위해 3D 객체의 적합성을 이해해야 하며, 예를 들어, 노트북이나 공의 크기가 관련된 기준에 맞아야 한다.
-
축구공과 농구공을 혼동하는 실수가 발생한다.
-
지름이 29인치인 공이 26.3x25.6x24.2인치 박스에 들어가지 않는다는 것을 인식하지 못하는 정보의 불완전성이 있다.
-
고릴라는 1952년의 영화를 보고 있으며, 의료 분야에서 일할 경우 뱀파이어의 동행을 좋아하지 않는다.
-
배달새가 28인치 반지름의 축구공을 가진 경우, 특정 사이즈의 상자에 잘 맞으면 뱀파이어를 부르지 않는다고 규정되어 있다.
-
만약 적어도 하나의 동물이 드래곤이 사는 집에서 나간다면, 뱀파이어는 불독의 무장을 해제하지 않는다.
-
만약 어떤 것이 오리에게 욕을 한다면 그것도 드래곤의 집에서 나간다.
-
규칙 우선 순위가 있으며, 규칙 1은 규칙 2보다 선호되고, 규칙 3은 규칙 4보다 선호된다.
-
두 플레이어에게 이름을 부여하고, 규칙을 "만약 [PLAYER1]의 이름이 [PLAYER2]와 같은 글자로 시작한다면..."의 형태로 작성한다.
-
특정 직업과 해당 산업을 연결하여 규칙이 활용되며, 예시로는 (간호사, 의료), (고등학교 교사, 교육) 등이 있다.
-
물체의 차원, 예를 들어 노트의 높이와 너비 또는 공의 반경과 직경이 규칙에 포함되어야 한다.
-
주요 세계 사건과 그 발생 연도를 수집하여, 관련 사실과 규칙을 연결하는 데 필요하다.
-
예를 들어, "reindeer는 5년 이상일 경우 finch의 사진을 확보한다"라는 규칙이 있다.
-
현재 연구는 deductive logical entailment에 초점을 맞추고 있으며, 분류 문제로서 질문의 답변이 증명되었는지, 반증되었는지 또는 알 수 없는지를 판단한다.
-
향후 연구에서는 non-classification cases 확장하여 defeasible logical reasoning을 적용한 질문 해결을 포함해야 한다.
-
현재 작업은 초기 상태와 게임의 규칙을 포함하는데, 모든 사실과 규칙을 포함할 수 없는 경우에 대한 확장이 필요하다.
-
modus ponens 규칙만 적용되며, 향후 연구에서는 proof by contradiction 등 다른 종류의 규칙으로 분석을 확장해야 한다.
-
현재 작업에서는 갈등 해결을 위해 단순한 솔루션만 연구했으며, 향후 더 다양한 자연 유형의 갈등 해결에 대한 분석도 필요하다.
-
질문 생성은 알고리즘 16을 통해 시작되며, 초기 질문은 (dog, attack, cat)으로 선택된다.
-
입력 깊이 D=1은 한 단계의 추론이 포함된 이론을 나타내며, 사실 (dog, unite, lion)과 규칙 R1이 함께 생성된다.
-
생성된 사실과 규칙이 상충할 경우, 새로운 사실 (dog, respect, cat)과 규칙이 추가되며, 이는 서로 모순된 결론을 포함한다.
-
모순된 규칙에서 하나를 제거하고 나머지 사실에 대해 재귀 호출이 이루어지며, 이를 통해 (dog, unite, lion)을 사실 집합에 추가한다.
-
보드게임 QA에서 불완전한 정보의 범주와 예시가 수동으로 작성되며, 이는 자동 샘플링 절차에 이용된다.
6. 🎲 예시 생성 방법
-
다른 경우에 예시가 생성되는 방식에 대한 설명이 이루어진다.