AI 성격 검사가 잰 건 성격이 아니었다

(주)페블러스 데이터 커뮤니케이션팀

Executive Summary

언어모델에 성격검사를 돌리면 모델마다 또렷한 성격 프로파일이 나옵니다. 어떤 모델은 외향적이고 어떤 모델은 신경질적입니다. 그런데 56개 모델을 정식 심리측정 기법으로 다시 들여다본 연구는, 그 프로파일이 성격을 잰 게 아니라고 말합니다. 2026년 6월 arXiv에 올라온 Meyer·Garcia·Wulff의 논문 이야기입니다.

모델 간 성격 차이의 81~90%는 진짜 성향이 아니라 설문에 답하는 습관, 곧 측정 편향에서 나왔습니다. 사람은 같은 격차의 9~16%만 그 습관으로 설명됩니다. 성격검사가 잰 것은 모델의 내면이 아니라, 모델이 문항에 동의하거나 거부하는 일정한 버릇이었던 셈입니다.

이 글은 그 발견을 데이터 품질의 눈으로 읽습니다. 우리는 AI의 감정과 성격을 점점 정교하게 잰다고 믿지만, 재는 도구 자체가 기울어 있으면 그 점수는 데이터가 아니라 잡음입니다.

주요 수치

출처: Meyer, Garcia & Wulff (2026), arXiv:2606.20205

아래 네 숫자는 같은 결론의 다른 단면입니다. 모델의 성격 차이가 대부분 편향이라는 사실(81~90%), 그 편향이 어떻게 드러나는가(정반향 상관 +0.7), 얼마나 큰 규모에서 확인됐는가(56개 모델), 그리고 그래서 성격 프로파일이 얼마나 쉽게 흔들리는가(최대 0.99 표준편차)로 이어집니다.

81~90%

차이 중 측정 편향

모델 간 성격 차이에서 진짜 성향이 아닌 응답 편향의 몫 (인간은 9~16%)

+0.7

정반향 응답 상관

반대로 물은 문항에 LLM은 같은 방향으로 답한다 (인간은 −0.7)

56개

검사한 언어모델

오픈소스 46개 + GPT·Claude·Gemini·Qwen·Grok 계열 10개

0.99 SD

프로파일이 흔들린 폭

어떤 문항을 고르느냐에 따라 같은 모델의 성격이 벌어진 최대 표준편차

1

56개 모델에 성격검사를 돌렸다

연구진은 56개의 명령어 조정(instruction-tuned) 언어모델을 한자리에 모았습니다. 1B에서 70B 규모의 오픈소스 모델 46개에, GPT·Claude·Gemini·Qwen·Grok 계열의 상용 모델 10개를 더했습니다. 그리고 사람의 성격을 재는 표준 도구인 Big Five 검사를 똑같이 돌렸습니다. 개방성·성실성·외향성·친화성·신경증, 다섯 축으로 사람의 성향을 측정해 온 바로 그 설문입니다. 위험 선호도(DOSPERT)와 도덕 기반 설문도 함께 던졌고, 비교를 위해 대규모 인간 표본의 응답을 나란히 놓았습니다.

결과만 보면 그림이 선명했습니다. 모델마다 성격 프로파일이 또렷하게 갈렸습니다. 어떤 모델은 개방성이 높고, 어떤 모델은 친화성이 두드러졌습니다. 검사의 내적 일관성을 재는 Cronbach's α도 0.85에서 0.96 사이로, 사람 못지않게 안정적으로 나왔습니다. 숫자만 놓고 보면 "언어모델에게도 성격이 있다"는 결론으로 곧장 달려가기 좋은 데이터였습니다. 실제로 지난 몇 년간 적지 않은 연구가 그 길로 갔습니다.

여기까지는 익숙한 이야기입니다. 모델에 성격검사를 돌렸더니 모델마다 성격이 나왔다. 문제는 그 다음, 연구진이 한 가지 단순한 점검을 추가하면서 시작됩니다.

2

반대로 물어도 답은 같았다

잘 만든 성격검사에는 같은 특성을 반대로 묻는 문항이 섞여 있습니다. "나는 호기심이 많다"가 순방향 문항이라면, "나는 호기심이 없다"는 역방향 문항입니다. 둘은 같은 성향을 정반대로 묻습니다. 그래서 성격이 일관된 사람이라면 한쪽에 동의할 때 다른 쪽에는 거부해야 합니다. 호기심이 많은 사람은 앞 문항에 "그렇다", 뒤 문항에 "아니다"라고 답합니다. 두 응답은 반대 방향으로 움직이고, 통계로는 음의 상관으로 나타납니다.

인간 표본이 정확히 그랬습니다. 순방향과 역방향 문항의 응답은 −0.69에서 −0.82 사이의 음의 상관을 그렸습니다. 답이 문항의 방향을 따라 일관되게 뒤집힌다는 뜻이고, 그 일관성이 바로 성격이라는 신호입니다.

언어모델은 반대였습니다. 같은 두 문항에 대한 응답이 +0.61에서 +0.81의 양의 상관을 보였습니다. "나는 호기심이 많다"에 동의한 모델이, "나는 호기심이 없다"에도 동의한 것입니다. 내용이 정반대인데 답은 같은 방향으로 갔습니다. 모델은 문항이 무엇을 묻는지를 따라가는 게 아니라, 설문 자체에 일정하게 반응하는 버릇을 고수하고 있었습니다. 성격이 아니라 응답 습관이 일관됐던 것입니다.

▲ 페블러스 원본 도식 (Fig. 2 재해석) — 인간은 음의 상관(성향 일관), LLM은 양의 상관(응답 습관 일관) | 출처: Meyer et al. (2026)

이 차이를 분리하는 방법은 의외로 단순합니다. 순방향 응답과 역방향 응답을 빼면 진짜 성향이, 더하면 방향과 무관한 응답 편향이 남습니다. 이 분해를 56개 모델에 적용하자, 모델 간 차이의 81~90%가 편향 쪽에서 나왔습니다. 사람에게서는 같은 격차의 9~16%만 편향으로 설명됐습니다. 모델을 갈라 놓은 것은 성향의 차이가 아니라, 설문에 답하는 버릇의 차이였습니다.

▲ 페블러스 원본 도식 (Fig. 3 재해석) — 정반향 분해로 추출한 편향(응답 습관) vs 성향(진성 특성) 비율 | 출처: Meyer et al. (2026)

역설: 검사의 내적 일관성(α 0.85~0.96)이 높게 나온 모델일수록, 사실은 성격이 아니라 편향을 더 일관되게 측정하고 있었습니다. 높은 신뢰도 지표가 측정의 타당성을 보장하지 않는다는 오래된 경고가, 언어모델에서 가장 선명하게 드러난 사례입니다.

3

성격은 고를 수 있다

편향과 성향이 뒤섞이면 어떤 일이 벌어질까요. 연구진은 같은 모델을 두 번 측정했습니다. 한 번은 순방향 문항만으로, 한 번은 역방향 문항만으로 성격 프로파일을 그렸습니다. 같은 모델이니 같은 결과가 나와야 정상입니다. 그런데 두 프로파일은 최대 0.99 표준편차까지 벌어졌습니다. 어떤 문항을 골라 검사를 구성하느냐에 따라, 같은 모델이 전혀 다른 성격으로 측정된 것입니다.

▲ 페블러스 원본 도식 (Fig. 4 재해석) — 동일 모델을 순방향느역방향 문항만으로 측정하면 프로파일이 최대 0.99 SD 달라진다 | 출처: Meyer et al. (2026)

뒤집어 말하면, 문항을 고르는 사람이 모델의 성격을 원하는 대로 빚을 수 있다는 뜻입니다. 외향적인 모델로 보이게 하고 싶으면 그렇게 나오는 문항을, 신중한 모델로 보이게 하고 싶으면 또 그렇게 나오는 문항을 고르면 됩니다. 사람에게서는 이런 일이 일어나지 않습니다. 성격이 실제로 존재하기 때문에, 어느 방향의 문항으로 재든 프로파일이 크게 흔들리지 않습니다. 측정값이 도구가 아니라 대상에 매여 있는 것, 그것이 진짜 측정입니다.

그렇다면 그동안 "언어모델에게 성격이 있다"고 보고한 연구들은 무엇을 잰 걸까요. 상당수는 역방향 문항이 적은 검사 도구를 썼습니다. 역방향 문항이 없으면 성향 신호와 편향 신호가 같은 방향으로 겹쳐, 둘을 분리할 길이 사라집니다. 이번 연구가 56개 모델에서 확인한 바로는, 역방향 문항의 비율이 낮은 검사일수록 내적 일관성 α가 오히려 더 높게 나왔습니다. 둘 사이의 상관은 r = −0.95로, 거의 한 몸처럼 움직였습니다. 깔끔하고 신뢰도 높아 보이던 프로파일이 사실은 편향을 잘 걸러내지 못한 검사의 산물이었다는 뜻입니다. 그 상태에서 나온 프로파일은 성격의 초상이 아니라 편향의 그림자였을 가능성이 큽니다. 편향은 모델의 성능이 좋아질수록 줄어들긴 했지만, 가장 뛰어난 모델에서도 사라지지는 않았습니다.

핵심: 잴 때마다 다른 값이 나오고, 문항 선택으로 결과를 빚을 수 있다면, 그 점수는 대상의 속성이 아니라 도구의 산물입니다. 언어모델의 '성격'은 모델 안에 있던 게 아니라, 측정하는 순간 도구가 만들어낸 형상이었습니다.

4

재는 자의 품질은 누가 재는가

데이터 품질을 이야기할 때 우리는 보통 데이터 자체를 봅니다. 값이 정확한가, 빠진 곳은 없는가, 라벨이 맞는가. 그런데 이번 연구가 가리키는 곳은 한 칸 위입니다. 데이터를 만들어내는 측정 도구가 기울어 있으면, 그 아래에서 나온 값은 아무리 깨끗하게 정리해도 애초에 다른 것을 잰 숫자입니다. 성격검사의 α가 0.96이어도, 그것이 성격이 아니라 응답 습관을 일관되게 쟀다면 데이터는 정밀한 잡음일 뿐입니다.

이 문제는 성격검사에만 머물지 않습니다. 우리는 점점 더 많은 도구로 AI를 잽니다. 추론 능력 벤치마크, 안전성 평가, 정렬(alignment) 점수, 감정 분류기. 모두 모델에 무언가를 묻고 그 응답으로 점수를 매깁니다. 그런데 그 도구들 자체가 모델의 응답 습관에 얼마나 휘둘리는지는, 정작 잘 검증되지 않습니다. 모델을 재는 자의 품질은 누가 재고 있을까요. 데이터 품질 다음 줄에 와야 할 것은, 그 데이터를 만들어내는 측정 도구의 품질, 곧 '측정 품질'입니다.

방법이 없는 것은 아닙니다. 이 논문이 쓴 정반향 검사가 바로 도구를 검증하는 도구입니다. 반대로 물었을 때 응답이 따라 뒤집히는지를 보면, 그 점수가 대상을 쟀는지 도구의 버릇을 쟀는지 가려낼 수 있습니다. 측정값을 그대로 믿기 전에 측정 도구를 먼저 시험하는 이 습관은, 사실 데이터 품질 관리가 오래 해 온 일의 연장입니다. 데이터를 의심하는 데서 한 걸음 더 들어가, 데이터를 만들어낸 자를 의심하는 단계입니다.

AI에게 풍부한 내면이 있다는 이야기는 매력적입니다. 모델이 감정을 느끼고 성격을 가진다는 서사는 우리가 만든 것을 더 친근하게, 때로는 더 두렵게 만듭니다. 이 논문은 그 서사에 대한 조용한 반례입니다. 그 내면을 본 줄 알았던 점수가, 실은 우리가 들고 있던 자의 눈금이었을 수 있다고 말합니다. AI를 정확히 이해하려면, 먼저 AI를 재는 도구부터 정확해야 합니다.

마무리: 측정 도구가 편향되면 점수는 데이터가 아니라 잡음입니다. 데이터의 품질을 묻던 질문은 이제 측정의 품질로 한 칸 올라갑니다. AI의 내면을 잰다고 믿기 전에, 재는 자부터 검증하는 일 — 그것이 다음 줄에 와야 할 작업입니다.

R

참고문헌

주논문

1.Meyer, J., Garcia, D., & Wulff, D. U. (2026). "Apparent Psychological Profiles of Large Language Models are Largely a Measurement Artifact." arXiv:2606.20205. — 56개 언어모델에 Big Five 검사를 실시하고, 정반향 검사로 모델 간 차이의 81~90%가 진성 특성이 아니라 방향성 응답 편향임을 입증. 본문의 모든 핵심 수치는 이 논문을 출처로 한다.

선행·관련 연구

2.Delnevo, G., et al. (2025). "Large language models display human-like social desirability biases in Big Five personality surveys." PNAS Nexus, 3(12). — LLM이 성격검사에서 사회적 바람직성 방향으로 응답을 끌어올리는 편향을 보고.
3.Shu, K., et al. (2025). "Acquiescence Bias in Large Language Models." arXiv:2509.08480. — LLM의 동의 편향 패턴을 분석한 인접 선행 연구.
4.Tjuatja, L., et al. (2024). "Do LLMs exhibit human-like response biases? A case study in survey design." Transactions of the ACL. — 역방향 문항이 응답 편향을 줄이지만 완전히 제거하지는 못함을 보임.