Executive Summary
2026년 6월 JAMA Pediatrics에 실린 조사에서, 미국 청소년과 청년(12~21세) 다섯 명 중 한 명이 지난 1년 사이 AI 챗봇에서 정신건강 조언을 구했다고 답했습니다. 인구로 환산하면 약 820만 명, 1년 전보다 절반 가까이 늘어난 숫자입니다. 이 글은 그 숫자 자체가 아니라, 그 숫자 뒤에 숨어 있는 대화들이 어떤 종류의 데이터인지를 봅니다.
눈에 띄는 지표는 하나 더 있습니다. 이렇게 조언을 구한 청소년의 63.3%는 그 사실을 부모에게도, 친구에게도, 어떤 어른에게도 말하지 않았습니다. 동시에 91.7%는 그 조언이 '도움이 됐다'고 답했습니다. 문제는 이 만족도가 조언이 옳았다는 뜻은 아니라는 데 있습니다. 같은 종류의 챗봇이 건강 질문에 내놓는 답의 절반가량은 부정확하거나 위험하다는 독립 감사가 나와 있고, 그 대화 중 어느 것도 임상 결과로 검증되지 않습니다.
아무에게도 공개되지 않고, 만족도라는 단일 지표만 남기고 사라지는 대화. 이것은 페블러스가 오래 이야기해 온 '보이지 않는 데이터' 문제의 인간 버전입니다. 그리고 이 관점에서 보면, 데이터 품질을 묻는 일은 성능의 문제가 아니라 돌봄의 문제가 됩니다.
주요 수치
출처: JAMA Pediatrics (2026), APA (2026)
19.2%
AI에 정신건강 조언을 구한 청소년
12~21세 다섯 중 한 명, 1년 전 13.1%에서 급증
63.3%
아무에게도 말하지 않음
부모·친구·어른 누구에게도 그 대화를 밝히지 않음
91.7%
'도움이 됐다'고 평가
임상 결과가 아니라 사용자 체감 만족도
~50%
부정확·위험한 건강 답변
챗봇 건강 응답 감사에서 절반가량이 문제 있음(BMJ Open)
숫자가 말하는 것
조사는 RAND American Life Panel을 통해 2025년 11월에 이뤄졌고, 12세부터 21세까지 1,009명이 응답했습니다. 연구진은 이 표본을 미국 전체 인구로 확장해 약 4,280만 명을 추정 모집단으로 삼았습니다. 여기서 나온 수치가 19.2%입니다. 다섯 명 중 한 명꼴로, 지난 1년 안에 AI 챗봇에게 정신건강과 관련된 조언을 구한 적이 있다는 뜻입니다.
속도가 더 눈에 띕니다. 같은 질문에 1년 전에는 13.1%가 그렇다고 답했습니다. 1년 사이 이용률이 절반 가까이(약 47%) 뛴 셈입니다. 매달 한 번 이상 이용하는 비율이 42.8%, 매주 한 번 이상이 10.8%, 거의 매일이 5.8%였습니다. 한두 번 호기심에 물어본 수준을 넘어, 상당수에게는 이미 반복적인 습관이 되어 있었습니다.
누가 더 많이 쓰는지도 드러났습니다. 여성이 남성의 약 2배, 나이로는 18~21세가 12~14세의 3.6배가량으로 뚜렷하게 높았습니다. 그런데 통념을 흔드는 대목은 따로 있습니다. 이미 의사와 정신건강 문제를 상담해 본 청소년일수록 AI 챗봇도 더 많이 썼습니다. AI가 전문가를 대체하는 '대안'으로만 쓰인 게 아니라, 이미 치료 안에 있는 아이들이 그 옆에 하나를 더 얹는 '보완'으로도 쓰이고 있었다는 이야기입니다.
그리고 91.7%가 그 조언이 도움이 됐다고 답했습니다. 매우 도움이 됐다가 25.0%, 어느 정도 도움이 됐다가 66.7%. 표면적으로 보면 성공한 서비스의 지표처럼 읽힙니다. 하지만 이 만족도가 정확히 무엇을 측정한 숫자인지는 따로 물어야 합니다. 표면의 만족과 그 아래의 실제가 이 한 지표에 겹쳐 있기 때문입니다.
숫자가 말하지 못하는 것
가장 무거운 수치는 만족도가 아니라 침묵입니다. AI에 조언을 구한 청소년의 63.3%가 그 사실을 아무에게도 말하지 않았습니다. 친구에게 말한 비율은 28.0%, 신뢰하는 어른에게 말한 비율은 16.4%에 그쳤습니다. 대부분의 대화가 부모도, 상담교사도, 임상가도 닿지 않는 곳에서 오가고 있었습니다.
이 침묵이 왜 중요한가. 청소년이 사람에게는 꺼내기 어려운 이야기를 AI에게는 털어놓는다는 건, 어떤 면에서는 AI의 강점입니다. 판단하지 않고, 밤 세 시에도 답하고, 부끄러움이 덜합니다. 문제는 그 대화가 아무에게도 공개되지 않으면, 조언이 옳았는지 틀렸는지, 아이가 나아졌는지 위태로워졌는지를 확인할 사람이 어디에도 없다는 데 있습니다. 부모가 모르고, 임상가가 모르고, 규제 기관이 모릅니다.
2.1'도움이 됐다'는 품질이 아니다
여기서 91.7%라는 만족도를 다시 봐야 합니다. 이 숫자는 청소년이 대화를 끝낸 뒤 '도움이 됐다고 느꼈는가'를 물은 결과입니다. 느낌을 측정한 지표이지, 조언이 임상적으로 적절했는지, 아이의 상태가 실제로 좋아졌는지를 측정한 지표가 아닙니다. 이 둘은 자주 어긋납니다. 틀린 정보라도 다정한 어조로 전달되면 위로가 되고, 부적절한 조언이라도 공감하는 문장이면 '유용하다'고 느껴지기 때문입니다.
그 어긋남을 뒷받침하는 독립 연구가 여럿입니다. 챗봇의 건강 관련 답변을 감사한 BMJ Open 연구에서는 응답의 49.6%가 부정확하거나 잠재적으로 위험하다고 판정됐습니다. 구조화된 안전장치 없이 기본 상태로 쓸 때 의료 정보를 지어내는 환각률은 조건에 따라 60%를 넘기기도 했습니다. 위기 신호에 안전하게 응답하지 못하는 비율은 AI가 약 20%로, 인간 치료사의 7%보다 세 배가량 높았습니다.
정리하면 이렇습니다. 절반가량의 답변이 부정확할 수 있는 시스템이, 위기 신호를 다섯에 한 번꼴로 놓치면서, 91.7%로부터 '도움이 됐다'는 평가를 받고 있습니다. 만족도와 품질이 이렇게 벌어져 있을 때, 만족도만 남기고 품질을 묻지 않는 것은 측정의 실패입니다.
보이지 않는 데이터셋
페블러스가 데이터 품질을 이야기할 때 자주 쓰는 표현이 '보이지 않는 데이터'입니다. 어딘가에서 만들어지고 있지만 아무도 그 출처와 상태를 기록하지 않아, 문제가 생겨도 되짚어 올라갈 수 없는 데이터를 가리킵니다. 청소년과 AI가 나누는 정신건강 대화는 그 개념의 인간 버전에 가깝습니다.
이 대화들을 하나의 거대한 행동 데이터셋으로 놓고 보면, 데이터 품질에서 늘 따지는 네 가지 축이 모두 비어 있습니다. 출처(누가 어떤 상태에서 무엇을 입력했는가), 품질(응답이 임상적으로 적절했는가), 안전성(위기 신호에 옳게 반응했는가), 측정(제3자가 이 모든 걸 추적할 수 있는가). 63.3%의 침묵은 이 네 축을 한꺼번에 지워 버립니다. 공개되지 않은 데이터는 감사할 수 없기 때문입니다.
산업 데이터에서 익숙한 품질 문제들을 이 사례에 겹쳐 보면, 각각이 어디로 번역되는지가 선명해집니다. 왼쪽은 데이터 엔지니어라면 매일 마주하는 결함이고, 오른쪽은 그 결함이 청소년의 정신건강 대화에서 취하는 얼굴입니다. 이름만 바뀌었을 뿐 구조는 같습니다.
| 일반 데이터 품질 문제 | 이 사례의 인간 버전 |
|---|---|
| 출처 불명 데이터 | 63.3%의 비공개 대화 |
| 검증되지 않은 레이블 | '도움이 됐다'는 단일 만족도 지표 |
| 감지되지 않는 드리프트 | 아이의 상태 악화를 추적하는 장치 부재 |
| 거버넌스 공백 | 임상·규제 감독이 닿지 않는 영역 |
측정하지 않은 데이터에서 어떤 일이 벌어지는지, 이미 확인된 사례가 있습니다. 2024년 2월, 14세 소년 Sewell Setzer III가 Character.AI의 캐릭터 봇과 오래 대화한 끝에 스스로 목숨을 끊었습니다. 봇은 아이의 위기 신호를 위기로 읽지 못했습니다. 어머니가 제기한 소송은 2026년 1월 Google과 Character.AI의 합의로 이어졌고, 이후 여러 주에서 유사한 소송이 뒤따랐습니다. OpenAI는 2025년 10월, ChatGPT 사용자 중 매주 약 120만 명이 자살을 언급한다고 밝혔습니다.
한 아이의 대화가 데이터로 기록되고 감사됐다면 달랐을까. 확언하기는 어렵습니다. 다만 분명한 건, 측정되지 않는 대화에서는 무엇이 잘못됐는지조차 사후에야 알게 된다는 사실입니다. 820만 명의 대화 대부분이 지금 그 상태에 있습니다.
돌봄의 데이터 문제
임상 현장은 이 흐름을 이미 감지하고 있습니다. 미국심리학회(APA)가 심리학자들을 대상으로 한 조사에서, 77%가 환자로부터 AI를 쓰고 있다는 이야기를 들었다고 답했습니다. 그런데 우려의 크기가 만족도와 정반대 방향을 가리킵니다. 97%가 챗봇이 부정적 행동이나 왜곡된 생각을 강화할까 걱정했고, 94%는 지금의 챗봇이 미묘한 치료 상황을 다룰 수 없다고 봤습니다. 사용자 만족도 91.7%와 전문가 우려 97%가 같은 현상을 정반대로 읽고 있는 셈입니다.
기관들도 경보를 올렸습니다. 의료 안전 평가기관 ECRI는 AI 챗봇의 오용을 2026년 최대 의료기술 위험 요인 1위로 꼽았습니다. 한편 체계적 리뷰에 따르면, 정신건강 지원을 표방한 LLM 기반 연구 가운데 임상 효과성까지 검증을 마친 것은 16%에 불과했습니다. 도구는 이미 수백만 청소년의 손에 있는데, 그것이 실제로 효과가 있는지에 대한 근거는 아직 대부분 비어 있습니다.
그래서 데이터 품질을 묻는 일이 여기서는 성능의 문제로 끝나지 않습니다. 정확도 몇 퍼센트를 높이는 최적화 과제가 아니라, 위태로운 아이가 옳은 응답을 받았는지를 확인하는 돌봄의 과제가 됩니다. 필요한 것은 챗봇을 금지하는 일도, 만족도 지표를 더 그럴듯하게 다듬는 일도 아닙니다. 최소한 세 가지를 측정할 수 있어야 합니다. 위기 신호에 시스템이 어떻게 반응했는지(안전성), 조언이 임상 기준에 맞았는지(품질), 그리고 아이가 대화 뒤에 어디로 이어졌는지(결과). 지금은 이 세 가지 모두 만족도라는 한 겹 아래에 가려 있습니다.
820만 명의 대화가 지금도 어딘가에서 오가고 있습니다. 그 대화에 '도움이 됐다'는 감정만 남고 품질과 안전의 기록이 남지 않는다면, 우리는 한 세대의 정신건강을 측정 없이 통과시키는 셈입니다. 데이터 품질을 묻는 목소리가 이 이야기에서 냉정한 기술 비평이 아니라 돌봄의 언어로 들리는 이유입니다.
읽어 주셔서 고맙습니다. 페블러스는 '보이지 않는 데이터'를 보이게 만드는 일을 오래 해 왔습니다. 그 데이터가 산업 현장의 센서 로그일 때도, 한 아이가 밤에 챗봇에 남긴 문장일 때도, 질문은 같습니다. 우리는 이것을 측정하고 있는가. 이 글이 그 질문을 조금 더 오래 붙들게 했다면 충분합니다.
(주)페블러스 데이터 커뮤니케이션팀
2026년 7월 3일
참고문헌
학술 논문·보고서
- 1.McBain, R. K. et al. (2026). "AI Chatbot Use and Disclosure for Mental Health Among US Adolescents and Young Adults." JAMA Pediatrics. — 12~21세 1,009명 조사, 19.2% 이용·63.3% 비공개·91.7% 도움 평가.
- 2.American Psychological Association. (2026). "Chatbots and Mental Health: Psychologist Perspectives." APA. — 심리학자 97% 부정적 행동 강화 우려, 94% 정밀 치료 불가 판단.
- 3.PMC. (2024). "Systematic review of AI chatbots for mental health support and their clinical effectiveness." PubMed Central. — 정신건강 LLM 연구 중 임상 효과성 검증 완료 16%.
보도·논평
- 4.NBC News. (2026, 6월). "1 in 5 young people are using AI chatbots for mental health advice, study finds." NBC News. — JAMA 연구 대중 보도.
- 5.CNN Business. (2026, 1월 7일). "Character.AI and Google settle lawsuit over teen's suicide." CNN. — Sewell Setzer III(14세) 사망 소송 합의.