흐릿한 흑백부터 먹였더니, AI가 형태를 보기 시작했다

Executive Summary

사람의 아기는 태어나서 몇 달 동안 흐릿한 흑백 세계를 삽니다. 시력도, 색각도, 대비를 가르는 힘도 몇 달에 걸쳐 천천히 열립니다. 반면 우리가 AI 시각 모델을 학습시킬 때는 첫날부터 선명한 풀컬러 이미지를 통째로 들이붓습니다. 2026년 Nature Machine Intelligence에 실린 한 연구는 바로 이 차이가 문제였을지 모른다고 말합니다. 핵심은 데이터를 더 준 것이 아니라, 아기가 크는 순서대로 먹이는 차례를 바꾼 데 있었습니다.

연구팀은 새 데이터를 만들지 않았습니다. 기존 이미지에 필터를 걸어, 흐릿함에서 선명함으로, 무채색에서 컬러로, 저대비에서 고대비로 이어지는 아기의 발달 순서를 그대로 커리큘럼으로 옮겼을 뿐입니다. 그 결과 지금까지 보고된 것 중 가장 강한 형태 편향과 함께, 이미지 손상과 적대적 공격에 더 잘 버티는 눈이 만들어졌습니다. 관련 연구에서 순서를 무작위로 섞자 이 효과는 기준선까지 되돌아갔습니다.

페블러스 블로그는 "깨끗한 데이터가 곧 쓸 수 있는 데이터는 아니다"를 여러 번 짚어 왔습니다. 이 연구는 그 논지를 한 칸 더 밉니다. 정제해서 쓸 수 있게 만드는 것으로는 부족하고, 무엇을 어떤 순서로 노출하느냐가 강건함을 만든다는 이야기입니다. 데이터 품질을 상태(clean)가 아니라 궤적(curriculum)으로 다시 보게 하는 사례입니다.

22%

표준 CNN 형태 편향

나머지 78%는 질감에 의존 — 손상·공격에 취약

19.8→29.1%

형태 편향 (CATDiet)

아기 순서로 먹이자 +9.3%p

25.0→18.8%

손상 오류율 mCE

VAC 커리큘럼, CIFAR-10-C 기준 개선

순서 섞으면 0

효과 소멸

무작위 순서는 기준선으로 회귀 — 순서 자체가 핵심

1

AI 시각의 고질병 — 형태가 아니라 질감을 본다

AI가 고양이를 알아본다고 할 때, 우리는 흔히 모델이 고양이의 생김새를 본다고 짐작합니다. 실제로는 그렇지 않은 경우가 많습니다. ImageNet으로 학습한 표준 CNN은 대상을 알아볼 때 실루엣보다 표면의 질감에 기댑니다. 고양이 털의 자잘한 무늬, 얼룩말 줄무늬의 반복 같은 고주파 패턴에 먼저 반응합니다.

게이르호스 연구팀은 2019년에 이를 깔끔한 실험으로 보였습니다. 고양이 형태에 코끼리 가죽 질감을 입힌 이미지를 보여 주면, CNN은 "코끼리"라고 답합니다. 같은 그림을 사람에게 보여 주면 대부분 "고양이"라고 답합니다. 형태와 질감이 충돌할 때 사람은 형태를 믿고, 기계는 질감을 믿습니다. 이것이 질감 편향(texture bias)입니다.

수치로 보면 격차가 뚜렷합니다. 표준 ImageNet으로 학습한 ResNet-50의 형태 편향은 22%에 그칩니다. 나머지 78%는 질감에 의존한다는 뜻입니다. 큰 비전 트랜스포머(ViT)조차 55% 남짓으로, 사람의 압도적인 형태 우선에는 미치지 못합니다.

이 격차가 얼마나 큰지는 질감을 지웠을 때 드러납니다. 형태 단서만 남기고 표면 무늬를 걷어 낸 그림에서, 사람은 76%의 정확도를 지켰지만 CNN은 28%까지 주저앉았습니다. 사람은 무늬가 사라져도 형태로 버티는데, 기계는 기댈 무늬가 없어지자 그대로 길을 잃습니다.

▲ 질감 단서를 지운 이미지에서의 형태 인식 정확도 — 사람은 76%를 유지하지만 CNN은 28%로 붕괴 | 페블러스 원본 도식 (Geirhos et al. 2019 재해석)

질감에 기대는 눈은 겉보기 정확도가 높아도 실전에서 무릎을 꿇습니다. 이미지가 살짝 흐려지거나 노이즈가 끼거나 압축 아티팩트가 생기면 성능이 뚝 떨어집니다. 사람 눈에는 보이지도 않는 미세한 픽셀 변조로 오분류를 유도하는 적대적 공격에도 쉽게 넘어갑니다. 학습 때 보던 분포를 조금만 벗어나도 무너집니다. 표면의 무늬를 외운 눈은, 무늬가 조금만 흔들려도 길을 잃습니다.

질감 편향은 데이터를 더 많이 넣는다고 저절로 사라지지 않았습니다. 수십 년간 모델과 데이터를 키워 왔지만, 형태를 보는 눈과 강건함은 스케일만으로 따라오지 않았습니다. 그래서 연구자들은 질문을 바꿉니다. 얼마나 많이가 아니라, 어떻게 먹일 것인가.

2

아기는 왜 처음에 흑백만 보는가

갓 태어난 아기의 눈은 어른의 눈과 많이 다릅니다. 시력은 20/400에서 20/600 정도로 매우 흐리고, 색을 가르는 원뿔세포가 아직 익지 않아 세상은 거의 흑백과 회색에 가깝습니다. 밝고 어두움을 가르는 힘, 곧 대비감도도 낮습니다. 아기는 처음 몇 주 동안 고대비의 큰 패턴에만 겨우 반응합니다.

이 제약은 몇 달에 걸쳐 순서대로 풀립니다. 생후 1~2개월이면 빨간색부터 눈에 들어오기 시작하고, 2~3개월이면 색과 대비가 함께 자랍니다. 4~6개월이면 시력이 20/40 수준으로 올라오고 색각도 어른에 가까워집니다. 흐릿한 흑백에서 선명한 컬러로, 낮은 대비에서 높은 대비로 이어지는 이 차례는 아이마다 크게 다르지 않습니다.

아래는 그 순서를 시력·색각·대비 세 축으로 정리한 것입니다.

월령	시력	색각	대비감도
출생	20/400~20/600 (매우 흐림)	흑백·회색만	매우 낮음 (고대비 패턴에만 반응)
1~2개월	개선 중	빨간색 인식 시작	낮음
2~3개월	개선 중	빨강·초록 강화	개선 중
4~6개월	~20/40	어른에 가까움	크게 개선
12개월	어른 수준	잘 발달	계속 성숙

▲ 아기의 시각 발달 궤적 — 시력·색각·대비감도 세 축이 순서를 지키며 성숙. 색각은 1~2개월 뒤에야 시작되는 점이 특징 | 페블러스 원본 도식

오랫동안 이 흐릿한 출발은 그저 미성숙, 곧 빨리 벗어나야 할 결함으로 여겨졌습니다. 최근의 시각은 다릅니다. 저해상도·저대비·무채색의 출발이 오히려 발달의 발판(scaffold)이라는 것입니다. 세부가 지워진 흐릿한 세계에서는 자잘한 질감에 매달릴 수가 없습니다. 남는 정보는 큰 덩어리, 곧 전역적인 형태뿐입니다. 뇌는 그 형태부터 안정적으로 붙잡은 뒤에야 세부로 내려갑니다.

흐림은 정보를 뺏는 것처럼 보이지만, 실은 무엇에 주목할지를 정해 줍니다. 질감이라는 지름길이 막혀 있을 때, 학습은 형태라는 더 튼튼한 단서를 먼저 붙잡습니다. 아기의 눈이 천천히 열리는 데에는 이유가 있었습니다.

3

발달적 시각 식단 — 데이터가 아니라 순서를 설계하다

루(Zejin Lu) 연구팀이 Nature Machine Intelligence에 발표한 발달적 시각 식단(Developmental Visual Diet, DVD)은 이 발달 순서를 그대로 AI 학습 커리큘럼으로 옮긴 실험입니다. 출발점은 간단한 뒤집기입니다. 첫날부터 선명한 컬러를 통째로 먹이는 대신, 아기가 세상을 보게 되는 순서대로 이미지를 열어 주자는 발상입니다.

중요한 점은 새 데이터를 만들지 않았다는 데 있습니다. 연구팀은 수십 년의 발달심리학 연구를 종합해, 기존 이미지에 필터를 걸어 각 발달 단계에 맞게 변형했습니다. 세 축을 아기의 궤적에 맞춰 함께 움직였습니다.

• 시력: 흐릿한 이미지에서 시작해 점점 선명하게 (출생 20/400에서 어른 20/20으로 가는 궤적).
• 대비감도: 낮은 대비에서 높은 대비로 점진 이행.
• 색각: 채도가 낮은 무채색에서 시작해 점점 풀컬러로.

▲ DVD 커리큘럼의 단계별 속성 노출 수준 — 색각은 초기에 거의 막혀 있다가 후기에 비로소 활짝 열린다 | 페블러스 원본 도식 (Lu et al. 2026 재해석)

같은 발상은 여러 연구실에서 동시에 무르익고 있습니다. IIT 델리의 VAC(Visual Acuity Curriculum)는 학습 초기에 강한 가우시안 블러를 걸었다가 진행에 따라 서서히 걷어 냅니다. 초반 20%를 흐림이 가장 심한 "결핍 기간"으로 두고, 이전 단계의 흐림을 다시 섞어 망각을 막는 방식입니다. 싱가포르 NTU의 CATDiet은 채도, 해상도, 시간 연속성을 함께 다뤄, 처음 30%를 아기 식단으로 워밍업한 뒤 표준 증강으로 넘어갑니다.

공통점은 분명합니다. 데이터의 목록을 바꾼 것이 아니라, 그 데이터를 여는 순서를 설계했다는 것입니다.

4

순서가 형태를 만든다 — 결과

결과는 순서 하나만 바꾼 것치고 컸습니다. DVD로 학습한 모델은 지금까지 보고된 것 중 가장 강한 형태 편향을 보였습니다. 추상적인 형태 인식에서 기존 최고 수준을 넘었고, 이미지 손상과 적대적 공격 모두에서 더 잘 버텼습니다. 강건성을 재는 여러 지표에서 사람의 판단에 한 걸음 더 가까워졌습니다.

관련 연구의 수치도 같은 방향을 가리킵니다. CATDiet은 형태 편향을 기준 19.8%에서 29.1%로 끌어올렸고(+9.3%p), 손상 벤치마크 CO3D의 오류율을 86%에서 72%로 낮췄습니다. VAC는 CIFAR-10-C의 손상 오류율(mCE)을 25.03%에서 18.78%로 8%p 넘게 줄였습니다. 어느 쪽도 이미지를 더 넣어서 얻은 개선이 아닙니다.

▲ DVD 커리큘럼 적용 전후 — 형태 편향과 손상 강건성 모두 개선, 이미지 추가 없이 | 페블러스 원본 도식 (CATDiet/VAC 결과 재해석)

가장 인상적인 대목은 반대 실험입니다. CATDiet 연구팀이 먹이는 순서를 거꾸로 하거나 무작위로 섞자, 개선분이 사라지고 성능이 기준선으로 되돌아갔습니다. 같은 이미지, 같은 필터, 같은 양이어도 순서가 흐트러지면 효과가 없었다는 뜻입니다. 순서 자체가 원인이라는 가장 깔끔한 증거입니다.

생물학적 흔적도 남았습니다. CATDiet 모델이 학습하며 정보를 흡수하는 곡선은, 마카크원숭이 1차 시각피질(V1)의 시냅스 밀도가 발달하며 변하는 패턴과 겹쳤습니다. 아기의 발달 순서를 흉내 냈더니, 그 발달의 흔적까지 따라온 셈입니다.

루 연구팀은 결론을 한 문장으로 요약합니다. "강건한 AI 시각은 얼마나 많이 학습하느냐가 아니라, 어떻게 학습하도록 안내하느냐로 만들어진다." 데이터의 양을 늘려 온 지난 방향과 정확히 다른 축을 가리키는 말입니다.

5

데이터 품질을 상태에서 궤적으로

여기서 데이터를 다루는 사람의 관점으로 돌아옵니다. 우리는 데이터 품질을 대개 상태로 봅니다. 결측치가 없는가, 라벨이 정확한가, 중복과 노이즈가 제거됐는가. 이 질문들은 데이터를 "쓸 수 있는" 상태로 만듭니다. 그런데 DVD 실험은 쓸 수 있게 정제하는 것만으로는 강건함이 따라오지 않는다는 점을 보여 줍니다. 같은 깨끗한 데이터라도, 여는 순서를 흐트러뜨리면 효과가 사라졌기 때문입니다.

그래서 질문이 하나 늘어납니다. 무엇을 담느냐만이 아니라, 어떤 순서로 노출하느냐입니다. 아래 표는 데이터를 보는 세 가지 관점을 나란히 놓았습니다.

관점	핵심 질문	한계 / 시사점
양 (scale)	얼마나 많이 줄까?	확장만으로는 질감 편향과 강건성 격차가 해소되지 않았다.
상태 (clean)	얼마나 깨끗한가?	깨끗해도 순서가 없으면 형태를 보는 눈은 생기지 않았다.
궤적 (curriculum)	어떤 순서로 보여줄까?	순서가 강건함을 만든다. 이 연구가 가리키는 방향.

이 관점 전환은 이미지에만 머물지 않습니다. 큰 언어 모델(LLM) 학습에서도 고품질·고난도 데이터를 나중에 노출하는 커리큘럼 전략이 자리를 잡아 가고 있습니다. 데이터를 "선별"하는 일만큼 "배열"하는 일이 성능을 가른다는 것입니다. 게다가 DVD 계열은 새 데이터를 사거나 만들지 않고, 이미 가진 데이터를 흐리게·무채색으로 변형해 얻은 결과입니다. 소량·저스펙 자원으로 강건함을 얻는다는 점에서 데이터 효율 논의와도 맞물립니다.

독자에게 남기고 싶은 질문은 하나입니다. 우리 데이터 파이프라인은 무엇을 담느냐만 관리하고, 어떤 순서로 노출하느냐는 방치하고 있지 않은가. 파이프라인의 순서표는 대개 성능이 아니라 편의로 정해져 있습니다. DVD는 그 순서표 자체가 하나의 설계 대상이라는 점을 일깨웁니다.

Editor's Note

페블러스가 AI-Ready Data를 이야기할 때 강조해 온 것도 결국 같은 지점입니다. 데이터를 한 번 깨끗하게 만들고 끝내는 것이 아니라, 어떻게 준비하고 어떤 흐름으로 다루느냐가 모델의 결과를 바꾼다는 것입니다. DVD 연구는 그 주장에 대한 실험실 밖의 증거 하나를 더해 줍니다. 데이터 품질을 상태의 문제로만 좁혀 두지 않고 궤적의 문제로 넓혀 보려는 관점이, 앞으로 더 자주 쓸모를 증명할 것이라 봅니다.

R

참고문헌

핵심핵심 논문

1.Lu, Z., Thorat, S., Cichy, R. M., & Kietzmann, T. C. (2026). "Adopting a human developmental visual diet yields robust, shape-based AI vision." Nature Machine Intelligence. DOI: 10.1038/s42256-026-01228-6. (arXiv:2507.03168)