제조 분야 LLM 파인튜닝용 QA 데이터셋 구축
Ⅰ. 서론 및 구축 목표
이 보고서는 Agentic AI Data Scientist (AADS) 과제에서 대규모 언어 모델(LLM)의 제조 도메인 전문성 강화를 목표로, 제공된 데이터셋 문서(데이터 설명서 및 활용 가이드라인)를 기반으로 구축한 질의응답(QA) 쌍 샘플을 요약합니다.
QA 쌍은 다음 4가지 유형으로 분류되었습니다:
A. 도메인 정의/목적
데이터의 최종 목적, 비즈니스 목표, 도메인 정의
B. 데이터 구조/구성
데이터 규모, 포맷, 라벨링 구성 요소 및 분포
C. AI 모델/임무
적용 알고리즘, AI Task 정의, 예측 목표 및 성능 지표
D. 품질/공정 관리
데이터 획득/가공/검수 절차 및 품질 관리 기준
Ⅱ. QA 데이터셋 개요
14
논리적 데이터 그룹
28
QA 쌍 (그룹당 2쌍)
25%
각 유형 균등 배분
총 14개의 논리적 데이터 그룹에 대해 28개의 QA 쌍을 구축했습니다. 각 그룹은 동일한 프로젝트나 목표를 공유하는 데이터셋들로 구성되며, 제조 현장의 다양한 도메인을 포괄합니다.
QA 쌍은 도메인 정의/목적 (A), 데이터 구조/구성 (B), AI 모델/임무 (C), 품질/공정 관리 (D)의 4가지 유형에 각각 25%씩 균등하게 배분되어, LLM이 제조 데이터 과학의 전 영역에 걸친 종합적인 지식을 학습하도록 설계되었습니다.
Ⅲ. 14개 제조 도메인 데이터셋
각 데이터셋은 제조 현장의 특정 문제를 해결하기 위해 구축되었으며, 멀티모달 데이터(이미지, 센서, 텍스트)와 고품질 라벨링을 포함합니다.
01. 제조 현장 이송 장치(OHT/AGV) 탄화 예지보전 데이터
🎯 도메인 정의/목적
반도체, 디스플레이 제조 현장의 OHT, AGV 장치를 대상으로 탄화 발생을 사전 예측하고 방지하는 서비스 개발 지원
📊 데이터 구조/구성
멀티모달: 센서 값(PM10, NTC, CT1-4, 온도, 습도, 조도) + 열화상 이미지
라벨링: 탄화 상태 4단계 (0: 정상, 1: 관심, 2: 경고, 3: 위험)
📝 QA 샘플 보기 (2쌍)
| 유형 | 질의 (Query) | 응답 (Answer) |
|---|---|---|
| A | OHT 및 AGV 열화 데이터셋의 궁극적인 구축 목적은 무엇이며, 이 서비스를 활용할 주요 정책 대상 기업은 무엇인가? | 이 데이터셋의 구축 목적은 반도체, 디스플레이, 자동차, 의료 등 제조 현장의 OHT, AGV 장치를 대상으로 실시간 데이터를 기반으로 탄화 발생을 사전 예측하고 방지하는 서비스 개발을 지원하기 위함입니다. 주요 정책 대상은 복잡한 공정과 고가의 장비로 인해 화재 위험에 노출된 반도체, 디스플레이, 자동차, 의료기기 제조 기업입니다. |
| B | 이 데이터셋의 멀티모달 구성 요소와 라벨링 유형인 태깅의 탄화 상태 분류 기준 4가지는 무엇인가? | 데이터셋은 센서 값 (PM10, NTC, CT1~CT4, 외부 온도, 습도, 조도 등)과 이미지 (열화상 이미지)의 멀티모달 데이터로 구성됩니다. 탄화 상태는 0: 정상, 1: 관심, 2: 경고, 3: 위험의 네 가지 상태로 분류됩니다. |
02. 김치 생산공정별 비파괴 품질검사 데이터
🎯 도메인 정의/목적
김치 제조/생산공정의 비파괴적 품질등급 예측 AI 모델 개발 및 서비스 지원
🤖 AI 모델/임무
모델: MultiTask EfficientNetV2
품질 등급: 상(0), 중(1), 하(2)
성능 목표: F1-score 70% 이상
📝 QA 샘플 보기 (2쌍)
| 유형 | 질의 (Query) | 응답 (Answer) |
|---|---|---|
| A | 김치 생산공정 데이터셋의 최종 AI 활용 목표는 무엇이며, 원물 배추 데이터는 초분광 이미지를 통해 어떤 품질 지표를 추정하는가? | AI 모델의 주요 임무는 김치 제조/생산공정의 비파괴적 품질등급 예측 AI 모델 개발 및 서비스를 지원하는 것입니다. 원물 배추의 초분광 이미지는 무게, 크기, 당도, 수분 함량의 품질 지표를 초분광 이미지를 기반으로 추정 AI 학습을 위해 구축되었습니다. |
| C | 김치 품질 지표를 평가하기 위해 제시된 MultiTask EfficientNetV2 모델은 등급을 어떻게 분류하며, 절임배추 품질 예측 모델의 성능 목표는 무엇인가? | MultiTask EfficientNetV2 모델은 품질 지표를 평가하기 위해 사용되며, 모든 지표는 기본적으로 상(0), 중(1), 하(2)로 나뉩니다. 절임배추 품질등급 예측모델 성능의 정량 목표는 F1-score 70% 이상이며, 염도 등급 예측과 당도 등급 예측 모두 해당됩니다. |
03. 3D 프린팅 출력물 형상 보정용 데이터
📊 데이터 구조/구성
외형품질: 165,780장
수축분석: 55,260장
프린터: FDM, SLA, DLP, MJP, SLS
✅ 품질/공정 관리
재현률 검사: 바운딩 박스 누락 확인
불통과 처리: 정밀도 검사 통과 박스 유지 후 재작업
📝 QA 샘플 보기 (2쌍)
| 유형 | 질의 (Query) | 응답 (Answer) |
|---|---|---|
| B | 3D 프린팅 출력물의 품질을 검증하기 위한 외형품질이미지 데이터와 수축분석 데이터의 총 구축 수량은 각각 얼마이며, 사용된 프린터 유형은 무엇인가? | 외형품질이미지 데이터는 165,780장 구축되었고, 수축분석 이미지 데이터는 55,260장 구축되었습니다. 사용된 프린터 유형으로는 G_FDM, I_FDM, SLA, DLP, MJP, SLS 등이 있습니다. |
| D | 3D 프린팅 데이터셋의 가공(라벨링) 검수 절차에서 재현률(recall) 검사는 어떤 오류를 중점적으로 확인하며, 이 검사에서 불통과 시 어떻게 처리되는가? | 재현률 검사는 파일 내 바운딩 박스를 그릴 객체가 누락되었는지 검사하는 단계입니다. 재현률 검수에서 불통과 처리된 이미지는, 정밀도 검사를 통과한 바운딩 박스가 유지된 채 작업자들에게 돌아가 재작업됩니다. |
04. 금속 3D 프린팅 스파크 이미지 및 기계적 물성 예측 데이터
🎯 도메인 정의/목적
금속 3D 프린팅 스파크 이미지 분석을 통한 금속 적층 가공물의 기계적 물성 예측
📊 데이터 구조/구성
총 수량: 51,267,476개
포맷: .bmp (이미지), .json (기계적 특성치), .txt (melt_temperature)
📝 QA 샘플 보기 (2쌍)
| 유형 | 질의 (Query) | 응답 (Answer) |
|---|---|---|
| A | 금속 3D 프린팅 스파크 이미지 데이터 구축의 최종 목적은 무엇이며, 이 데이터셋을 통해 얻을 수 있는 기대 효과 2가지는 무엇인가? | 구축 목적은 금속 3D프린팅 스파크 이미지 분석을 통한 금속 적층 가공물의 기계적 물성 예측이 가능한 데이터를 구축하는 것입니다. 기대 효과로는 금속 3D프린팅 출력물의 품질 신뢰도와 생산성 향상 및 최적 공정 조건 추천 서비스 개발을 통한 출력 비용 절감이 있습니다. |
| B | 금속 3D 프린팅 스파크 이미지 데이터의 총 수량은 얼마이며, 원천 데이터를 구성하는 파일 포맷 3가지를 제시하라. | 금속 3D 프린팅 스파크 이미지 데이터의 총 수량은 51,267,476개입니다. 원천 데이터를 구성하는 파일 포맷은 .bmp (이미지) 및 .json (기계적 특성치), .txt (melt_temperature) 입니다. |
05. 건설기계 무인 운행 자율 작업 데이터
🤖 AI 모델/임무
Task: Activity Recognition (활동 인식)
모델: LSTM (시계열 분류)
성능: F1-score 89.98%
✅ 품질/공정 관리
팬옵틱 분할: Mask2Former (Transformer 기반)
성능: PQ (Panoptic Quality) 78.41%
📝 QA 샘플 보기 (2쌍)
| 유형 | 질의 (Query) | 응답 (Answer) |
|---|---|---|
| C | 건설기계 데이터셋을 활용한 굴착기의 내부 작업 순서 데이터에 대한 AI 모델 Task와 라벨링 방법은 무엇이며, 이 모델의 성능 지표는 무엇인가? | 굴착기의 내부 작업 순서 데이터의 AI 모델 Task는 Activity Recognition (활동 인식)이며, 라벨링 방법은 Frame-by-Frame Video Annotation입니다. 시계열 분류 모델(LSTM)을 사용한 이 모델의 유효성 검증 성능 지표는 F1-score 89.98%를 달성했습니다. |
| D | 건설기계 무인 운행 데이터의 팬옵틱 분할 모델의 유효성 검증 모델로 사용된 알고리즘의 작동 방식과 성능 지표(PQ)를 설명하라. | 팬옵틱 분할 모델은 Mask2Former를 사용하며, 이는 트랜스포머(Transformer) 아키텍처를 기반으로 Attention 메커니즘을 도입하여 이미지의 각 픽셀에 대한 분할(segmentation) 마스크를 예측할 수 있습니다. 이 모델은 유효성 지표 PQ (Panoptic Quality)를 사용하며, 78.41%를 달성했습니다. |
06. 고품질 연구개발용 리튬이온 이차전지 데이터
🎯 도메인 정의/목적
LLM(GPT) 활용하여 과학 출판물 PDF에서 실험/방법 및 결과 섹션의 정보 추출
🤖 AI 모델/임무
파인튜닝 기법: Few-Shot Learning, 프롬프트 엔지니어링
출력: 표 형식(Tabular) 데이터
📝 QA 샘플 보기 (2쌍)
| 유형 | 질의 (Query) | 응답 (Answer) |
|---|---|---|
| A | 이 데이터셋의 핵심 구축 방법은 LLM을 어떻게 활용하는 것이며, 이 과정을 통해 추출된 텍스트의 원본 소스는 무엇인가? | 이 프로젝트는 대규모 언어 모델(LLM), 특히 GPT 모델을 사용하여 과학 출판물에서 의도된 정보를 추출합니다. 추출된 텍스트의 원본 소스는 과학 출판물의 PDF 파일이며, 이 파일에서 실험/방법과 결과 및 토론 섹션의 텍스트만 추출하고 나머지는 폐기합니다. |
| C | 과학 출판물에서 LLM의 성능과 효율성을 향상시키고 정확한 표 형식 출력을 얻기 위해 사용된 파인튜닝 기법은 무엇인가? | LLM을 미세 조정(파인튜닝)하기 위해 퓨샷 학습(Few-Shot Learning)과 프롬프트 엔지니어링 기법이 사용되었으며, 이 과정을 통해 모델이 필요한 데이터를 정확하게 추출하여 표 형식으로 출력하도록 훈련합니다. |
07. 전기 인프라 지능화를 위한 가전기기 전력 사용량 데이터
🎯 도메인 정의/목적
NILM (Non-Intrusive Load Monitoring) 기술 개발
분전반 총 전력에서 개별 기기 사용 패턴 추정
🤖 AI 모델/임무
임무 1: 유효전력 분해 (seq2points)
임무 2: 활성-비활성 상태 분류 (unet, F1-score 95.5%)
📝 QA 샘플 보기 (2쌍)
| 유형 | 질의 (Query) | 응답 (Answer) |
|---|---|---|
| A | 이 데이터셋이 목표로 하는 AI 기반 기술인 NILM 기술은 무엇을 의미하며, 데이터 구축 목표량 중 가전기기 전력 사용량 데이터의 규모는 얼마인가? | 이 데이터셋은 AI 기반 NILM (Non-Intrusive Load Monitoring) 기술 개발을 위한 것입니다. NILM은 분전반의 총 전력 사용량 데이터에서 개별 가전기기의 전력 사용 패턴을 추정하는 기술입니다. 구축 목표량은 총 40,641건 중 가전기기 전력 사용량 데이터 37,231건입니다. |
| C | 이 데이터셋을 활용하여 구현할 수 있는 두 가지 주요 AI 임무(Task)와 각각에 적용할 수 있는 알고리즘의 예시 및 유효성 검증 결과는 무엇인가? | 두 가지 주요 AI 임무는 기기별 유효전력 분해와 기기의 활성-비활성 상태 분류입니다. 유효전력 분해 모델에는 seq2points가, 활성-비활성 탐지 모델에는 unet이 적용되며, 상태 분류 성능의 유효성 검증 결과는 F1-점수 95.5%입니다. |
08. CMF(Color, Material, Finish) 이미지 식별 데이터
🎯 도메인 정의/목적
임무: 이미지 분류 (Image Classification)
1순위 모델: Swin Transformer (계층적 구조)
📊 데이터 구조/구성
필수 정보: 바운딩 박스, 색깔, material_finishing
범위: 0-32 (33가지 유형)
📝 QA 샘플 보기 (2쌍)
| 유형 | 질의 (Query) | 응답 (Answer) |
|---|---|---|
| A | CMF 식별 데이터셋 구축의 목표 임무 유형은 무엇이며, 학습 모델 후보 중 1순위 알고리즘과 선정 사유는 무엇인가? | 이 데이터셋의 임무 유형은 이미지 분류(Image Classification)입니다. 학습 모델 후보 중 1순위 알고리즘은 Swin Transformer이며, 이는 Shifted window 방식으로 이미지를 분할하여 attention을 계산하는 계층적 트랜스포머 구조를 가지며, 작은 물체부터 큰 물체까지 효율적으로 검출하여 높은 성능을 달성할 수 있기 때문입니다. |
| B | CMF 라벨링 세부 정보(annotations.label)에 포함되는 필수 정보 3가지와 material_finishing 속성의 설명 범위는 무엇인가? | 라벨링 세부 정보에는 바운딩 박스 정보 (bndbox), 색깔 정보 (color), 그리고 material_finishing 정보 등이 필수적으로 포함됩니다. material_finishing 속성의 범위는 0부터 32까지의 코드를 가지며, 이는 거울광택이 있는 금속 느낌부터 엮은 목재느낌까지의 33가지 유형을 포함합니다. |
09. 실험 기반 재료 물성 데이터
🎯 도메인 정의/목적
AI 기반 금속 물성 예측 모델 활용을 위한 물성 데이터 데이터베이스화
🤖 AI 모델/임무
모델: Random Forest Regressor (앙상블)
데이터: 1,000행 (Train 80%, Test 20%)
성능: Predicted R²
📝 QA 샘플 보기 (2쌍)
| 유형 | 질의 (Query) | 응답 (Answer) |
|---|---|---|
| A | 이 데이터셋의 주요 활용 목적은 무엇이며, Hardness 예측 모델의 학습 알고리즘은 어떤 방식인가? | 이 데이터셋은 인공지능 기반의 금속 물성 예측 모델에 활용될 수 있도록 물성 데이터를 데이터베이스화하는 것을 목표로 합니다. Hardness 예측 모델의 학습 알고리즘은 Random Forest Regressor이며, 이는 여러 개의 결과를 합쳐 최종 결과를 도출하는 앙상블(Ensemble) 모델 방식을 사용합니다. |
| C | Hardness 예측 모델의 AI 모델 사용 데이터 비율과 이 모델의 성능 지표 및 목표는 무엇인가? | Hardness 예측 모델에는 전체 구축 데이터 대비 100% (1,000 행)의 데이터가 사용되며, 이 중 Training Set 비율은 80% (800 행), Test Set 비율은 20% (200 행)입니다. 성능 지표는 Predicted R²이며, 목표값은 명시되어 있지 않지만, 우수한 예측을 목표로 합니다. |
10. 배터리 불량 이미지 진단 데이터
🎯 도메인 정의/목적
전기적 시험 + 내부 상태 종합 평가로 새로운 배터리 등급 표준 마련
✅ 품질/공정 관리
검수 기준: 폴리곤 최소 크기 가로세로 4픽셀
CT 성능: mIoU 92.79%
📝 QA 샘플 보기 (2쌍)
| 유형 | 질의 (Query) | 응답 (Answer) |
|---|---|---|
| A | 배터리 불량 이미지 데이터가 구축됨으로써 기존의 전기적 시험을 보완하여 연구할 수 있는 새로운 표준 마련의 방향은 무엇인가? | 이 데이터셋을 통해 기존 전기적 시험을 넘어 내부 상태 등을 종합적으로 평가하는 새로운 배터리 등급 표준 마련이 가능하며, 전기적 시험 등급과 배터리 내부 결함 간의 상관관계를 밝히는 연구에 활용될 수 있습니다. |
| D | 배터리 불량 이미지 데이터 구축 과정에서 라벨링 검수의 최소 크기 기준은 무엇이며, CT 데이터셋의 최종 결함 검출 성능(mIoU)은 얼마인가? | 라벨링 검수 시 폴리곤의 최소 크기는 가로 세로 4픽셀 이상으로 설정되었습니다. CT 데이터셋의 최종 결함 검출 성능(AI 모델 학습 결과)은 mIoU 92.79%를 달성했습니다. |
11. LNG 탱크 부품 품질 검사 영상 데이터
📊 데이터 구조/구성
라벨링: 폴리곤, BB(바운딩 박스), 분류
속성: tank_type, volume, material, location, part, quality
🤖 AI 모델/임무
모델: Mask DINO (Transformer 기반)
성능: mAP 95.72% (목표 79.43% 초과 달성)
📝 QA 샘플 보기 (2쌍)
| 유형 | 질의 (Query) | 응답 (Answer) |
|---|---|---|
| B | LNG 탱크 품질 검사 데이터의 라벨링 유형 3가지와 JSON 라벨링 데이터에 포함된 LNG 탱크의 고유 속성(attributes) 3가지를 설명하라. | 라벨링 유형은 폴리곤, BB(바운딩 박스), 분류입니다. JSON 라벨링 데이터의 속성에는 탱크 유형 (tank_type), 용량 (volume), 소재 (material), 위치 (location), 부품 (part), 품질 (quality) 등이 포함되며, 예를 들어 tank_type, volume, material을 들 수 있습니다. |
| C | LNG 탱크 품질 검사 이미지 데이터셋의 유효성 검증 결과, 세그멘테이션 객체 탐지 모델의 mAP 결과값과 정량 목표는 각각 얼마이며, 사용된 알고리즘은 무엇인가? | 세그멘테이션 객체 탐지 모델의 유효성 검증 결과는 mAP 95.72% (목표 79.43% 이상)를 달성했습니다. 이 모델은 Mask DINO를 활용하며, 트랜스포머 아키텍처를 기반으로 합니다. |
12. 조선·해양플랜트 P&ID 심볼 식별 데이터
🎯 도메인 정의/목적
설계 도면 P&ID 심볼 자동 분류, 수량/위치 출력, 잘못된 P&ID 판단
📊 데이터 구조/구성
필수 속성: vendor, shipType, pidLabel
대상 유형: FPSO, Drillship, Semi-Flg 등
📝 QA 샘플 보기 (2쌍)
| 유형 | 질의 (Query) | 응답 (Answer) |
|---|---|---|
| A | 조선·해양플랜트 P&ID 심볼 식별 데이터셋을 활용하여 AI 모델이 설계 및 품질 관리 측면에서 수행할 수 있는 주요 기능 2가지를 설명하라. | AI 모델은 학습된 모델을 활용하여 설계 도면의 P&ID 심볼을 자동으로 분류하고, P&ID별 수량, 도면상의 위치를 출력하며, 불필요하거나 잘못된 P&ID를 판단할 수 있습니다. |
| B | P&ID 심볼 객체의 JSON 라벨링 데이터에 포함되는 필수 속성(attributes) 세 가지를 제시하고, 이 속성 중 대상 유형 (shipType)의 예시 3가지를 제시하라. | 필수 속성은 설계사 부호 (vendor), 대상 유형 (shipType), P&ID 심볼 문자 (pidLabel)입니다. 대상 유형 (shipType)의 예시로는 FPSO, Drillship, Semi-Flg 등이 있습니다. |
13. 선박 도장 품질 측정 데이터
🎯 도메인 정의/목적
선박 도장 손상 정도 파악 및
검사 정확도 개선
용접 손상: 20,352건 (19.8%)
✅ 품질/공정 관리
2차 검차: 선별 검사 (크라우드소싱)
성능 지표: Top-1 Accuracy, mAP@50, MIOU
📝 QA 샘플 보기 (2쌍)
| 유형 | 질의 (Query) | 응답 (Answer) |
|---|---|---|
| A | 선박 도장 품질 측정 데이터셋의 구축 목적은 무엇이며, 이 데이터셋에 포함된 도장 불량 유형 중 용접 손상이 차지하는 비율은 얼마인가? | 구축 목적은 선박 도장의 손상 정도를 파악하고 도장 품질의 검사 정확도를 개선하는 것입니다. 불량 유형 중 용접 손상은 20,352건으로 19.8%를 차지합니다. |
| D | 선박 도장 품질 데이터셋의 2차 검차는 어떻게 수행되며, 유효성 검사에서 사용되는 성능 지표 2가지를 제시하라. | 2차 검차는 선별 검사로 진행되며, 라벨링 값이 참 값(Ground Truth)과 일치하는지를 크라우드소싱 플랫폼을 이용하여 Eye Checking으로 수행합니다. 유효성 검사에서 사용되는 주요 성능 지표는 Top-1 Accuracy, mAP@50, MIOU 등입니다. |
14. 용접 AI 학습 데이터 (육안 및 방사선 검사)
🤖 AI 모델/임무
모델: YOLOv5x-seg
임무: 용접 자동화를 위한 결함 탐지
라벨링: 폴리곤
📊 데이터 구조/구성
일반 강재(VTST): 74,019장
주요 결함: 용입부족 16,180개, 언더컷 12,195개
📝 QA 샘플 보기 (2쌍)
| 유형 | 질의 (Query) | 응답 (Answer) |
|---|---|---|
| C | 용접 AI 학습 데이터를 활용하여 용접 결함을 탐지하는 AI 학습 모델로 어떤 알고리즘이 제시되었으며, 이 모델이 수행하는 주요 임무와 라벨링 유형은 무엇인가? | 적용 모델(알고리즘)은 YOLOv5x-seg이며, 이 모델은 용접 자동화를 위한 검사 유형별 용접 이미지 데이터 구축에 사용됩니다. 데이터의 라벨링 유형은 폴리곤입니다. |
| B | 일반 강재(Steel) 모재에 대한 육안검사(VTST) 데이터의 총 원천 데이터 수량은 얼마이며, 가장 많이 구축된 결함 유형 2가지는 무엇인가? | 일반 강재 모재(VTST)에 대한 육안검사 데이터의 총 원천 데이터 수량은 74,019장입니다. 가장 많이 구축된 결함 유형 2가지는 용입부족(Incomplete penetration) 16,180개와 언더컷(Undercut) 12,195개입니다. |
Ⅳ. 질의-응답 유형 최종 통계
LLM 학습 데이터 생성을 위해 총 14개의 논리적 데이터 그룹에 대해 28개의 질의응답 쌍을 구성했습니다. 데이터 과학의 제조 도메인 적용 측면을 반영한 질의 유형 통계는 다음과 같습니다.
| 질의 유형 | 정의 | 사용 횟수 | 비율 |
|---|---|---|---|
| A. 도메인 정의/목적 | 데이터의 최종 목적, 비즈니스 목표, 도메인 정의 | 7회 | 25.0% |
| B. 데이터 구조/구성 | 데이터 규모, 포맷, 라벨링 구성 요소 및 분포 등 | 7회 | 25.0% |
| C. AI 모델/임무 | 적용 알고리즘, AI Task 정의, 예측 목표 및 성능 지표 | 7회 | 25.0% |
| D. 품질/공정 관리 | 데이터 획득/가공/검수 절차 및 품질 관리 기준 | 7회 | 25.0% |
| 총합 | 28회 | 100.0% | |
💡 핵심 특징
제조 도메인 데이터 과학의 핵심 요소인 목적 (A), 데이터 특징 (B), 기술 적용 (C), 품질 관리 (D) 영역에 대해 균등하게 질문을 배분하여 LLM이 전 영역에 걸친 종합적인 지식을 학습하도록 설계되었습니다.
Ⅴ. 도메인 LLM 보고서 생성을 위한 프롬프트 템플릿
이 프롬프트는 다른 도메인(예: 로봇, 헬스케어, 자율주행 등)의 학습 데이터 문서가 주어졌을 때, 해당 도메인의 전문 지식을 LLM이 학습할 수 있도록 구조화된 QA 데이터셋 보고서를 생성하는 데 사용될 수 있습니다.
Report Generation Prompt Template
[지시사항]
당신은 Agentic AI Data Scientist (AADS) 과제에서 대규모 언어 모델(LLM) 파인튜닝을 위한
전문 QA 데이터셋을 구축하는 전문가입니다. 아래에 제시된 [INPUT: 분석 대상 문서]의 내용을 분석하여,
**'논리적 데이터 그룹'** 단위로 묶어 QA 보고서를 생성해야 합니다.
**[보고서 구성 요소]**
1. **보고서 제목:** 도메인 및 목적에 맞게 작성하십시오.
2. **논리적 데이터 그룹 식별:** 문서 내에서 동일한 프로젝트나 목표를 공유하는 문서들을
하나의 '논리적 그룹'으로 묶습니다.
3. **QA 쌍 생성:** 각 논리적 그룹별로 **2개**의 질의응답(QA) 쌍을 생성해야 합니다.
4. **질의 유형 분류:** 생성된 QA 쌍은 다음 4가지 핵심 유형 중 하나로 분류되어야 합니다.
* **A. 도메인 정의/목적:** 해당 데이터가 해결하려는 산업 문제와 비즈니스 목적
* **B. 데이터 구조/구성:** 데이터의 규모, 포맷, 라벨링 구성 요소 및 분포
* **C. AI 모델/임무:** 적용 알고리즘, AI 임무 정의, 예측 목표, 성능 지표
* **D. 품질/공정 관리:** 데이터 획득/가공/검수 절차, 라벨링 기준, 품질 관리 기준
5. **출처 표기:** 응답의 모든 문장은 [i] 형식으로 원본 문서의 출처를 명확하게 표기해야 합니다.
6. **최종 통계:** 생성된 모든 QA 쌍을 대상으로, 사용된 **A, B, C, D 유형의 최종 횟수와 비율**을
정리해야 합니다.
활용 방법: 이 템플릿을 사용하여 다양한 도메인(헬스케어, 자율주행, 로봇 등)의 학습 데이터 문서에서 고품질 QA 데이터셋을 자동으로 생성할 수 있습니다.
페블러스 관점: 피지컬 AI 시대의 데이터 중심 접근법
이번 AADS 과제에서 구축한 제조 분야 QA 데이터셋은 피지컬 AI (Physical AI) 시대에 데이터 품질이 만드는 지능의 차이를 명확히 보여줍니다.
🎯 AADS의 차별화된 접근법
-
•
균형잡힌 지식 구조: 도메인 정의, 데이터 구조, AI 모델, 품질 관리 영역을 25%씩 균등 배분하여 LLM이 편향되지 않은 전문성을 습득하도록 설계
-
•
실무 중심 QA: 14개 제조 도메인의 실제 데이터셋 문서에서 추출한 사실 기반(Factual) 질의응답으로 환각(Hallucination) 최소화
-
•
확장 가능한 템플릿: 프롬프트 템플릿을 통해 다른 도메인(헬스케어, 자율주행 등)으로 즉시 확장 가능한 재사용 가능 구조
DataClinic과의 연계
AADS가 구축한 고품질 QA 데이터셋은 DataClinic의 데이터 품질 진단 및 정제 파이프라인과 결합하여, LLM 파인튜닝 전 데이터 품질을 사전 검증하고 최적화합니다.
피지컬 AI 전략
제조 현장의 멀티모달 데이터(센서, 이미지, 텍스트)를 LLM이 이해하도록 파인튜닝함으로써, 물리적 세계와 상호작용하는 AI의 기반을 마련합니다.
페블러스는 이번 과제를 통해 데이터 중심 AI (Data-Centric AI) 접근법의 중요성을 재확인했습니다. 단순히 모델 크기를 키우는 것이 아니라, 도메인 전문성이 담긴 고품질 데이터로 파인튜닝할 때 진정한 지능이 창발한다는 것을 보여주는 사례입니다.
자주 묻는 질문 (FAQ)
AADS가 제조 분야 QA 데이터셋을 어떻게 구축하나요?
AADS는 제조 현장의 실제 데이터셋 문서(데이터 설명서, 활용 가이드라인)를 분석하여, 동일한 프로젝트 목표를 공유하는 문서들을 '논리적 데이터 그룹'으로 묶습니다. 각 그룹별로 도메인 정의, 데이터 구조, AI 모델, 품질 관리의 4가지 유형에서 2개의 QA 쌍을 생성하여, 총 28개의 고품질 질의응답을 구축했습니다.
LLM 파인튜닝에 왜 QA 형식이 중요한가요?
QA 형식은 LLM이 특정 도메인의 전문 지식을 효율적으로 학습하는 데 최적화된 구조입니다. 명확한 질문과 사실 기반 답변 쌍을 통해 모델이 정확한 지식을 습득하고, Few-Shot Learning이나 프롬프트 엔지니어링 시 즉시 활용 가능한 형태로 정보를 내재화할 수 있습니다. 특히 제조 분야처럼 정확성이 중요한 도메인에서는 QA 형식의 구조화된 학습이 필수적입니다.
14개 데이터셋 중 가장 높은 성능을 보인 것은 무엇인가요?
가전기기 전력 사용량 데이터 (NILM)의 활성-비활성 상태 분류 모델이 F1-score 95.5%로 가장 높은 성능을 기록했습니다. 또한 LNG 탱크 품질 검사 데이터의 세그멘테이션 객체 탐지 모델(Mask DINO)이 mAP 95.72%로 목표치(79.43%)를 크게 초과 달성했습니다. 이는 고품질 라벨링과 적절한 모델 선택이 결합된 결과입니다.
멀티모달 데이터가 LLM 파인튜닝에 어떤 이점을 제공하나요?
멀티모달 데이터(센서 값 + 이미지, 텍스트 + 수치)는 LLM이 제조 현장의 물리적 현상을 종합적으로 이해하도록 돕습니다. 예를 들어 OHT/AGV 탄화 예지보전 데이터는 센서 값(PM10, 온도, 습도)과 열화상 이미지를 결합하여, LLM이 "탄화 상태 3단계(위험)는 PM10 수치 증가 + 열화상 이미지 특정 패턴"과 같은 다차원 지식을 학습할 수 있게 합니다. 이는 피지컬 AI 구현의 핵심 요소입니다.
데이터 품질 관리(D 유형)가 QA 데이터셋에 포함된 이유는?
데이터 과학자 AI가 실무에서 진정으로 유용하려면, 데이터 품질 검증 및 검수 절차를 이해해야 합니다. 예를 들어 "3D 프린팅 데이터의 재현률 검사는 바운딩 박스 누락을 확인한다"는 지식은 AADS가 데이터셋 구축 과정에서 품질 문제를 사전에 감지하고 개선 방안을 제시하는 데 필수적입니다. 이는 단순히 모델 학습뿐 아니라 데이터 파이프라인 전체를 이해하는 AI를 만들기 위한 전략입니다.
프롬프트 템플릿을 다른 도메인에 적용할 때 주의할 점은?
프롬프트 템플릿을 헬스케어, 자율주행 등 다른 도메인에 적용할 때는 도메인 특화 질의 유형을 재정의해야 합니다. 제조 분야의 "품질/공정 관리(D)"는 헬스케어에서 "임상 검증/규제 준수"로, 자율주행에서는 "안전 인증/테스트 시나리오"로 변형될 수 있습니다. 핵심은 4가지 유형의 균등 배분 원칙을 유지하면서, 해당 도메인의 핵심 지식 영역을 정확히 반영하는 것입니다.
AADS QA 데이터셋이 DataClinic과 어떻게 연계되나요?
AADS가 생성한 QA 데이터셋은 DataClinic의 데이터 품질 진단 파이프라인과 긴밀히 연계됩니다. DataClinic이 데이터 이상치, 라벨링 오류, 불균형 분포 등을 자동 탐지하면, AADS는 해당 품질 문제에 대한 QA 쌍을 학습하여 "이 데이터셋의 클래스 불균형 문제를 해결하려면 SMOTE 기법을 적용해야 한다"와 같은 실무적 해결책을 제시할 수 있습니다. 이는 데이터 진단(DataClinic) → 품질 개선 제안(AADS)의 선순환 구조를 만듭니다.
관련 데이터셋 출처
이 보고서에서 분석한 14개 제조 분야 데이터셋의 출처 정보입니다.
-
[1]
제조 현장 이송 장치(OHT/AGV) 탄화 예지보전 데이터
반도체, 디스플레이 제조 현장 대상 / 센서 + 열화상 이미지 멀티모달 -
[2]
김치 생산공정별 비파괴 품질검사 데이터
MultiTask EfficientNetV2 / 품질등급 예측 F1-score 70% 목표 -
[3]
3D 프린팅 출력물 형상 보정용 데이터
외형품질 165,780장 + 수축분석 55,260장 / FDM, SLA, DLP, MJP, SLS -
[4]
금속 3D 프린팅 스파크 이미지 및 기계적 물성 예측 데이터
51,267,476개 이미지 / .bmp, .json, .txt 포맷 -
[5]
건설기계 무인 운행 자율 작업 데이터
LSTM Activity Recognition F1-score 89.98% / Mask2Former PQ 78.41% -
[6]
고품질 연구개발용 리튬이온 이차전지 데이터
LLM(GPT) 기반 과학 출판물 정보 추출 / Few-Shot Learning + 프롬프트 엔지니어링 -
[7]
전기 인프라 지능화를 위한 가전기기 전력 사용량 데이터
NILM 기술 / seq2points, unet / F1-score 95.5% -
[8]
CMF(Color, Material, Finish) 이미지 식별 데이터
Swin Transformer / 33가지 material_finishing 유형 (0-32) -
[9]
실험 기반 재료 물성 데이터
Random Forest Regressor / 1,000행 (Train 80%, Test 20%) / Predicted R² -
[10]
배터리 불량 이미지 진단 데이터
내부 상태 종합 평가 / CT 데이터셋 mIoU 92.79% -
[11]
LNG 탱크 부품 품질 검사 영상 데이터
Mask DINO / mAP 95.72% (목표 79.43% 초과 달성) -
[12]
조선·해양플랜트 P&ID 심볼 식별 데이터
FPSO, Drillship, Semi-Flg 등 / vendor, shipType, pidLabel 속성 -
[13]
선박 도장 품질 측정 데이터
용접 손상 20,352건 (19.8%) / Top-1 Accuracy, mAP@50, MIOU -
[14]
용접 AI 학습 데이터 (육안 및 방사선 검사)
YOLOv5x-seg / 일반 강재(VTST) 74,019장 / 용입부족 16,180개, 언더컷 12,195개
📄 원본 보고서 다운로드
AADS LLM 파인튜닝용 QA 데이터셋 구축: 제조 분야
제조 현장의 14개 도메인과 28쌍의 QA 데이터를 상세히 담은 원본 보고서를 다운로드하세요.
파일 형식: PDF | 작성일: 2025년 11월 29일 | 페블러스 데이터 커뮤니케이션 팀