ISO/IEC 5259-2 데이터 품질 표준 사례 연구
ISO/IEC 5259-2는 AI/ML 시스템의 데이터 품질을 평가하는 국제 표준입니다. 이 아티클에서는 이 표준 문서에서 OWL 온톨로지를 추출하는 전 과정을 다룹니다.
전 세계에는 수천 개의 ISO, IEEE, W3C 표준 문서가 존재합니다. 하지만 대부분 PDF 형식의 자연어 텍스트로만 제공되어 다음과 같은 한계가 있습니다:
검색 엔진이나 AI가 내용을 정확히 이해하기 어려움
다른 시스템과 통합이 어려움
"데이터 정확성이 0.9 이하라면?" 같은 논리적 추론 불가
표준 개정 시 변경사항 추적 복잡
개념(Classes) + 관계(Properties) + 추론 규칙(Axioms) = 온톨로지
특정 도메인의 지식을 형식화하여 기계가 이해하고 추론할 수 있게 만드는 구조
RDF/OWL 형식으로 컴퓨터가 의미를 파악
"모든 고유 품질 특성을 찾아라" 같은 질의 가능
규칙 기반 자동 검증 및 추론
다른 온톨로지와 연결 (Linked Data)
Before (PDF 텍스트)
"정확성(Accuracy)은 데이터가 실제 개체를 정확히 표현하는 정도를 나타내는 고유 데이터 품질 특성입니다."
"Accuracy is an inherent data quality characteristic that refers to the degree to which data correctly represents the real-world entity."
After (OWL 온톨로지)
<owl:Class rdf:about="Accuracy"> <rdfs:subClassOf rdf:resource="InherentCharacteristic"/> <rdfs:label xml:lang="ko">정확성</rdfs:label> <rdfs:label xml:lang="en">Accuracy</rdfs:label> <rdfs:comment> 데이터 항목이 올바른 데이터 값 또는 레이블을 가지는 정도 </rdfs:comment> </owl:Class>
Graph (그래프 표현)
Before (PDF 텍스트)
"완전성(Completeness)은 필요한 모든 데이터가 존재하는 정도를 나타내는 고유 데이터 품질 특성입니다."
"Completeness is an inherent data quality characteristic that refers to the degree to which all required data is present."
After (OWL 온톨로지)
<owl:Class rdf:about="Completeness"> <rdfs:subClassOf rdf:resource="InherentCharacteristic"/> <rdfs:label xml:lang="ko">완전성</rdfs:label> <rdfs:label xml:lang="en">Completeness</rdfs:label> <rdfs:comment> 데이터가 모든 예상 속성에 대한 값을 가지는 정도 </rdfs:comment> </owl:Class>
Graph (그래프 표현)
Before (PDF 텍스트)
"가용성(Availability)은 권한 있는 사용자가 데이터셋을 검색할 수 있는 정도를 나타내는 시스템 의존 데이터 품질 특성입니다."
"Availability is a system-dependent data quality characteristic that refers to the degree to which datasets can be retrieved by authorized users."
After (OWL 온톨로지)
<owl:Class rdf:about="Availability"> <rdfs:subClassOf rdf:resource="SystemDependentCharacteristic"/> <rdfs:label xml:lang="ko">가용성</rdfs:label> <rdfs:label xml:lang="en">Availability</rdfs:label> <rdfs:comment> 권한 있는 사용자가 데이터셋을 검색할 수 있는 정도 </rdfs:comment> </owl:Class>
Graph (그래프 표현)
ISO/IEC 5259-2:2024
ISO/IEC JTC 1/SC 42
(Artificial Intelligence)
AI/ML 데이터 품질
ISO 5259-2는 24개 데이터 품질 특성(Data Quality Characteristics)과 각각의 측정 방법(Measures)을 정의합니다.
데이터 자체의 내재적 품질
시스템 환경에 따라 달라지는 품질
고유 + 시스템 의존 특성 혼합
특정 도메인에서 중요한 추가 품질
| 특성 | 측정 ID | 측정 이름 | 수식 |
|---|---|---|---|
| Accuracy | DQM-01 | Syntactic accuracy | correct / total |
| Completeness | DQM-03 | Data completeness | non-null / total |
| Consistency | DQM-05 | Referential integrity | valid_refs / total_refs |
온톨로지 스키마 - 지식의 구조와 규칙을 정의
온톨로지 인스턴스 - 실제 데이터 예제
어떤 방이 있고, 어떻게 연결되는지 정의
각 방에 무엇이 있는지 구체적 데이터
owl:Thing │ ├── DataQualityModel ├── DataQualityCharacteristic │ ├── InherentCharacteristic │ │ ├── Accuracy (정확성) │ │ ├── Completeness (완전성) │ │ ├── Consistency (일관성) │ │ └── ... (6개 더) │ ├── SystemDependentCharacteristic │ │ ├── Accessibility (접근성) │ │ └── ... (4개 더) │ ├── HybridCharacteristic │ │ └── Availability (가용성) │ └── AdditionalCharacteristic │ └── ... (9개) ├── DataQualityMeasure ├── MeasurementFunction └── TargetData
<!-- Accuracy 클래스 정의 --> <owl:Class rdf:about="&iso5259;Accuracy"> <rdfs:subClassOf rdf:resource="&iso5259;InherentCharacteristic"/> <rdfs:label xml:lang="en">Accuracy</rdfs:label> <rdfs:label xml:lang="ko">정확성</rdfs:label> <rdfs:comment xml:lang="en"> The degree to which data correctly represents the real-world entity or event. </rdfs:comment> <iso5259:standardReference> ISO/IEC 5259-2:2024, Section 6.2.1 </iso5259:standardReference> </owl:Class> <!-- measuredBy 속성 정의 --> <owl:ObjectProperty rdf:about="&iso5259;measuredBy"> <rdfs:domain rdf:resource="&iso5259;DataQualityCharacteristic"/> <rdfs:range rdf:resource="&iso5259;DataQualityMeasure"/> <rdfs:label xml:lang="ko">측정 방법</rdfs:label> </owl:ObjectProperty>
<!-- Syntactic Accuracy 측정 지표 인스턴스 --> <owl:NamedIndividual rdf:about="&iso5259;DQM_01"> <rdf:type rdf:resource="&iso5259;DataQualityMeasure"/> <rdfs:label xml:lang="en">Syntactic Accuracy</rdfs:label> <rdfs:label xml:lang="ko">구문적 정확성</rdfs:label> <iso5259:measureID>DQM-01</iso5259:measureID> <iso5259:measureName xml:lang="en">Syntactic accuracy</iso5259:measureName> <iso5259:measureName xml:lang="ko">구문적 정확성</iso5259:measureName> <iso5259:measures rdf:resource="&iso5259;Accuracy"/> <iso5259:usesFunction rdf:resource="&iso5259;MF_02"/> <rdfs:comment xml:lang="en"> Ratio of data values that are syntactically correct compared to the total number of data values </rdfs:comment> </owl:NamedIndividual> <!-- Measurement Function 인스턴스 --> <owl:NamedIndividual rdf:about="&iso5259;MF_02"> <rdf:type rdf:resource="&iso5259;MeasurementFunction"/> <rdfs:label xml:lang="en">Percentage Measurement Function</rdfs:label> <rdfs:label xml:lang="ko">백분율 측정 함수</rdfs:label> <iso5259:measurementFormula>(X / Y) * 100</iso5259:measurementFormula> </owl:NamedIndividual>
Cytoscape.js를 사용한 인터랙티브 그래프입니다. 노드를 클릭하거나 드래그하여 탐색할 수 있습니다.
SPARQL (SPARQL Protocol and RDF Query Language)은 시맨틱 웹의 표준 쿼리 언어입니다. RDF 데이터베이스에서 지식을 조회하고 조작할 수 있습니다.
ISO 5259-2 온톨로지에서 모든 데이터 품질 특성을 조회하는 SPARQL 쿼리입니다.
PREFIX iso5259: <http://pebblous.ai/ontology/iso5259-2#> PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#> PREFIX owl: <http://www.w3.org/2002/07/owl#> SELECT ?characteristic ?labelKo ?labelEn WHERE { ?characteristic rdf:type owl:Class . ?characteristic rdfs:subClassOf iso5259:DataQualityCharacteristic . ?characteristic rdfs:label ?labelKo . ?characteristic rdfs:label ?labelEn . FILTER (lang(?labelKo) = "ko") FILTER (lang(?labelEn) = "en") } ORDER BY ?labelKo
아래 예제 쿼리를 선택하여 다양한 SPARQL 패턴을 학습하고, 직접 실행해보세요.
목적: 온톨로지에 정의된 모든 데이터 품질 특성(Quality Characteristic)을 조회합니다.
동작 원리:
owl:Class 타입인 모든 클래스를 찾습니다DataQualityCharacteristic의 하위 클래스만 필터링합니다예상 결과: Accuracy(정확성), Completeness(완전성), Consistency(일관성) 등 24개 품질 특성
Protégé 사용
장점:
단점:
Claude/GPT-4
장점:
단점:
LLM + Protégé ⭐ 추천
장점:
프로세스:
이 프로젝트에서는 하이브리드 방법론을 사용했습니다:
Claude Code로 ISO 5259-2 PDF 읽기 → OWL 코드 자동 생성
구조 검증, SPARQL 쿼리 작성, 시각화 도구 조사
문서화 및 인터랙티브 HTML 작성
✅ 결과: 총 4시간 만에 프로덕션 품질 온톨로지 완성
이 프로젝트에서 생성한 모든 파일을 다운로드할 수 있습니다.
전체 아티클 PDF 형식