한컴테크를 통해 한컴의 기술을 공유합니다. 한컴의 프로그래밍, 프레임워크, 라이브러리 및 도구 등 다양한 기술을 만나보세요. 한컴 개발자들의 다양한 지식을 회사라는 울타리를 넘어 여러분과 공유합니다. 한컴이 제공하는 기술블로그에서 새로운 아이디어와 도전을 마주하고, 개발자가 꿈꾸는 미래를 실현하세요.

한컴테크

생성형 AI의 품질 실험: 잘 만든 데이터인가, 그럴듯해 보일 뿐인가


요약

생성형 AI가 만드는 데이터에 대한 특징과 관련 도구, 그리고 차후 활용 방안에 대해 알아보았습니다.

왜 AI로 데이터를 만들어야만 할까?


더 좋은 AI를 만들기 위해선 학습, 검증 등에 필요한 더 많은 데이터가 필요하지만, 이에 필요한 데이터를 확보하는 일은 갈수록 어려워지고 있습니다. 또한 수집, 선별하고 요구사항에 맞게 정제하는데 드는 막대한 비용, 그리고 결코 무시할 수 없는 개인정보보호, 저작권, 보안 이슈는 언제나 우리 발목을 잡고 있습니다. 특히 데이터 중 다수는 실제 문제에 맞지 않거나, 품질이 일정하지 않아 결국 사용되지 못하는 경우도 많습니다.

이러한 맥락 속에서, 패러다임을 바꿀 새로운 아이디어가 부상하고 있습니다. 바로 데이터를 ‘수집’, ‘선별’하는 것을 넘어, 필요에 맞게 ‘설계하고 생성’하는 생성형 AI 기반 합성 데이터(Synthetic Data Generation)의 등장입니다. 이는 단순히 필요한 데이터를 자동으로 만드는 걸 넘어, 우리가 데이터를 다루고 활용하는 방식을 바꿔볼 수 있는 기회가 될 수 있습니다.

AI 생성 이미지 (ChatGPT – DALL·E 사용)

생성형 AI 기반 합성 데이터란?


생성형 AI 기반 합성 데이터(Synthetic Data Generation)는 기존에 존재하지 않는 데이터를 AI가 목적에 맞춰 새롭게 만들어내는 기술입니다.
이때 해당 결과물은 단순한 무작위 샘플이 아니라, 사용자의 요청이 담긴 프롬프트, 조건을 바탕으로 실제처럼 보이는 데이터를 만들어냅니다.

예를 들어, “보험금 청구 거절 사례 100건을 만들어줘. 단, 사유는 명확하고 어투는 정중하게.”
라고 AI에게 지시하면, 실제 고객 민원을 바탕으로 구성된 것처럼 보이는 데이터 셋이 자동으로 생성됩니다.

번호활용 예시생성 예시 문장
1약관 판단 기반 AI 응답 테스트고객님, 해당 치료는 약관상 비급여 항목으로 분류되어 보험금 지급이 어렵습니다. 양해 부탁드립니다.
2날짜·계약 조건 필터링 테스트고객님께서 청구하신 입원비는 본 보험의 보장 기간 이전 발생한 건으로 확인되어 지급이 불가합니다.
3사전 승인 여부 판단 로직 검증청구하신 MRI 검사는 사전에 승인되지 않아 약관 기준상 보장 대상에 포함되지 않습니다.
4반복 청구 대응 시뮬레이션고객님, 동일 질환에 대한 반복 청구는 약관상 제한이 있어 이번 건은 보장받기 어렵습니다.
5진단서 불충분 케이스 대응 테스트제출하신 진단서의 질병명이 명확하지 않아 심사에 어려움이 있습니다.
정확한 소견서로 재청구 부탁드립니다.

이러한 방식은 사람이 직접 만드는 것보다 쉽고 빠르며, 실제 개인정보를 쓰지 않고도 현실과 유사한 데이터 생성이 가능하기 때문에, 모델 학습, 기능 테스트, 민감 정보 대체 등 다양한 영역에서 활용될 수 있습니다.

최근 연구를 통해 본 ‘합성 데이터 생성’의 가능성


‘AI가 만든 합성 데이터’와 관련하여, 아래 두 논문을 비롯해 대규모 언어 모델과 생성형 AI를 활용한 합성 데이터 생성의 원리, 실제 도구 적용, 품질 및 책임성 기준 등 다양한 분야에서 활발한 연구가 이루어지고 있습니다.

1. Generative AI to Generate Test Data Generators

Benoit Baudry et al. (KTH Royal Institute of Technology)

어떤 문제를 풀었나?

  • 생성형 AI는 단순히 데이터를 만들어내는 데 그치지 않고, 소프트웨어 품질을 검증하는 데 필요한 테스트 데이터를 생성할 수 있는가?라는 질문이 제기되고 있습니다. 특히 일부 기능 검증에는 개인 정보나 민감 정보가 포함되지 않은 가짜 데이터가 필요합니다.
    이 논문은 대형 언어 모델(LLM)을 활용해 도메인 규칙과 문화적 맥락을 반영한 고품질 테스트 데이터와 생성기를 자동으로 생성하는 방법을 제안합니다.

무엇을 했나?

  • 해당 논문에서는 GPT-4 등 최신 LLM을 활용해 실제 테스트 케이스에 사용할 수 있는 데이터와 생성기를 만들고, 이를 검증 과정에 활용할 수 있는지를 실험했습니다. 이를 위해 다양한 도메인과 언어에 맞는 테스트 데이터, 실행 가능한 생성 코드, 기존 faking 라이브러리와 연동 가능한 코드 등을 실제로 생성하고 평가했습니다.
    생성된 결과는 문화적 맥락, 도메인 규칙, 기술적 실행 가능성 측면에서 검토되었으며, 코드 실행과 테스트 프레임워크 적용을 통해 현업에서의 활용 가능성도 확인했습니다.
출처 – Generative AI to Generate Test Data Generators

해당 이미지는 논문에서 제안한 LLM 기반 테스트 데이터 생성 플로우를 요약한 개념도입니다.

모델은 다음과 같은 4단계 과정을 통해 생성 품질을 점진적으로 강화합니다:

  1. 질문 기반 응답 생성 – 도메인 요구에 따른 데이터 또는 코드 초안을 작성
  2. 코드 또는 생성 로직 실행 – 자연어가 아닌 실행 가능한 결과물일 경우 실제 실행을 통해 샘플 데이터 생성
  3. 검증 단계 – 생성된 데이터가 테스트 목적에 적합한지 판단
  4. 최종 출력 및 테스트 적용 – 유효성이 확보된 데이터를 시스템 테스트에 실제 활용

이러한 구조는 단순한 언어 모델 출력을 넘어, 실행 기반의 검증 가능성을 확보하는 방향으로 확장된 흐름을 제시합니다.

※ 개인적 추측으로 이미 알려진 LLM의 추론형 모델들은 해당 구조로 결과에 대한 자기평가를 진행하는 것으로 알고 있습니다.
(자기평가 → 기준에 미달하면 결과를 재작성…)

어떤 의미가 있고 어떻게 활용할 수 있는가?

  • 이 연구는 생성형 AI가 단순한 ‘데이터 생성기’를 넘어, 품질 검증에 필요한 테스트 데이터를 자동으로 생성하는 도구로 활용될 수 있음을 실험을 통해 보여주고 있습니다.
    특히 결과물은 단순 문장이 아닌, 테스트 목적에 맞춰 도메인 규칙과 실행 가능성을 갖춘 데이터 및 생성기 코드로 구성되어 있어 실제 검증 환경에서의 활용 가능성을 보여주고 있습니다.

2. Best Practices and Lessons Learned on Synthetic Data for Language Models

Ruibo Liu et al. (Google DeepMind, Stanford, Georgia Tech)

어떤 문제를 풀었나?

  • AI 모델 학습과 평가 과정에서 합성 데이터의 역할, 가능성, 한계에 대해 폭넓게 분석하였습니다.
    또한 데이터 부족, 비용, 프라이버시 등 현실적인 제약을 합성 데이터를 통해 어떻게 극복할 수 있는지 살펴봤으며, 품질·편향·신뢰성 문제도 함께 다뤘습니다.

무엇을 했나?

다양한 영역의 합성 데이터 생성 기술과 실제 활용 사례를 종합적으로 조사했습니다.

  • 텍스트: 자연어 질문/답변, 수학 문제 생성 등 다양한 학습·테스트 데이터의 대규모 자동 생성 사례
  • 코드: 코드 생성과 실행 결과를 활용한 AI 모델 강화 및 검증(Test case 자동화, 리팩토링 데이터 생성 등)
  • 멀티모달: 이미지-텍스트 페어, 그래프, 차트 데이터 등 복합 데이터에서의 합성 생성 및 활용 적용
  • 다언어/언어 다양성: 소수 언어, 번역, 다국어 QA 등에서 실제 활용(예: 백 트랜슬레이션(역번역), 다국어 QA 쌍 자동 생성)

백 트랜슬레이션(역번역) : 하나의 문장을 어떤 외국어로 번역한 다음, 다시 원래 언어로 되돌려 번역하는 방식

  • 예시 [1] 원래 문장 : ‘오늘 날씨가 좋습니다.’ → [2] 영어로 번역 : ‘The weather is nice today’ → [3] 다시 한국어로 번역 : ‘오늘은 날씨가 좋다.’

또한 다음과 같은 실제 응용 사례들을 통해 활용 가능성을 검토했습니다

  • 모델 사전학습 데이터 증강: 기존 오픈소스 데이터 부족 영역 보완, 드문 조건이나 극단 상황 데이터 확보
  • 모델 검증 및 품질 평가: 합성 데이터로 한계 상황·변형 조건 테스트, 자동화된 레드 팀 테스트 시나리오 구축
  • 공정성·편향 완화: 특정 성별·인종·지리적 편향을 최소화하는 데이터 설계 및 검증 전략 연구
  • QA 테스팅/산업별 실전 적용: 의료, 법률, 금융 등 개인정보 이슈가 큰 도메인에서 현실 데이터 대체로 활용, 실제 QA·평가 프로토콜 구축

그 외, 품질·편향·팩추얼리티(사실성) 이슈, 책임성(Responsible AI), 대규모화(Scaling) 전략, 평가 contamination 문제점 등 합성 데이터 현장 활용과 한계까지 심층 분석하였습니다.

팩추얼리티(사실성) : ‘AI가 답한 내용이 사실인지 아닌지 따지는 기준’

어떤 의미가 있고 어떻게 활용할 수 있는가?

  • 합성 데이터가 데이터 부족이나 민감 정보 문제를 해결할 수 있는 현실적인 대안임을 강조하고 있습니다.
    특히 AI 모델 개발과 검증의 패러다임을 바꿀 수 있는 새로운 표준으로서의 가능성을 제시했으며, 실제로 다양한 도메인에서의 적용 사례를 통해 활용 방안을 구체적으로 설명했습니다.
    하지만 품질, 편향, 사실성 등의 이슈가 여전히 존재하기 때문에, 책임 있는 생성 기준과 평가 체계 마련의 필요성도 함께 시사했습니다.

3. 글로벌 기업의 합성 데이터 활용 사례 및 효과

  • 일부 글로벌 기업들은 합성 데이터를 단순 생성에 그치지 않고, 테스트 케이스 작성, 추천 모델 검증, 금융 시뮬레이션 테스트 등 품질 검증 목적에도 점차 활용하고 있습니다.
회사효과
Microsoft테스트 케이스 작성 시간을 75% 단축
Netflix테스트 시나리오를 별도의 인력 확장 없이 10배 확장
Spotify자동화된 테스트 커버리지를 45% → 85%로 향상
Adobe기능 테스트 주기를 60% 단축
Walmart고객 행동에 대한 예측 데이터를 생성하여 검증에 활용
JPMorgan합성 금융 거래 기록을 생성하여, 사기 탐지용 모델 또는 부하 테스트

출처 – How Top Companies Are Using AI to Speed Up Software Testing in 2025 – QASource, LinkedIn,
Synthetic-Data – JPMorgan, How Human-in-the-Loop (HITL) is Saving-ai-from-itself-synthetic-nama-aveee – Nama Aveee, LinkedIn

(※ 단, 이들 사례는 해당 회사에서 직접적으로 제시한 자료가 아니므로, 실제 효과에 대한 추가 검증이 필요합니다.)

실용적 도구로 본 합성 데이터: 현실의 모습은 어떠한가?


위 논문에서 주장한 학술적으로 확인된 가능성과 필요성은 (실제 사용자가 쓸 수 있는) 구체적인 도구와 서비스라는 형태로 제품화되고 있습니다. Huggingface, Github 등의 개발자 커뮤니티가 주도하는 오픈소스 프로젝트부터, 기업의 비즈니스 문제를 직접 겨냥한 상용 유료 솔루션까지 다양하게 보이고 있습니다.

1. 오픈소스 진영의 도전: 개발자 생태계 중심의 파이프라인

오픈소스 진영에서는 Huggingface를 중심으로, 여러 도구를 유기적으로 연결하는 ‘파이프라인(Pipeline)’ 접근 방식이 많이 보이고 있습니다. 그중 하나는 개발자가 아니더라도, 여러 환경을 조합하여 높은 퀄리티의 AI 합성 데이터를 만들 수 있도록 고안된 ‘Synthetic Data Generator’가 있습니다.

비전의 시작, ‘Huggingface Synthetic Data Generator’

해당 툴은 “자연어 설명만으로 데이터 셋을 생성한다”라는 매우 직관적이고 매력적인 목표를 가지고 등장했습니다. 사용자가 “고객의 부정적인 리뷰 텍스트 100개 생성”과 같이 원하는 바를 글로 설명하면, LLM을 통해 그에 맞는 데이터 셋을 자동으로 만들어주는 웹 기반 도구입니다.

예를 들어 “이탈리안 레스토랑 부정 리뷰 50개 생성”이라고 입력하면

  • “피자는 짰고 서비스는 느렸어요.”
  • “가성비가 너무 떨어집니다.” 와 같은 샘플이 즉시 생성됩니다.
    생성된 문장은 웹 화면에서 바로 확인되며, 사용자는 즉석에서 수정을 하거나 라벨을 조정할 수 있습니다.
    이처럼 “입력 → 생성 → 수정 → 저장”의 과정이 코딩 작업 없이도 처리 가능하다는 점은, 기획자나 검증 담당자에게 매우 매력적인 구조로 보입니다.
항목설명
자연어 기반 생성“이런 데이터 만들어줘”라고 글로 설명하면 AI가 생성
실시간 확인/수정생성된 샘플을 즉시 확인하고 프롬프트나 라벨 조정 가능
모델 연동OpenAI의 GPT, Anthropic의 Claude 등 다양한 LLM 선택 가능
생태계 연동생성된 데이터를 Huggingface Hub나 Argilla 서버에 직접 저장

품질 테스트에서의 활용 가능성

해당 툴을 이용하면, AI 데이터 생성 시 매 케이스마다 프롬프트를 작성하지 않아도 한 번의 요청으로 다양한 테스트 데이터를 빠르게 생성할 수 있을 것으로 예상됩니다. 이를 통해 테스트 케이스 확보에 드는 시간을 줄이고, 경계값이나 예외 케이스 관리 등 검증에 필요한 시나리오를 보다 체계적으로 마련하는 데 기여할 것으로 기대됩니다.

관련 엔진: ‘Argilla’와 ‘Distilabel’

해당 기능의 핵심 기능은 아래 두 가지 모듈 위에서 동작합니다.

  • Argilla: LLM이 생성한 데이터가 정말 쓸만한지 사람이 직접 검토하고 피드백을 주는 ‘품질 관리 허브’ 역할
  • Distilabel: 프롬프트 설계부터 여러 LLM에 요청을 보내고 결과를 취합하는 복잡한 과정을 자동화하는 관리 툴
출처 – Synthetic Data Generator – argilla-io, GitHub

위 도식은 Huggingface Synthetic Data Generator의 전체 흐름을 보여줍니다.

  1. 사용자가 자연어로 프롬프트를 입력하면
  2. 내부적으로 Distilabel이 샘플을 구성하고
  3. Ollama(LLM 엔진)가 실제 텍스트를 생성한 뒤
  4. Argilla를 통해 검토 및 피드백을 거쳐 데이터 셋이 완성되는 구조입니다.

“생성 → 검토 → 피드백 → 저장”의 파이프라인 입니다.

2. 기업용 솔루션: 비즈니스 문제에 대한 직접적인 해답

반면, Gretel AIMostly AI 같은 B2B 서비스는 실질적으로 아래와 같은 방향의 ‘AI 기반 합성 데이터’에 대한 비즈니스를 제공하고 있습니다.

  • 데이터 보안과 프라이버시 보장
    민감한 원본 데이터를 ‘비식별화’ 처리, 금융/의료 등 규제 도메인에서 안전하게 합성 데이터를 구축할 수 있다고 합니다.
  • 초간편 워크플로우
    웹 UI에서 몇 번의 클릭이면, 복잡한 코드나 인프라 없이 최적화된 합성 데이터셋 완성이 된다고 합니다.
  • 프롬프트 기반 생성 실험
    MOSTLY AI에서는 실제 데이터 없이 시나리오별 테스트 데이터를 생성, 통계적 다양성과 신뢰성을 모두 챙긴다고 합니다.

3. 도구 사용 후 평가: 기대와 현실의 차이

그렇다면 설명으로만 보면, 완벽하고 매력적인 도구들의 현재 상태는 어떨까요? 제가 직접 여러 프로젝트를 테스트해 본 결과, 그들이 말한 비전과 구현해 놓은 현실 사이에는 아직 분명한 간극이 존재했습니다.

직접 마주한 한계점들

① Huggingface Synthetic Data Generator

‘코딩이 없다’, ‘여러 모듈이 묶인 파이프라인을 통해 데이터 관리가 용이하다’ 등의 설명으로, 가장 기대했던 툴입니다. 실제 Huggingface와 Github에 올라온 코드를 직접 받아서 GPT API와 연동해서 돌려보고, 제 개인 PC 로컬에 LLM 모델을 올려서 연동도 해보았으나 개발자들이 설명한 바와 같이 원활하게 돌아가지는 않았습니다. 세부적으로 파악한 결과, 해당 오픈소스의 개발팀 이탈했으며, 이후 유지 보수가 사실상 중단되면서 기능 완성도나 다양성 측면에서 제약이 명확하게 드러났던 것 같습니다.
특히 생성 결과물의 표현 패턴이 반복되거나 내용 다양성이 부족한 경우가 많아, 실제 업무나 테스트에 투입하기엔 불가능하다는 판단이 듭니다. 특히 일부 API는 응답이 없거나 불안정해, 몇몇 기능은 아이디어 검토 정도만 할 수밖에 없었습니다.

Distilabel & Argilla

위 프로젝트의 주요 기능을 하는 이 모듈들은 간단한 Demo(Gradio 등) 같은 GUI가 사용이 불가능했고 일부 기능이 아직 미완성 단계에 있었습니다. 특히 git에서 제공한 웹 데모(Argilla Playground)에서는 실제 데이터 생성이 불가능했고, 모든 기능을 활용하려면 로컬 환경에 직접 설치하고 복잡한 설정을 거쳐야만 했습니다. 추가로 해당 항목들도 개발팀이 이탈한 상황이었습니다.(Huggingface 기업 인수로 인한 것으로 예상됩니다.)

③ 기타 도구 (Label Studio 등)

유사한 다른 툴들도 살펴보았으나, 대부분 데이터를 직접 생성하기보다는 이미 생성된 데이터에 라벨을 붙이는(Labeling) 기능에만 초점이 맞춰져 있었습니다.

결론적으로, 기술적 개념과 방향성은 명확하고 타당하지만, 현재 웹에서 곧바로 손쉽게 활용할 수 있는 완성도 높은 서비스는 찾기 어려웠습니다. 위와 같은 것으로 보아 AI 합성 데이터의 잠재력을 온전히 활용하기 위해서는, 아직은 운용하려는 사용자의 적극적인 사용 방법에 대한 학습과 기술적인 개입이 필수적입니다.

장/단점 비교: AI가 만든 데이터를 어디까지 믿을 수 있는가?


위의 논문들과 실제 도구를 사용해 보고 느낀, 현시점의 AI 생성 데이터의 장/단점은 아래와 같습니다.

장점

  • 비용 절감: 수작업 없이 대량의 학습/테스트용 데이터 생성 가능
  • 맞춤화: 원하는 도메인, 문체, 목적에 맞춰 조정 가능
  • 빠른 반복: 다양한 조건으로 생성-테스트 반복 가능

단점

  • 사실 오류 (hallucination): 사실과 무관한 내용 생성 가능성
  • 편향 출력: 프롬프트나 LLM 모델 자체적인 편향이 데이터에 반영될 수 있음
  • 검증 부족: 생성된 데이터의 품질 및 신뢰도는 사용자 검증 필요
  • 도메인 한계: 의료, 법률 등 고정밀 분야에는 단독 사용 어려움
AI 생성 이미지 (ChatGPT – DALL·E 사용)

그럼에도 불구하고, AI가 만들어내는 데이터에 주목해야 하는 이유


위의 ‘도구 사용 후 평가’와 같이, AI 기반 합성 데이터는 아직 완성된 기술이 아닙니다. 실제 기업 현장에서 쓰기엔 여전히 검증 부족, 법적 리스크, 정합성 불신이라는 벽이 존재하며, 일부 연구는 오히려 한계를 더 명확히 보여주기도 합니다. 그럼에도 불구하고, 지금 이 흐름을 눈여겨봐야 하는 이유는 명확합니다.

1. 기존 생성 방식의 한계를 넘는 ‘패러다임 전환’

지금까지 개발, 검증에 필요한 합성 데이터는 직접 정한 규칙대로 손수 만들거나, 기존 데이터를 조금씩 바꿔 쓰는 방식이 많았고, 주로 이미지를 만들 때 쓰이는 GAN(이미지 생성 딥러닝 기법) 같은 기술이 중심이었습니다.

  • 도메인 적응력이 낮고
  • 확장성과 커스터마이징이 제한되며
  • 반복 작업을 요구합니다.

이에 반해, AI를 활용한 데이터 생성은 자연어 프롬프트 하나로 수많은 데이터 패턴을 생성할 수 있고, 질문 톤이나 문체, 포함 정보의 범위까지 자유롭게 조절이 가능합니다. 특히 특정 분야(예: 금융, 헬스케어) 언어 스타일을 반영한 목적 지향적 학습 데이터를 대량으로 확보할 수 있는 점에서 기존 방식과는 본질적으로 다릅니다.

2. 테스트 수준을 높일 수 있는 가능성

AI 기반 합성 데이터는 단순히 학습용을 넘어, 검증 및 테스트 데이터 자동화로도 확장될 수 있습니다.

  • 실제 사용자 질문과 유사한 문장을 다양하게 생성해 QA 테스트 케이스로 사용
  • 경계 조건이나 예외 상황을 포함한 시나리오를 자동 확장
  • 개인정보 등 민감 데이터 대체용으로도 활용 가능

이는 단순 반복 테스트를 넘어서, 테스트 자체를 자동화하는 미래 흐름의 기초를 구성할 수 있습니다. 특히 prompt library와 연계한 내부 QA 프로세스의 ‘반자동화’ 가능성은 현실적인 변화의 지점입니다.

3. 지금은 ‘실험’과 ‘관찰’이 먼저일 때

실제 현장에서 당장 도입하기엔 부족한 점이 많지만, 어떤 조건과 설계가 효과를 내는지를 실험적으로 파악하기엔 지금이 적기입니다.

  • 어떤 프롬프트 구조가 원하는 유형의 데이터를 더 잘 생성하는가
  • 기존 사람이 사용한 데이터 셋과 병행할 때 어떤 시너지가 나는가
  • 생성된 데이터가 실제 사용자 패턴과 얼마나 닮았는가

위와 같은 질문을 통해, 소규모 실험을 해보는 것이 현실적인 대응 전략인 것 같습니다.

AI 생성 이미지 (ChatGPT – DALL·E 사용)

Conclusion


생성형 AI 데이터, 우리는 이미 쓰고 있습니다. 이제는 ‘잘 쓰는 법’을 고민할 때입니다.

품질보증실에서는 일부 프로젝트에 한해 검증 기준 설계 및 품질 평가에 생성형 AI 기반 샘플 데이터를 활용하고 있습니다.
기술이 완성되지 않았더라도, 업무 현실은 이미 활용 가능성뿐 아니라 품질 확보의 책임까지 요구하고 있습니다.

추후 필요한 건, 이 데이터를 더 안전하고, 정확하고, 신뢰감을 가지도록 사용하는 방법에 대한 실험과 전략입니다.
이에 대해, 아래 세 가지 질문은 이제 AI 사업에 있어 품질 관리의 핵심 과제가 될 것 같습니다.

  • 잘못된 내용은 어떻게 걸러낼 것인가?
  • 생성된 데이터의 품질은 어떻게 측정하고 관리할 것인가?
  • 생성 과정을 어떻게 단순화하되, 품질 저하 없이 유지할 것인가?

이제는 “생성형 AI 데이터를 쓸 수 있을까?”라는 막연한 질문보다,
이 데이터를 어떻게 품질이 높은 상태로 쓸 수 있을 것인가, 우리는 이걸 더 잘 쓰기 위해 무엇을 해야 할까”를 고민해야 할 시기라고 판단됩니다.

Reference


Scroll to Top