한컴테크를 통해 한컴의 기술을 공유합니다. 한컴의 프로그래밍, 프레임워크, 라이브러리 및 도구 등 다양한 기술을 만나보세요. 한컴 개발자들의 다양한 지식을 회사라는 울타리를 넘어 여러분과 공유합니다. 한컴이 제공하는 기술블로그에서 새로운 아이디어와 도전을 마주하고, 개발자가 꿈꾸는 미래를 실현하세요.

한컴테크

멀티모달 VLM 기술 동향


요약

이 글은 멀티모달 VLM(Vision-Language Model) 기술의 개념과 발전 배경, 활용 분야, 아키텍처, 최신 동향 및 주요 기업들의 기술 경쟁 상황을 종합적으로 다룹니다. VLM은 이미지와 텍스트를 통합적으로 이해하고 처리하는 모델로, 문서 인식, 이미지 설명, 질의응답 등 다양한 작업에 활용되며, LLM의 한계를 보완하는 핵심 기술로 주목받고 있습니다. 최신 아키텍처 설계 방식, 파인튜닝 전략, 한계점에 대한 분석과 함께 OpenAI, Google, Anthropic, 네이버 등의 개발 사례를 소개하며, 오픈소스와 상용 VLM 모델의 비교와 기업 활용 현황도 함께 조망합니다.

VLM (Vision-Language Model)이란?


VLM시각 정보(Vision)와 언어(Language)를 결합한 멀티모달 모델로, 다량의 이미지-텍스트 데이터를 학습해 시각과 언어 정보를 동시에 처리할 수 있습니다. 이미지와 텍스트를 함께 입력받아, 둘 사이의 관계를 학습함으로써 이미지를 보고 설명하거나 질문에 답변할 수 있습니다.

최근 거대 언어 모델(LLM)의 성공으로 텍스트 기반 AI가 빠르게 발전했지만, 현실의 문제는 단순한 텍스트 이해를 넘어 이미지, 음성, 영상 등 다양한 데이터를 동시에 해석해야 하는 경우가 많습니다.

특히 문서 인식 (Document Understanding) 분야에서는 문서 내 복잡한 글자, 서식, 표, 그림 등을 이해하기 위해 멀티모달 AI에 대한 요구가 커지고 있습니다.

이 리포트에서는 LLM에서 VLM 모델로의 전환 배경과 필요성을 시작으로, VLM의 개념 및 기술 트렌드, 서비스 적용 사례, 기술적 확장 방법, 그리고 개발 과정에서 마주하는 한계와 향후 방향까지 살펴보겠습니다.

출처 – NVIDIA Glossary: What are Vision-Language Models?

LLM에서 멀티모달 모델로의 전환 : 배경과 필요성


LLM은 방대한 텍스트 말뭉치를 학습해 사람 수준의 언어 이해와 생성 능력을 보여주었지만, 이미지나 영상 등 비언어적 정보는 처리하지 못하는 한계가 있습니다.

사람이 문서를 읽을 때 레이아웃이나 그림을 함께 살펴보며 텍스트를 해석하듯, AI도 텍스트 외의 시각 정보를 함께 이해할 수 있어야 합니다. 하지만 이러한 요구는 텍스트 기반의 LLM만으로는 충족하기 어렵습니다. 이에 따라 언어 모델에 ‘눈’과 ‘귀’를 달아주는 멀티모달 확장이 주목받고 있습니다.

AI 연구계는 “언어만으로는 충분하지 않다(Language Is Not All You Need)”는 관점에서, 다양한 지각 능력을 언어 모델에 결합해야 진정한 지능에 가까워질 수 있다고 보고 있습니다.

멀티모달 모델은 단일 정보에 의존하는 기존 모델보다 더 정밀한 예측과 풍부한 이해를 제공합니다. 이러한 이유로, 문서 AI 분야에서도 멀티모달로의 전환은 더 이상 선택이 아니라 필수로 자리 잡아가고 있습니다.

출처 – Multimodal AI Market Size to Hit USD 42.38 Billion by 2034

VLM의 활용 분야


VLM은 “이미지를 이해하고 말하거나, 반대로 말로부터 이미지를 다루는” 핵심 역량을 갖춘 멀티모달 모델로, 활용 범위가 매우 넓습니다.

특히 기존에 여러 가지 특화된 일을 하던 모델들을 개별적으로 사용하는 것이 아니라, 하나의 큰 모델로 여러 업무를 통합 처리할 수 있는 점이 강점입니다. VLM의 대표적인 활용 분야는 다음과 같습니다.

대표 작업특징
1. 이미지 설명
(Image Captioning)
사진이나 그림을 보여주면 그 내용을 묘사하는 자연어 캡션을 생성할 수 있습니다.
이 기능은 시각장애인을 위한 이미지 대체 텍스트 작성이나, 미디어에서 사진 설명을 자동 생성하는 데 활용될 수 있습니다.
2. 문서 기반 질의응답(Document VQA)사용자가 문서 내용을 묻는 자연어 질문에 답변하는 작업입니다.
이러한 VQA에는 문서 이미지에 대한 이해와 함께 추론 능력도 요구됩니다.
기존에는 OCR로 텍스트를 뽑아 답을 했지만, VLM은 원본 이미지를 직접 참고하여 맥락도 함께 고려하는 장점이 있습니다.

ex) 영수증 이미지를 주고 “총액이 얼마인가?” 물으면, VLM이 문서를 읽고 답을 찾아내어 자연어로 답변합니다.
3. 문서 요약긴 보고서나 PDF 이미지 등을 읽고 핵심만 뽑아 요약하는 작업입니다.
VLM은 문서의 모든 페이지를 시각적으로 훑어보며 중요한 내용을 파악한 뒤, 자연어로 요약문을 생성할 수 있습니다.
특히 도표나 강조된 텍스트를 통해 사람처럼 요점을 집어낼 수 있다는 것이 장점입니다. 현재 GPT-4 같은 모델이 이미지 입력 요약을 부분적으로 지원하고 있습니다.
4. 제품 설명 및 리뷰 생성상품의 사진만 보고도 그 제품의 특징을 파악하여 설명문이나 리뷰를 만들어낼 수 있습니다.
실제로 전자상거래 업계에서는 사용자가 상품 사진을 업로드하면 AI가 자동으로 제품 세부 설명을 작성해 주는 실험이 이루어지고 있습니다. 이를 통해 판매자는 일일이 글을 작성하는 시간을 절약하고, 고객에게는 사진과 어울리는 풍부한 상품 정보를 제공할 수 있습니다.

ex) 새로 나온 신발 사진을 주면서 “이 제품 소개 글을 써줘”라고 하면, 색상과 디자인을 언급하며 “세련된 검은색 가죽 소재의 운동화로, 내구성 있는 밑창과 편안한 착용감을 갖춘 제품” 등과 같이 전문 카피라이터가 쓴 듯한 제품 설명을 생성합니다.

이외에도 VLM의 활용 분야는 매우 다양하며, 이미지와 텍스트를 다루는 많은 일을 할 수 있습니다.

출처 – Vision Language Models Explained

VLM 장단점


최신 VLM 모델은 OCR 기능도 수행할 수 있으며, OpenAI GPT-4 계열 모델과 Anthropic Claude 등 대규모 멀티모달 모델은 OCR 분야에서도 높은 수준의 정확도를 보여주고 있습니다. 최근의 VLM은 비교적 복잡한 자연 이미지 속의 텍스트까지도 인식할 수 있으며, 전통적인 OCR 모델을 능가하는 성능을 보이기도 합니다.

그러나 추론 속도 측면에서는 한계가 있습니다. 대규모 모델은 API 통신 및 거대한 파라미터로 인해 지연이 길어지고, 오픈소스 기반의 VLM 모델도 일반적인 OCR 모델과 비교하면 매우 큰 편이라 연산량이 많습니다.

다음 표는 VLM으로 이미지 처리 작업 시 장단점입니다.

1. VLM 장점

장점Description
멀티태스킹 가능하나의 모델로 OCR, Image Captioning, QA 등 여러 가지 작업 가능
zero-shot/few-shot 학습사전에 대량의 데이터로 학습이 되었기 때문에 적은 데이터로도 다양한 작업 수행 가능
자연어 출력사람이 이해하기 쉬운 설명, 분석 보고서 형태의 출력 가능
시각+언어 통합 추론이미지 + 텍스트 정보를 종합하여 고차원적 해석 가능
확장성과 범용성동일 모델로 다양한 도메인 전이 및 재활용 용이

2. VLM 단점

단점Description
연산량이 많고 느린 추론 속도실시간 처리에는 부적합하고, 비싼 처리 비용
정밀한 위치/좌표 예측 어려움Detection/Segmentation 같은 작업에서 부정확한 경우 많음
환각(hallucination) 및 오류 가능성실제 이미지에 없는 내용도 출력하는 위험 존재
도메인 편향의료, 제조 등 특수 분야에서는 사전학습 부족으로 정확한 출력을 얻기 어려움
애매한 결과 획득 가능성매번 다른 출력, 구조화된 예측이 어려움

VLM은 대규모 데이터셋에 대해 사전학습되었기 때문에 사전학습 데이터에 포함된 도메인에 대해서는 소량의 데이터셋으로 fine-tuning 하여 성능을 낼 수 있지만, 사전학습이 힘든 특수한 분야에 대해서는 일반적인 vision 모델과 비교하면 성능이 낮고, 추가 학습에 필요한 공수도 많이 듭니다.

VLM 기술 동향


최근 거대 멀티모달 모델들이 잇따라 출시되며 기술 경쟁이 가속화되고 있습니다.

OpenAI의 GPT-4 with Vision(GPT-4V) 출시를 시작으로, Google DeepMind의 Gemini, Anthropic의 Claude 3, Meta의 Llama 2 기반 멀티모달 모델, Microsoft의 Kosmos 시리즈 등 각 기관이 앞다투어 VLM을 선보이고 있습니다.

1. 아키텍처

최신 VLM들의 기술 아키텍처를 비교해 보면, 대체로 ‘Vision Encoder + Language Model‘ 구조를 따르면서도 정보 결합(Fusion) 방식에서 차이가 있습니다.

일부 모델은 크로스 어텐션 계층을 통해 이미지 특징을 언어 모델에 주입하는 방식을 택합니다. DeepMind의 Flamingo가 대표적으로 CLIP 비전 인코더와 거대한 LLM 사이에 게이트형 크로스 어텐션 층을 두어 두 모달리티를 연결합니다.

반면 GPT-4V나 Gemini처럼 통합 아키텍처를 가진 경우, 학습 과정에서 처음부터 멀티모달 입력에 대응하도록 Transformer 내부에 시각-언어 토큰을 함께 처리합니다. 또한 resampler 모듈 등을 사용해 가변 길이의 이미지 특징을 고정 길이 토큰으로 변환하여 언어 모델에 결합하는 기법도 제안되었습니다.

요약하면, 어떻게 두 모달리티를 융합하여 추론에 활용할 것인가가 VLM 아키텍처 설계의 핵심이며, 모델마다 혁신적인 방법들이 시도되고 있습니다.

출처 – Implementation of Vision language models (VLM) from scratch: A Comprehensive Technical Deep Dive

2. Fine-tuning

Fine-tuning 전략도 주요 기술 동향 중 하나입니다. 대규모 이미지-텍스트 데이터로 사전학습(pre-training)을 한 후, 특정 작업에 적합하도록 Instruction 튜닝이나 LoRA 기반 미세조정을 적용하는 사례가 늘고 있습니다.

예를 들어 LLaVA는 GPT-4로 생성한 Q&A 데이터를 활용한 시각적 Instruction 튜닝으로 성능을 끌어올렸고, Meta는 Llama 2를 기반으로 한 다양한 멀티모달 실험(음성 결합, 이미지 캡션 등)에 LoRA 기법을 활용하고 있습니다.

또한 지식 증류(Knowledge Distillation)를 통해 거대 모델의 능력을 경량 모델에 전이하여 실용성을 높이려는 연구도 진행 중입니다.

3. 한계점

이처럼 성능 개선을 위한 다양한 시도가 이어지고 있지만, 현재 VLM의 한계점도 분명합니다.

(1) 높은 연산 자원 요구

멀티모달 모델은 거대 언어 모델에 비전 인코더까지 합쳐지면서 메모리와 계산량이 기하급수적으로 늘어나 배포 비용이 매우 비쌉니다.

(2) 비전 정보 처리 한계의 존재

예를 들어 해상도가 매우 높거나 텍스트가 빽빽한 문서 이미지의 경우 인식 오류가 생길 수 있습니다. 또 환각(hallucination) 현상으로 실제 이미지에 없는 내용도 출력하는 위험이 있습니다.

(3) 미흡한 멀티모달 평가

이미지 설명, VQA 등 개별 태스크에 대한 평가 지표는 있으나, 모델이 실제 복합적인 상황에서 얼마나 신뢰도 있게 작동하는지 측정하는 표준은 초기 단계입니다.

Gemini Ultra가 이 평가에서 59.4%로 SOTA를 기록했지만, 멀티모달 AI가 인간 수준 이해에는 아직 많이 못 미치고 있습니다.

정리하면, VLM 기술은 거대 멀티모달 통합, 융합 아키텍처, 효과적인 학습 기법을 통해 빠르게 진화하고 있습니다. 동시에 모델 경량화, 성능 한계 보완, 평가 표준화 등의 과제가 남아 있습니다.

외부 연구기관 및 기업의 발표 흐름


최근 멀티모달 AI 열풍은 학계와 산업계 전반으로 퍼져, 해외 빅테크 기업들과 연구기관들이 앞다투어 VLM 연구 성과를 내놓고 있습니다.

마이크로소프트, Google DeepMind, Meta, OpenAI, Anthropic 등은 각자의 전략과 강점을 살린 멀티모달 모델을 발표하며 경쟁하고 있습니다. 또한 CVPR, ACL, NeurIPS와 같은 글로벌 학회에서도 멀티모달 관련 논문과 튜토리얼이 크게 증가하는 추세입니다.

1. OpenAI

ChatGPT로 LLM 시대를 연 OpenAI는 2023년 GPT-4에 이미지 입력 기능을 추가하고, ChatGPT 앱에서 사진 찍어 질문하면 답변해 주는 기능을 선보였고, Microsoft Bing 챗봇을 통해서도 GPT-4V의 이미지 해석 능력을 활용할 수 있게 했습니다.

OpenAI는 모델 아키텍처나 데이터셋 등 내부 정보를 공개하지 않지만, 입력 데이터로부터 추론될 수 있는 개인 정보(위치정보, 신원정보 등) 와 같은 보안과 이미지 내 텍스트 인식(OCR)이나 위험한 이미지 필터링 등에 별도 모델을 활용해, GPT-4V가 부적절한 출력을 내지 않도록 다중 방어 장치를 갖추고 있습니다.

OpenAI의 로드맵은 멀티모달 능력의 지속적 확장으로, 음성 입출력도 통합되었고, 향후 더 긴 비디오 등의 처리로도 나아갈 가능성이 있습니다. 다만 OpenAI는 클라우드 API 및 자체 서비스 제공에 집중하고 있어, 기업들은 OpenAI 모델을 사용하려면 API 이용료 및 데이터 외부 전송에 따른 고민을 해야 합니다. 이에 대응해 OpenAI는 Azure OpenAI와 제휴하여 고객 전용 인스턴스 형태로 모델을 배포하는 등 엔터프라이즈 친화 전략도 병행하고 있습니다.

2. Google

구글에서 개발한 Gemini는 처음부터 멀티모달 처리를 염두에 두고 설계된 모델로, 텍스트, 코드, 이미지, 그리고 추가적으로 오디오와 비디오까지 아우르는 범용 AI를 목표로 하고 있으며, 2024년 발표된 Ultra, Pro, Nano 등 다양한 크기의 버전이 있습니다.

구글의 발표에 따르면 Gemini는 초기 사전학습부터 이미지-텍스트-코드-영상 데이터를 함께 학습하여 네이티브 멀티모달 통합을 이뤘고, 추가적인 멀티모달 데이터로 정교하게 fine-tuning 되었다고 합니다. 이를 통해 이전 세대 모델들보다 각 modality 간 정보 연계와 복잡한 추론에서 뛰어난 성능을 보인다고 합니다.

Gemini는 구글 검색, 클라우드 등에 멀티모달 기능을 제공하는 핵심으로 활용될 전망이며, 기업이 구글 생태계에서 손쉽게 다기능 AI를 활용하도록 지원할 것으로 보입니다. 다만 현재는 제한된 파트너에게만 공개되어 있고, API 접근이 일반화되지 않아 실제 기업 적용 사례는 제한적입니다.

3. Anthropic

Anthropic에서 개발한 Claude는 본래 텍스트 처리에 강점을 보여 왔으며, 100k 토큰 이상의 긴 문맥 처리와 안전한 응답으로 유명합니다.

최근에는 멀티모달 경쟁에 대응하여 이미지 입력을 처리할 수 있는 기능도 실험적으로 갖춘 것으로 알려져 있는데, 간단한 시각 자료에 대한 설명이나 이미지 캡션 생성 정도를 수행할 수 있습니다. 하지만 성능 비교표를 보면, Claude 3은 DocVQA, ChartQA 등 시각 정보가 필요한 작업에서 ChatGPT나 Gemini보다 낮은 정확도를 보입니다. 따라서 Claude가 멀티모달 분야에서는 아직 보완해야 할 필요가 있는 단계입니다.

4. 네이버

네이버는 언어 모델인 HyperCLOVA X를 멀티모달로 확장하여 HyperCLOVA X Vision을 2024년 공개했습니다. 네이버는 자체 한국어 필기체를 추출할 수 있는 OCR 기술을 접목해, 이미지 내 한글 텍스트도 이해하는 성능을 구현했습니다.

또 네이버는 하나의 거대 모델로 모든 작업을 처리하기보다, 도메인 특화 VLM도 개발하고 있습니다. 2024년 11월 DAN 24에서 공개한 플레이스 VLM은 소형 언어 모델(sLLM)과 비전 트랜스포머(ViT)를 결합한 모델로, 지도 플레이스(Place) 서비스의 음식 사진이나 메뉴판 이미지를 분석해 텍스트로 묘사하거나 키워드를 추출하는 등 지역 POI 정보 업데이트에 활용되고 있습니다.

이처럼 네이버는 범용 LLM을 멀티모달로 키우는 한편, 특정 서비스에 맞춤화된 경량 VLM도 연구하여 서비스 품질을 높이고 있습니다. 궁극적으로 한국어에 특화된 자체 멀티모달 AI 생태계 구축을 지향하고 있습니다.

출처 – CLOVA X

VLM 현황 : 오픈소스 vs 상용 모델


VLM 분야에서는 오픈소스 모델과 상용 서비스 모델 간의 발전 양상이 대비되고 있습니다. 오픈 모델들은 연구 커뮤니티의 많은 관심 속에 빠르게 개선되고 있으며, 상용 API 형태의 모델들은 제품 통합과 안정성 면에서 장점을 보입니다. 여기서는 주요 오픈소스 VLM의 범위와 성능, 상용 서비스형 VLM의 특징과 제약, 그리고 기업들의 활용 현황을 살펴보겠습니다.

1. 오픈소스 VLM 현황

2023년을 기점으로 다양한 오픈소스 멀티모달 모델들이 등장했습니다. 주로 GitHub나 HuggingFace를 통해 가중치와 소스코드가 공개되어 있으며, 연구자나 기업이 자체 서버에 다운로드해 실행할 수 있습니다.

오픈소스 VLM들은 경량부터 초거대까지 다양해지고 있으며, 성능도 지속적으로 향상되는 추세입니다. 대표적인 VLM인 LLaVA는 오픈 비전 모델과 Vicuna LLM을 연결한 오픈소스임에도 GPT-4 수준의 멀티모달 대화를 구현했으며, BLIP-2는 사전학습된 ViT와 LM을 연결해 다양한 이미지 설명 작업에서 좋은 성능을 냅니다. 이러한 공개 모델들은 학습 데이터와 세부 아키텍처가 투명하게 알려져 있고, 필요에 따라 커스터마이징이 가능한 것이 장점입니다.

하지만 여전히 절대적인 데이터양과 완성도 면에서는 ChatGPT 같은 private 모델에 못 미치는 경우가 많습니다. 많은 기업이 AI 모델 개발 시 완전히 처음부터 모델을 개발하기보다, 기존에 공개된 모델을 활용해 커스터마이징하는 방식을 택하여 개발에 필요한 공수를 줄이고 있습니다.

2. 상용 VLM 현황

GPT-4V(OpenAI), Claude 3(Anthropic), Gemini(Google), Vertex AI의 Multimodal PaLM, Microsoft Azure 등 모델은 API 또는 제품 형태로 제공되며, 모델 가중치나 세부 구조는 공개하지 않고 있습니다.

성능 면에서 업계 최고 수준을 자랑하지만, 사용자는 모델 내부 동작을 알 수 없고 개발사가 제공하는 범위 내에서만 활용할 수 있습니다.

비교 항목오픈소스 VLM상용 VLM
성능• 최신 연구 결과를 빠르게 반영
• 다만 SOTA 달성 위해서는 자체 튜닝 필요
• 오픈소스 모델인 LLaVA 등은 GPT-4의 80~90% 수준 성능 보고
• 거대 기업의 최고 성능 모델로, 즉시 사용 가능
• 일반적으로 동일 시점의 오픈소스보다 성능 우위
비용 구조• 모델 자체는 무료
• 인프라 비용 발생 : 고성능 GPU 서버, 저장공간 등
• 대규모 활용 시 서버 증설 필요
• API 사용량 기반 과금으로 적은 초기 투자 비용 발생
• 호출량 증가 시, 비용 급증 우려
접근성• 누구나 다운로드/실행 가능
• 온프레미스 운용 가능
• 인터넷 없는 환경에서도 활용 가능
• 인터넷을 통해 서비스 접근
• 계정 생성 및 승인 필요
• 일부 API는 대기 리스트나 사용 제한 존재
• 일반적으로, 자체 설치형은 불가
커스터마이징• 모델 가중치 입수 가능 → 추가 학습 용이
• 도메인 특화 데이터로 재학습하여 맞춤 모델 구축 가능
• 개발사가 허용하는 범위 내에서만 조정
• 추가 학습 제한적
• Prompt Engineering 등 간접적 튜닝에 의존
보안• 데이터가 외부에 노출되지 않음
• 민감 정보 처리에 유리
• 모델 동작 완전 통제 가능
• 입력 데이터가 개발사 서버로 전송
• 민감 데이터는 마스킹 등 추가 조치 필요
• 개발사의 보안 신뢰성에 의존
지원/관리• 커뮤니티 및 자체 인력으로 모델 유지 보수
• 버그 수정이나 품질 개선을 직접 책임져야 함
• 개발사 지원 제공
• 모델 개선은 자동 반영되나, 변경 시 사용자 통제 불가
• 업데이트로 응답 성향 바뀔 수 있음
확장성• 완전한 제어로 무제한 확장 가능
• 하지만, 모든 운영 복잡성을 내부 처리
• 인프라 신경 쓸 필요 없이 자동 스케일
• API 한도 혹은 비용 등의 확장 제한 요인

VLM 도입 가능성과 전략


사내에 VLM 기술을 도입하여 문서 AI 솔루션을 구축하려면, 기술적인 측면뿐만 아니라 리소스, 도메인 적합성 등을 종합적으로 고려해야 합니다.

1. 인프라 및 리소스

VLM 도입에는 상당한 연산 자원(GPU)이 필요합니다. 모델의 크기에 따라 요구 사양이 크게 달라지므로, 환경에 맞는 모델 크기를 선택해야 합니다. 보통 Vision-LLM 결합 모델은 수십억~수천억 개 파라미터까지 존재하지만, 파라미터가 클수록 성능은 향상되나 메모리/속도 비용이 증가합니다.

오픈소스 모델인 LLaVA의 경우 7억, 13억, 30억 등 다양한 크기가 있는데, 7억 개의 파라미터를 가진 모델은 비교적 소형 GPU에서도 돌릴 수 있지만 아주 복잡한 문서 질문에는 성능이 부족할 수 있습니다. 반면 65억, 130억 급 모델은 성능은 좋으나 수십 GB의 GPU 메모리가 요구됩니다.

특히 실시간 응답이 필요한 서비스라면 추론 속도도 중요하므로, 경량 모델이나 최적화된 버전을 고려해야 합니다.

2. 모델 개발

앞으로는 VLM이 일반적인 Vision 모델의 성능을 뛰어넘을 수 있고, 범용성이 좋아서 VLM 모델 개발은 필요합니다. 하지만 현재 개발 환경에서 VLM 모델 개발 시 모든 언어, 이미지 작업들을 처리할 수 있도록 초거대 모델을 개발하는 것은 비효율적입니다.

개발에 많은 리소스가 들어가기 때문에 특정 작업에 특화된 VLM을 개발하여 사용하는 것이 좋습니다. 현재 OCR개발팀에서 필요한 다국어 인식, Image Captioning, 차트 인식 등에도 VLM을 접목하여 개발을 진행할 수 있습니다.

VLM의 경우 대량의 이미지-텍스트 데이터에 대해서 사전학습을 합니다. 영어, 한국어 외의 언어에 대해서도 미리 사전학습을 진행할 수 있습니다. 그렇게 하여 VLM으로 다국어 인식을 수행할 수 있고, 필요에 따라 Image Captioning, 차트 인식 등의 작업도 커스터마이징하여 수행할 수 있습니다.

특화된 작업을 수행하는 VLM을 개발하고 데이터를 수집하며 작업 범위를 늘려가는 방식으로 개발이 필요해 보입니다.

3. 데이터 수집

데이터셋은 보유 중인 데이터를 활용하는 방법, 문서 이미지 데이터를 합성하는 방법, 공개 데이터셋을 사용하는 방법이 있습니다.

보유 중인 데이터합성을 통해 만든 데이터셋Annotation 정보가 없어도 모두 self-supervised learning을 이용한 사전학습에 사용될 수 있습니다. 또한 OpenAI의 ChatGPT, Google의 Gemini 같은 API를 이용하여 데이터를 자동으로 라벨링 하는 방법도 효율적입니다. 라벨링 후 검수가 필수적이지만 처음부터 라벨링 하는 것보다는 효율적이라고 할 수 있습니다.

공개 데이터셋은 사전학습과 Fine-tuning 두 가지 방식으로 쓰일 수 있습니다.

  1. 사전학습 단계에서 모델에 문서 도메인 일반 지식을 주입하기 위해, 대용량의 RVL-CDIP로 멀티모달 사전학습을 수행하거나 여러 데이터셋을 멀티태스크로 섞어 학습시킵니다.
  2. 다운스트림 fine-tuning 단계에서는 우리의 내부 데이터와 함께 공개 데이터 일부를 혼합하여 학습시킵니다. 내부 QA 데이터가 적으면 DocVQA의 train 셋과 합쳐서 학습하거나, 내부 폼 데이터에 FUNSD 데이터를 추가하여 다양성을 높입니다. 이렇게 하면 모델이 더 풍부한 패턴을 학습하여 일반화 성능이 올라갈 수 있습니다. 하지만 데이터 간 라벨 형식이 다를 경우 task 별로 별도 헤드(head)를 두거나, instruction 튜닝을 통해 통일된 입력 양식으로 변환할 필요가 있습니다.

Conclusion


VLM은 인간처럼 이미지를 읽고, 언어로 사고하며, 상황을 이해하는 멀티모달 지능의 핵심 기술입니다. 텍스트 기반 언어 모델의 한계를 뛰어넘어, 다양한 시각 정보를 AI가 이해하도록 만들 수 있습니다.

지금은 VLM 기술이 빠르게 발전하는 시기로, 트렌드를 빠르게 파악하고 도입 전략을 수립하여 최신 기술의 혜택을 누리면서 인프라/모델/데이터 관점에서 노하우를 축적하고, 제한된 인프라와 리소스 환경에서도 실현할 수 있는 도메인 또는 작업에 특화된 VLM 기술 개발이 필요합니다.

References


  1. https://www.ibm.com/think/topics/vision-language-models#:~:text=VLMs%20learn%20to%20map%20the,the%20context%20of%20visual%20information
  2. https://encord.com/blog/top-multimodal-models/#:~:text=Multimodal%20models%20are%20AI%20deep,specific%20and%20comprehensive%20understanding
  3. https://arxiv.org/html/2503.09837?utm_source=chatgpt.com
  4. https://analyticsindiamag.com/ai-news-updates/microsoft-introduces-multimodal-kosmos-2-5/
  5. https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#sundar-note
  6. https://www.llama.com/
  7. https://openai.com/index/be-my-eyes/
  8. https://www.anthropic.com/news/claude-3-family
Scroll to Top