AI 뉴스레터 - 2026-02-09 (월)
오늘의 요약
2026-02-09 딥다이브: OpenAI and Google Shocked by the First EVER Open S
상세 내용

OpenAI와 구글, 사상 최초의 오픈소스 AI 에이전트에 충격
OpenAI와 구글, 사상 최초의 오픈소스 AI 에이전트에 충격
AI Revolution · 조회수 58,606
📺 영상 보기
AI가 화면까지 직접 다뤄줘요
문서만 읽는 게 아니라 사진, 영상, 웹페이지를 그대로 보고 판단해요. 그리고 필요하면 스스로 툴을 열어 차트를 만들고, 웹에서 이미지를 찾아 비교까지 해요. 이게 오픈소스로 무료에 가깝게 풀렸다는 게 핵심이에요.
📺 영상 보기 | AI Revolution | 조회수 58,606
서비스 개요
GLM 4.6V라는 오픈소스 멀티모달 모델이에요. 텍스트는 물론 이미지, 영상, 스크린샷, 웹페이지까지 한 화면 안에서 이해하고, 그걸 바로 툴의 입력으로 넘겨 실행해요.
일반 모델은 사진을 글자로 바꾼 뒤에야 도구를 쓰는데요, GLM 4.6V는 사진과 프레임 자체를 도구의 매개변수로 다뤄요. 그래서 화면을 픽셀 단위로 재구성하거나, 검색 결과의 이미지 그리드를 근거로 삼아 설명을 쓰는 식의 작업이 가능해요. 한 번에 128k 토큰 수준의 긴 자료를 처리하니, 상장사 보고서 여러 개를 넣고 비교표까지 한 번에 뽑는 것도 강해요.
시장 맥락: 왜 어려운 문제인가
멀티모달 에이전트는 보고 이해하고 행동하는 세 단계를 이어붙여야 해요. 지금까지는 이미지와 영상을 글자로 바꾸는 과정에서 정보가 유실되고, 긴 문서를 넣으면 앞뒤 맥락이 흩어져서 결과가 들쭉날쭉했죠. 여기에 폐쇄형 모델의 높은 가격과 라이선스 제약이 도입을 막았어요.
기존 플레이어들의 실패 원인:
| 서비스 | 실패 포인트 | 이 서비스의 해결책 |
|---|---|---|
| OpenAI o‑series, GPT‑5.1 | 시각 자료를 텍스트로 전환해 도구를 쓰다 보니 구조가 깨지고 근거 추적이 약함. 가격도 높아 실험 규모가 제한됨 | 이미지와 프레임을 그대로 도구 입력으로 사용. 백만 토큰 기준 입력 0.3달러, 출력 0.9달러 수준으로 비용 압도적 절감 |
| LLaVA, Qwen‑VL 등 오픈소스 | 긴 문서에서 맥락 유지가 약하고, 툴 호출이 텍스트 중심이라 복합 작업에서 오류 누적 | 128k 컨텍스트로 장문과 시각 자료를 함께 처리. 시각 결과를 다시 읽어 자체 검증하는 루프 제공 |
이 서비스의 차별화는 간단해요. 시각 정보를 글자로 바꾸지 않고 그대로 다뤄서 손실을 줄였고, 긴 입력을 한 번에 넣어 맥락을 유지했어요. 여기에 MIT 라이선스와 저렴한 가격이 실험과 도입 속도를 끌어올려요.
GLM 4.6V의 차별화 전략
시각을 직접 조작하는 도구 호출로 관찰과 행동의 간격을 없앤다
이미지를 글자로 바꾸는 순간 표, 수식, 레이아웃 같은 의미가 깨지거든요. 그래서 아예 사진과 프레임을 도구에 그대로 넘기고, 도구가 돌려준 시각 결과를 다시 보고 판단하게 만들었어요. 긴 자료를 한 번에 넣어 흐름을 깨지 않는 것도 핵심이에요.
사용자 경험의 실제 차이:
- 웹 리서치가 근거 중심으로 바뀜 - 검색 결과의 차트와 이미지 그리드를 정렬하고, 실제 그림을 본 뒤 설명을 써요
- 화면 자동화가 확실해짐 - 스크린샷을 픽셀 단위로 재구성해 HTML과 CSS로 바로 변환하고, 바뀐 화면을 스스로 검증해요
- 긴 자료에서도 흔들리지 않음 - 보고서 여러 권, 영상 한 시간 분량을 넣고 비교표와 하이라이트를 한 번에 뽑아요
성장 엔진 분석
기술 구현
비전 트랜스포머로 이미지를 토큰화하고, 언어 토큰과 조밀하게 정렬되도록 학습해요. 영상은 시간 정보를 표시해 프레임 흐름을 이해하고, 모델 출력에 구조화 태그를 넣어 에이전트가 바로 읽어 실행하게 했어요.
- 데이터 수집: 텍스트와 이미지가 섞인 대규모 자료로 사전학습, 수학·차트·코딩·공간추론처럼 정답을 검증할 수 있는 과제로 강화학습
- 핵심 기술: 시각 토큰과 언어 토큰의 밀접 정렬, 이미지와 프레임을 직접 받는 도구 호출, 긴 입력을 위해 외부 파일과 위치를 가리키는 주소 지원
- 기술적 해자: 시각 결과를 다시 읽어 자체 검증하는 폐쇄 루프, 픽셀 정밀도의 화면 재구성, 오픈 라이선스로 툴 생태계가 빨리 커질 가능성
마케팅 퍼널
| 단계 | 이 서비스의 전략 |
|---|---|
| 획득 | Hugging Face 가중치 배포, 개발자 홍보, 오픈 벤치마크 공개, 무료 플래시 모델로 체험 확대 |
| 활성화 | 스크린샷을 코드로 재구성하거나, 보고서 뭉치를 한 번에 요약해 표로 뽑는 순간의 확실한 효용 |
| 리텐션 | 시각 웹 리서치와 문서 처리 같은 반복 업무 자동화, 도구 호출 레시피 축적 효과 |
| 수익화 | 클라우드 API 과금과 엔터프라이즈 지원 계약, 대용량 컨텍스트와 비디오 처리에 사용량 기반 청구 |
| 추천 | 작업 결과물을 근거 이미지와 함께 공유, 재현 가능한 프롬프트와 레시피 공유 문화 확산 |
성장 전략 요약
무료 플래시 모델로 진입 장벽을 낮추는 저마찰 도입, 반대로 엔터프라이즈는 문서·시스템 연결을 깊게 요구해 쉽게 이탈하지 못하게 만드는 락인을 설계했어요. 시각 도구와 레시피가 쌓일수록 재사용 가치가 커져 네트워크 효과의 초석도 생겨요.
핵심 인사이트: 시각을 그대로 다루면 자동화가 성큼 앞으로 온다
사람이 일할 때도 표와 그림을 보고 판단하죠. 컴퓨터에게 그림을 글자로 바꿔 보라고 하면 핵심이 사라져요. GLM 4.6V는 그림과 프레임을 입력으로 삼고, 도구가 내놓은 시각 결과를 다시 보며 스스로 고칫덩이를 찾아 고쳐요. 그 순간부터는 문서 요약에서 끝나는 게 아니라 근거를 모으고 확인하며 결론까지 밀어붙이는 자동화가 가능해져요.
왜 중요하냐면요.
보고서 작성, 경쟁사 분석, 화면 수정 같은 반복 업무가 결과물의 품질과 속도 모두에서 단계가 달라져요. 특히 비용이 낮아 대량 실험이 가능하니, 팀 단위로 레시피를 표준화해 조직 생산성을 곱셈으로 끌어올릴 수 있어요.
이 관점을 두고 내부 품질 점검, 규정 준수, 고객 응대 기록 검토 같은 영역에 그대로 확장해 보세요. 말이 아닌 근거 그림을 남기는 자동화가 신뢰를 만듭니다.
비즈니스 기회: 시각 근거까지 모아주는 리서치 코파일럿
왜 이 기회인가요?
지금 시장은 글로만 요약한 보고서가 넘쳐요. 그런데 의사결정자는 원문 표와 차트, 스크린샷 같은 시각 근거를 함께 보고 싶어 해요. GLM 4.6V의 강점은 바로 이 근거를 자동으로 찾고, 잘못된 그림을 걸러내고, 결과물에 붙여주는 능력이에요.
지식 노동자 중 리서치·컨설팅·전략 부문은 전 세계 수천만 명으로 추정돼요. 백만 토큰당 비용이 1달러 전후라 장시간 작업도 단가가 맞아요.
제품 컨셉
"ProofNote" - 근거 이미지가 살아있는 자동 리서치 보고서
- 시각 웹 리서치: 키워드를 던지면 이미지와 차트를 직접 수집하고, 화질과 중복을 검사해 신뢰 낮은 그림을 배제
- 문서·영상 흡수: PDF 보고서 묶음과 어닝콜 영상까지 한 번에 넣고, 표와 타임스탬프 하이라이트를 추출
- 근거 중심 보고서 출력: 파워포인트와 구글 문서로 표준 템플릿을 채우고, 각 주장 옆에 원본 그림과 출처를 자동 배치
실행 계획 (2주)
| 주차 | 할 일 |
|---|---|
| 1주차 | GLM 4.6V 플래시로 로컬 프로토타입, PDF 파서와 간단한 웹 이미지 수집기 연동, 표 추출과 이미지 크롭 데모 완성 |
| 2주차 | 파워포인트 템플릿 자동 채움, 출처와 타임스탬프 자동 삽입, 베타 사용자 5팀 온보딩과 과금 가설 검증 |
필요한 도구
- GLM 4.6V Flash 또는 API - 멀티모달 추론과 도구 호출 - 무료 또는 사용량 과금
- Playwright 또는 Puppeteer - 웹 렌더링과 스크린샷 - 오픈소스
- Unstructured 또는 PDFPlumber - 표와 텍스트 추출 - 오픈소스
수익 모델
- 팀 좌석형 구독: 사용자당 월 39달러
- 사용량 초과 과금: 백만 토큰당 2달러
첫 달 20명 팀 두 곳이 60좌석으로 쓰면 월 2,340달러. 리서치 결과물을 데모로 공개하면 확장 속도가 빨라져요.
주의할 점
- 사실성 위험과 오인 근거 → 모든 주장에 원출처 링크와 이미지 출처 워터마크를 강제, 낮은 해상도나 중복 이미지는 차단
- 저작권과 컴플라이언스 → 상업적 사용 가능한 소스 우선, 기업용은 자체 크롤링 금지 목록과 감사 로그 제공
이번 주 액션
플래시 모델로 근거 붙은 비교표 만들어보기 20분
왜 이 액션이냐면, 한 번의 성공 경험이 팀 도입을 가릅니다.
👉 Hugging Face에서 GLM 4.6V Flash 데스크톱 앱을 실행하고, 경쟁사 기사 3개와 스크린샷 4장을 넣어 근거 이미지가 붙은 비교표를 뽑아보세요
매일 새벽 1시, AI 트렌드를 놓치지 마세요!
이런 유용한 AI 요약을 매일 이메일로 받아보세요