Elon Musk가 설립한 OpenAI 경쟁자인 xAI는 시각적 정보를 처리할 수 있는 Grok의 첫 번째 버전을 출시

반응형
Elon Musk가 설립한 OpenAI 경쟁자인 xAI는 시각적 정보를 처리할 수 있는 Grok의 첫 번째 버전을 출시했다 | image© xAI

 

일론 머스크가 설립한 오픈AI 경쟁사 xAI는 이미지 처리 기능을 탑재한 Grok 1.5V를 출시했다.

 

텍스트 뿐 아니라 이미지까지 처리하는 최첨단 인공지능 모델 출시

 

Grok-1.5V는 텍스트뿐 아니라 "문서, 다이어그램, 차트, 스크린샷, 사진"까지 처리할 수 있는 최초의 멀티모달 AI 모델이다. xAI는 Grok 1.5V의 활용 가능성을 보여주는 몇 가지 예시를 공개했다. 예를 들어, 흐름도 사진을 보여주면 Grok가 파이썬 코드로 변환해주고, 그림을 기반으로 스토리도 작성해줄 수 있으며, 이해가 안 되는 밈을 설명해주기도 한다.

 

흐름도를 파이썬 코드로 변환, 그림 기반 스토리 작성, 밈 설명까지!

 

Grok 1.5V는 텍스트 처리 능력이 향상된 Grok-1.5가 출시된 지 불과 몇 주 후에 공개되었다. Grok-1.5는 코딩과 수학 능력이 향상되었으며, 더 긴 맥락을 처리하여 다양한 출처의 데이터를 확인하여 질문을 더 잘 이해할 수 있다. xAI는 초기 테스터와 기존 사용자들이 곧 Grok 1.5V의 기능을 사용할 수 있을 것이라고 발표했지만, 정확한 출시 일정은 밝히지 않았다.

 

경쟁사 제품보다 뛰어난 성능 입증! RealWorldQA 벤치마크 데이터셋 공개

 

xAI는 Grok 1.5V 출시와 함께 RealWorldQA라는 벤치마크 데이터셋도 공개했다. RealWorldQA는 700개의 이미지로 구성되어 있으며, 각 이미지에는 쉽게 확인할 수 있는 질문과 답변이 포함되어 있다. 하지만 이러한 질문과 답변은 Grok과 같은 멀티모달 모델에게는 어려움을 줄 수 있다. xAI는 RealWorldQA에서 OpenAI의 GPT-4V와 Google Gemini Pro 1.5 등 경쟁사 제품들과 비교했을 때 자사 기술이 가장 높은 점수를 받았다고 주장했다.

반응형