GPT-4o [Omni] 모델 업데이트, 이전 모델과 달라진 점

OpenAI에서 GPT-4o 모델을 출시했습니다. 여기서 o는 [o=omni] 모델이라 하여 실시간으로 대화, 말도 끊을 수 있으며, 이미지에 대해 즉각 대답을 하기 때문에 자비스와 같은 가능성을 지향하는 모델이라 할 수 있습니다.

GPT-4o는 무엇인가?

O는 Omni(모든)라는 전 방향으로 모든 것이 가능하다는 의미로 예를 들면, GPT-4o가 말하는 중에 멈추고 대답이 가능하며 반응성이 빨라서 통번역, 인터뷰 연습이 자연스러움 그리고 감정을 섞은 듯한 말투로 대화할 수 있고 간단한 이미지를 보여주면 해석 후 설명할 수 있는 기능도 포함되었습니다.

음성모드 향상 1 - 단계가 줄어듦

기존의 음성 모드

transcription (받아쓰기)
intelligence (논리로)
text to speech (글자 나온 걸 음성으로)
당연히 속도가 느림

새로운 음성 모드

한 번에 내부적으로 수행됨
인간에 더 가까워짐
우리가 말을 듣고 글자로 옮겨 쓰고 생각하지 않는 것
속도가 빨라짐

음성모드 향상 2 - 실시간 반응성

중간에 말 끼어들기가 가능해짐
기존의 모델은 인공지능이 말하고 있을 때 그냥 계속 듣고 있어야 했음
성능이 향상되면서 인간의 대화에서는 언제나 말 끼어들기가 있었지만 더 자연스러워짐

음성모드 향상 3 - 감정을 이해하고 표현함

텍스트로 표현할 수 없는 소리를 이해함
요청을 하면 GPT가 로봇처럼 말할 수 있지만 감정도 표현할 수 있음
말투 속의 의미 "숨차거나 가쁜 숨"을 듣고 "진정해" "좀 쉬어" 등 말투로 대응함
로봇처럼 말할 수 있지만 동화책을 읽는 성우처럼 말을 오버하거나 노래하는 보이스로 다양한 성우 방식의 표현이 가능

GPT-4o의 영상 인지 기능

영상을 보면서 실시간으로 화면에 대한 상황 파악이 가능
내가 무슨 옷을 입고 있는지 카메라 속 이미지나 영상을 보여주면 실시간으로 상황 파악을 하면서 대답을 해줌
데스크톱 앱을 보며 실시간으로 코드에 대한 설명, 어떤 것을 수정해야 되는지 바로바롬 음성으로 알려줌
마치 사람과 영상 통화를 하듯 도움을 받는 듯한 경험이 가능

GPT-4o API 기능

API 기능도 제공하기 때문에 개발자들의 경우 자신들의 앱에 가져다 사용할 수 있는 기능도 추가됩니다. 오픈 AI의 GPT-4o는 무료 사용자에게 GPT-4 수준의 능력을 제공하는 것으로 알려졌는데 이 기능이 몇 주간 더 업데이트되어 개선되며, GPT-4 Turbo보다 2배 빠르고 50% 저렴합니다. 게다가 모든 사용자에게 무료가 되고 유료 사용자는 무료 사용자보다 최대 5배 용량 제한을 제공하는 것으로 알려졌습니다.

저작자표시 비영리 변경금지

'브랜드 마케팅 > 미드저니(Midjourney) 사용법' 카테고리의 다른 글

지브리풍 이미지 변환 명령어 다운로드 (0)	2025.04.04
Udio(유디오) AI 음악 생성기 프로그램 추천 \| 샘플 트랙 생성 방법 (0)	2024.04.24
AICO(아이코) 유튜브 쇼츠 무료 편집 프로그램 추천 (0)	2024.04.23
유튜브 Lofi 배경 음악 생성 \| 수익화 만들기 저작권 (0)	2024.04.17
챗GPT 성능 높이는 26가지 프롬프트 원칙 다운로드 \| 논문 번역 (1)	2024.04.06

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

김소장의 알리바바 연구소

GPT-4o [Omni] 모델 업데이트, 이전 모델과 달라진 점

GPT-4o는 무엇인가?

음성모드 향상 1 - 단계가 줄어듦

음성모드 향상 2 - 실시간 반응성

음성모드 향상 3 - 감정을 이해하고 표현함

GPT-4o의 영상 인지 기능

GPT-4o API 기능

'브랜드 마케팅 > 미드저니(Midjourney) 사용법' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

GPT-4o [Omni] 모델 업데이트, 이전 모델과 달라진 점

GPT-4o는 무엇인가?

음성모드 향상 1 - 단계가 줄어듦

음성모드 향상 2 - 실시간 반응성

음성모드 향상 3 - 감정을 이해하고 표현함

GPT-4o의 영상 인지 기능

GPT-4o API 기능

'브랜드 마케팅 > 미드저니(Midjourney) 사용법' 카테고리의 다른 글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역