김소장의 알리바바 연구소

반응형

 

OpenAI에서 GPT-4o 모델을 출시했습니다. 여기서 o는 [o=omni] 모델이라 하여 실시간으로 대화, 말도 끊을 수 있으며, 이미지에 대해 즉각 대답을 하기 때문에 자비스와 같은 가능성을 지향하는 모델이라 할 수 있습니다.

 

GPT-4o는 무엇인가?

O는 Omni(모든)라는 전 방향으로 모든 것이 가능하다는 의미로 예를 들면, GPT-4o가 말하는 중에 멈추고 대답이 가능하며 반응성이 빨라서 통번역, 인터뷰 연습이 자연스러움 그리고 감정을 섞은 듯한 말투로 대화할 수 있고 간단한 이미지를 보여주면 해석 후 설명할 수 있는 기능도 포함되었습니다.

 

 

음성모드 향상 1 - 단계가 줄어듦

기존의 음성 모드

  • transcription (받아쓰기)
  • intelligence (논리로)
  • text to speech (글자 나온 걸 음성으로)
  • 당연히 속도가 느림

새로운 음성 모드

  • 한 번에 내부적으로 수행됨
  • 인간에 더 가까워짐
  • 우리가 말을 듣고 글자로 옮겨 쓰고 생각하지 않는 것
  • 속도가 빨라짐

음성모드 향상 2 - 실시간 반응성

  • 중간에 말 끼어들기가 가능해짐
  • 기존의 모델은 인공지능이 말하고 있을 때 그냥 계속 듣고 있어야 했음
  • 성능이 향상되면서 인간의 대화에서는 언제나 말 끼어들기가 있었지만 더 자연스러워짐

음성모드 향상 3 - 감정을 이해하고 표현함

  • 텍스트로 표현할 수 없는 소리를 이해함
  • 요청을 하면 GPT가 로봇처럼 말할 수 있지만 감정도 표현할 수 있음
  • 말투 속의 의미 "숨차거나 가쁜 숨"을 듣고 "진정해" "좀 쉬어" 등 말투로 대응함
  • 로봇처럼 말할 수 있지만 동화책을 읽는 성우처럼 말을 오버하거나 노래하는 보이스로 다양한 성우 방식의 표현이 가능

GPT-4o의 영상 인지 기능

  • 영상을 보면서 실시간으로 화면에 대한 상황 파악이 가능
  • 내가 무슨 옷을 입고 있는지 카메라 속 이미지나 영상을 보여주면 실시간으로 상황 파악을 하면서 대답을 해줌
  • 데스크톱 앱을 보며 실시간으로 코드에 대한 설명, 어떤 것을 수정해야 되는지 바로바롬 음성으로 알려줌
  • 마치 사람과 영상 통화를 하듯 도움을 받는 듯한 경험이 가능

GPT-4o API 기능

API 기능도 제공하기 때문에 개발자들의 경우 자신들의 앱에 가져다 사용할 수 있는 기능도 추가됩니다. 오픈 AI의 GPT-4o는 무료 사용자에게 GPT-4 수준의 능력을 제공하는 것으로 알려졌는데 이 기능이 몇 주간 더 업데이트되어 개선되며, GPT-4 Turbo보다 2배 빠르고 50% 저렴합니다. 게다가 모든 사용자에게 무료가 되고 유료 사용자는 무료 사용자보다 최대 5배 용량 제한을 제공하는 것으로 알려졌습니다. 

 

 

반응형

공유하기

facebook twitter kakaoTalk kakaostory naver band
loading