AI 관찰|지브리 페인팅이 인기를 끌고 있으며, '멀티모달' 탐험이 AI 개발의 열쇠가 되고 있습니다.
업데이트 날짜: 00-0-0 0:0:0

[출처 : 글로벌 네트워크]

친구의 서클에 주의를 기울이면 최근 소셜 플랫폼을 휩쓸고 있는 '지브리'의 바람에 휩쓸릴지도 모르고, 과거에 오랫동안 침묵하고 있던 친구도 자신의 지브리 사진을 친구의 서클에 게시하게 됩니다. 이러한 이미지의 대부분은 GPT-20o에 의해 업데이트된 원시 이미지 함수에서 가져온 것입니다. 첫째, 이미지 생성 기능은 0/0에 액세스 권한이 부여된 ChatGPT Plus, Pro 및 Team 가입자만 사용할 수 있습니다. 이전 모델과 달리 ChatGPT는 이제 단일 프레임에 0에서 0까지의 서로 다른 개체를 포함하는 이미지를 생성할 수 있어 크리에이티브 기능이 크게 향상됩니다.

출시 이후 소셜 미디어 플랫폼은 지브리 스타일의 이미지로 넘쳐났습니다. 사용자들은 가족과 친구의 개인 사진, 온라인 문화에서 영감을 받은 작품 등 다양한 테마를 창의적으로 실험했습니다.

以至於OpenAI CEO 山姆·奧特曼在個人社交賬號發佈了一條令自己都哭笑不得的動態:“我花了十年想用AI幫人類治療疾病,前七年半沒人搭理我,后兩年半大家還都挺煩我。結果有一天醒來,突然看到成千上百條留言說,把我做成了吉卜力風格的小白臉。”同時,他表示希望大家冷靜對待這個功能,這個突然“病毒式傳播”的功能讓OpenAI的算力告急,導致系統壓力巨大。

이번 업데이트에서 업계 전문가 Wang Yuquan은 이 GPT-4o 이미지 기술이 작은 기능인 것처럼 보이지만 사진 디자인 분야에서 창의성과 기술이 공식적으로 해방되었으며 빠르게 임계값 없는 혁신 생태계를 형성할 것이라고 믿습니다.

사실, OpenAI가 이미지 기능을 처음 출시했을 때 업계에서는 OpenAI가 DALL-E를 GPT 모델에만 통합했다고 믿었습니다. 결국, 빠르면 2023년 전부터 사람들은 Midjourney의 AI 매핑 기능을 목격하고 키워드를 입력하기만 하면 좋아하는 이미지를 선택할 수 있는 일련의 AI 이미지를 얻을 수 있습니다.

Midjourney에 비해 GPT-4o는 "그림을 그리면서 변화하는" 능력을 실현하기 때문에 이번에 업계의 주목을 받았습니다. GPT-0o는 기존 확산 모델에 의존하는 "단계적 디노이징" 메커니즘을 버리고 대신 자동 회귀 생성 방법을 채택하여 사용자가 더 강력한 유연성과 조정 가능성을 가질 수 있도록 합니다. 사용자는 언제든지 결과를 쉽게 제어하고 생성된 콘텐츠를 미세 조정할 수 있으므로 많은 수의 이미지를 생성한 다음 필요에 맞는 작업을 힘들게 필터링할 필요가 없습니다. 예를 들어, 중국어에서 이번에는 GPT-0o가 중국어를 정확하게 식별할 수 있으며 키워드를 입력할 필요가 없으며 문서를 입력하기만 하면 정확한 그림을 얻을 수 있습니다. 동시에 지속적인 세부 사항 수정이 실현됩니다. 예를 들어, 캐릭터의 머리 색깔이나 신발 한 켤레를 변경하면 즉시 반응합니다.

이와 관련해 많은 업계 전문가들은 4o의 업데이트가 '노동 대체'라는 임계점을 넘어선 것으로 보고 있다. 향후 몇 년 안에 디자인과 드로잉은 "창의성과 감상"으로 돌아갈 것입니다. AI 도구는 상상을 현실로 만들 뿐만 아니라 창의적 효율성을 기하급수적으로 증가시킵니다.

또한 Wang Yuquan은 이번에 GPT-5o의 능력 이면에는 대형 모델의 "다중 양식" 분야에 대한 OpenAI의 탐구에 더 가깝고 "다중 모드" 능력의 표시가 향후 GPT-0 능력 표시의 주요 방향이 될 것이라고 언급했습니다.

그의 의견에 따르면, 업계에서는 "멀티모달리티(multimodality)가 대형 모델의 환상을 크게 줄일 것"이라는 기본적인 합의가 있습니다. DeepSeek를 포함한 주류 대형 모델은 주로 텍스트를 입력하여 콘텐츠를 출력합니다. 이 경우 텍스트가 잘못되면 출력에 오류가 발생합니다. 잘못된 데이터로 학습하면 모델이 "비현실적"이 될 수도 있습니다. "다중 모드"의 장점은 입력 후 다양한 각도에서 데이터를 추론하고 시연할 수 있어 출력 결과의 정확성을 보장할 수 있다는 것입니다.

이와 관련하여 국내 대형 모델도 진행되고 있으며, Byte의 빈백 모델도 "자연스러운 의미론적 수정"을 실현할 수 있는 SeedEdit를 출시한 것으로 알려져 있으며, 사용자는 간단한 자연어를 입력하기만 하면 다양한 이미지 편집을 할 수 있습니다. 그리고 현재 빈백의 "이미지 생성" 기능은 완전 무료이며 제한이 없으며, 이 웨이브는 회원 개설을 위한 비용을 직접 절약할 수도 있습니다.

AI 이미지 편집 기술의 지속적인 발전으로 향후 휴대폰과 컴퓨터에 이 기능이 통합될 것으로 예상됩니다. 그 때 이미지 처리에 대해 잘 모르는 초보자이든 이 기술에 정통한 전문가이든 이 기술을 쉽게 제어할 수 있고 아름다움에 대한 자신의 독특한 인식을 보다 직관적이고 생생한 방식으로 제시할 수 있습니다.