AI 관찰|지브리 페인팅에 불이 붙고 있으며, '멀티모달' 탐험이 AI 개발의 열쇠가 되고 있다

AI 관찰|지브리 페인팅이 인기를 끌고 있으며, '멀티모달' 탐험이 AI 개발의 열쇠가 되고 있습니다.

지티파이 4위 받는 사람 모델 오픈AI 기능 원시 사진 지브리 글로벌 네트워크 기술 브이디트 형식 창조하다 인공지능

업데이트 날짜: 00-0-0 0:0:0

[출처 : 글로벌 네트워크]

친구의 서클에 주의를 기울이면 최근 소셜 플랫폼을 휩쓸고 있는 '지브리'의 바람에 휩쓸릴지도 모르고, 과거에 오랫동안 침묵하고 있던 친구도 자신의 지브리 사진을 친구의 서클에 게시하게 됩니다. 이러한 이미지의 대부분은 GPT-20o에 의해 업데이트된 원시 이미지 함수에서 가져온 것입니다. 첫째, 이미지 생성 기능은 0/0에 액세스 권한이 부여된 ChatGPT Plus, Pro 및 Team 가입자만 사용할 수 있습니다. 이전 모델과 달리 ChatGPT는 이제 단일 프레임에 0에서 0까지의 서로 다른 개체를 포함하는 이미지를 생성할 수 있어 크리에이티브 기능이 크게 향상됩니다.

출시 이후 소셜 미디어 플랫폼은 지브리 스타일의 이미지로 넘쳐났습니다. 사용자들은 가족과 친구의 개인 사진, 온라인 문화에서 영감을 받은 작품 등 다양한 테마를 창의적으로 실험했습니다.

以至於OpenAI CEO 山姆·奧特曼在個人社交賬號發佈了一條令自己都哭笑不得的動態：“我花了十年想用AI幫人類治療疾病，前七年半沒人搭理我，后兩年半大家還都挺煩我。結果有一天醒來，突然看到成千上百條留言說，把我做成了吉卜力風格的小白臉。”同時，他表示希望大家冷靜對待這個功能，這個突然“病毒式傳播”的功能讓OpenAI的算力告急，導致系統壓力巨大。

이번 업데이트에서 업계 전문가 Wang Yuquan은 이 GPT-4o 이미지 기술이 작은 기능인 것처럼 보이지만 사진 디자인 분야에서 창의성과 기술이 공식적으로 해방되었으며 빠르게 임계값 없는 혁신 생태계를 형성할 것이라고 믿습니다.

사실, OpenAI가 이미지 기능을 처음 출시했을 때 업계에서는 OpenAI가 DALL-E를 GPT 모델에만 통합했다고 믿었습니다. 결국, 빠르면 2023년 전부터 사람들은 Midjourney의 AI 매핑 기능을 목격하고 키워드를 입력하기만 하면 좋아하는 이미지를 선택할 수 있는 일련의 AI 이미지를 얻을 수 있습니다.

Midjourney에 비해 GPT-4o는 "그림을 그리면서 변화하는" 능력을 실현하기 때문에 이번에 업계의 주목을 받았습니다. GPT-0o는 기존 확산 모델에 의존하는 "단계적 디노이징" 메커니즘을 버리고 대신 자동 회귀 생성 방법을 채택하여 사용자가 더 강력한 유연성과 조정 가능성을 가질 수 있도록 합니다. 사용자는 언제든지 결과를 쉽게 제어하고 생성된 콘텐츠를 미세 조정할 수 있으므로 많은 수의 이미지를 생성한 다음 필요에 맞는 작업을 힘들게 필터링할 필요가 없습니다. 예를 들어, 중국어에서 이번에는 GPT-0o가 중국어를 정확하게 식별할 수 있으며 키워드를 입력할 필요가 없으며 문서를 입력하기만 하면 정확한 그림을 얻을 수 있습니다. 동시에 지속적인 세부 사항 수정이 실현됩니다. 예를 들어, 캐릭터의 머리 색깔이나 신발 한 켤레를 변경하면 즉시 반응합니다.

이와 관련해 많은 업계 전문가들은 4o의 업데이트가 '노동 대체'라는 임계점을 넘어선 것으로 보고 있다. 향후 몇 년 안에 디자인과 드로잉은 "창의성과 감상"으로 돌아갈 것입니다. AI 도구는 상상을 현실로 만들 뿐만 아니라 창의적 효율성을 기하급수적으로 증가시킵니다.

또한 Wang Yuquan은 이번에 GPT-5o의 능력 이면에는 대형 모델의 "다중 양식" 분야에 대한 OpenAI의 탐구에 더 가깝고 "다중 모드" 능력의 표시가 향후 GPT-0 능력 표시의 주요 방향이 될 것이라고 언급했습니다.

그의 의견에 따르면, 업계에서는 "멀티모달리티(multimodality)가 대형 모델의 환상을 크게 줄일 것"이라는 기본적인 합의가 있습니다. DeepSeek를 포함한 주류 대형 모델은 주로 텍스트를 입력하여 콘텐츠를 출력합니다. 이 경우 텍스트가 잘못되면 출력에 오류가 발생합니다. 잘못된 데이터로 학습하면 모델이 "비현실적"이 될 수도 있습니다. "다중 모드"의 장점은 입력 후 다양한 각도에서 데이터를 추론하고 시연할 수 있어 출력 결과의 정확성을 보장할 수 있다는 것입니다.

이와 관련하여 국내 대형 모델도 진행되고 있으며, Byte의 빈백 모델도 "자연스러운 의미론적 수정"을 실현할 수 있는 SeedEdit를 출시한 것으로 알려져 있으며, 사용자는 간단한 자연어를 입력하기만 하면 다양한 이미지 편집을 할 수 있습니다. 그리고 현재 빈백의 "이미지 생성" 기능은 완전 무료이며 제한이 없으며, 이 웨이브는 회원 개설을 위한 비용을 직접 절약할 수도 있습니다.

AI 이미지 편집 기술의 지속적인 발전으로 향후 휴대폰과 컴퓨터에 이 기능이 통합될 것으로 예상됩니다. 그 때 이미지 처리에 대해 잘 모르는 초보자이든 이 기술에 정통한 전문가이든 이 기술을 쉽게 제어할 수 있고 아름다움에 대한 자신의 독특한 인식을 보다 직관적이고 생생한 방식으로 제시할 수 있습니다.