special
  •  #StandWithUkraine Ukraine flag |
  • ~541560+1070
     Enemy losses on 856th day of War in Ukraine

This webpage has been robot translated, sorry for typos if any. To view the original content of the page, simply replace the translation subdomain with www in the address bar or use this link.

13 травня OpenAI провела презентацію

GPT-4 Omni, або просто GPT-4o , одночасно працює з текстом, картинками, відео та аудіо. Раніше в ChatGPT для кожного формату діяли різні нейромережеві моделі – це впливало на швидкість відповідей та якість результатів. Виходить, нове покоління фактично винайшло те, що зветься мультимодальністю в сучасних нейромережах.

У презентації окремо зробили акцент на можливостях GPT-4o як голосовий помічник. Нейросеть емоційно розмовляє, використовує різні інтонації і навіть має харизму — розробники неодноразово надсилалися до фільму «Вона» . Розкажу, що показали на презентації, які є сценарії використання моделі та де її можна спробувати.

Що може GPT-4o?

Ось чим GPT-4o відрізняється від попередніх моделей.

  • 🗣️ Голосовий асистент розпізнає мову та підтримує діалоги в реальному часі. Взаємодія відбувається природніше, ніж раніше: час відгуку аудіозапити становить середньому 0,3 секунди, що можна порівняти зі швидкістю реакції людини.
  • Нейросеть говорить не роботизованим монотонним голосом, а сміється, виражає емоції, змінює інтонації і навіть співає.
  • 📹 Розпізнавання відео та зображень. GPT-4o краще аналізує та інтерпретує візуальні дані. Вона розпізнає об'єкти, дії та сцени у відео. Наприклад, модель змогла транскрибувати ролик та виділити різних спікерів із запису зустрічі. Раніше нейромережа працювала лише зі статичними зображеннями: картинками, скріншотами, фото.
  • 📈 Мультимодальність. Модель приймає на вході та генерує на виході будь-які комбінації тексту, аудіо та зображень. Вона працює за принципом end-to-end , що означає, що всі види інформації обробляються однією нейромережею.
  • 📄 Обробка тексту відповідає рівню GPT-4 Turbo під час роботи англійською. Іншими мовами роботу суттєво покращили.
  • 🗂️ Збільшене контекстне вікно. Нейросети можна «годувати» великі обсяги інформації. На презентації вона підтримувала розмову протягом семи хвилин, а на прикладах на сайті OpenAI зробила короткий переказ 40-хвилинного відео.
  • 🌅 Покращена робота із зображеннями. Нейросеть створює текст практично без артефактів, а також консистентних персонажів у різних позах та 3D-моделі.

Як можна використовувати модель - корисні демосценарії?

OpenAI показала на презентації кілька варіантів використання можливостей нової моделі. Ось деякі з них:

  1. Спілкуватися як із другом. Нейросітка у прямому ефірі подивилася на співробітника OpenAI і зрозуміла, що він у піднесеному настрої. А потім спитала, чому він так радіє, і зніяковіла, коли той сказав, що проводить презентацію її можливостей. Подивитися демо
  2. Вивчати мови. Нейросети можна показати різні об'єкти та попросити перекладати іншою мовою. Наприклад, у деморолику GPT-4o показали фрукти, ручки та плюшеву іграшку – вона переклала все правильно. Подивитися демо
  3. Перекладати у реальному часі. Нейросітка попросили допомогти в розмові дівчини та англомовного хлопця. Коли GPT-4o чула італійську мову, одразу перекладала англійською, і навпаки. Подивитися демо
  4. Оцінити образ. Співробітник OpenAI запитав, чи досить він добре виглядає для походу на співбесіду, - GPT-4o порекомендувала йому зачесатися. Коли той одягнув капелюх, нейромережа сказала, що він виглядає несерйозно, і порадила його зняти. Подивитися демо
  5. Провести гру «Камінь, ножиці, папір». Двоє людей грали, а GPT-4o виступала коментатором: розпізнавала, що вони показують, озвучувала всі дії та оголосила переможця. Подивитися демо
  6. Навчати математиці. Нейросеть попросили допомогти з тригонометричним рівнянням, але не відповідати відразу, а навчити підлітка вирішувати його самостійно. GPT-4o провела кроки, виправила помилки і привела до правильної відповіді. Подивитися демо
  7. Співати. Співробітниця OpenAI попросила нейромережі вигадати пісню про Сан-Франциско і заспівати її кількома голосами одночасно. GPT-4o виконала пісню а капела: генерувати інструментальну музику вона не може. Подивитися демо

Created/Updated: 16.05.2024