З моменту відкриття павільйону Китаю на Всесвітній виставці в Осаці, Японія, у 2025 році з квітня, він привернув безліч туристів для щоденного відвідування. Коли туристи заходять у павільйон Китаю, здалеку можна почути голос: "俺老孙来也". Цей голос належить "AI Сунь Укуну", створеному компанією iFlytek (далі - "iFlytek"), який володіє трьома мовами: китайською, японською та англійською. Його зовнішній вигляд і тембр відтворюють класичну анімаційну стрічку "Велике повстання в небесах".
“AI Сунь Укунь” за собою має швидко розвиваючу технологію цифрових людей в останні роки. Як ключова зв'язуюча ланка нових галузей, таких як ШІ та метавсесвіт, цифрові люди набувають все більшої важливості у розвитку цифрової економіки. З поглибленим використанням технології великих моделей у цій сфері цифрові люди поступово переходять від “зручних” до “зручніших”, сприяючи входженню відповідних галузей у нову стадію розвитку.
Формуються три типи сценаріїв застосування
Цифрова людина - це цифровий інтелектуальний агент, створений за допомогою моделювання та інших цифрових інтелектуальних технологій. Вона має людський зовнішній вигляд, голос і мову, здатна моделювати рухи тіла, має мисленнєві здібності та може реалізовувати функції навчання, генерації та взаємодії за підтримки великої моделі.
Під впливом технологій та попиту екосистема цифрової індустрії в нашій країні стає дедалі більш досконалою, масштаб застосування постійно розширюється, а виробничі, операційні та сервісні можливості вгору і вниз по ланцюгу поставок поступово зростають. Дані Tianyancha показують, що станом на 2024 рік в нашій країні кількість компаній, пов'язаних з цифровими людьми, досягла 1,144 мільйона, лише за перші 5 місяців 2024 року було зареєстровано понад 174 тисячі нових компаній, що свідчить про ринковий потенціал та динаміку індустрії цифрових людей.
На думку члена Консультативного комітету експертів Інтернет-асоціації Китаю У Со Ніна, щоб уникнути формального використання технології цифрових людей і запобігти марнотратству ресурсів, необхідно знайти виходи для застосування, щоб просувати впровадження цифрових людей через окремі приклади.
Залучаючи програми, індустрія цифрових людей швидко формує закриту екосистему "технології - сцена - бізнес".
Згідно з «Доповіддю про цифровий людський розвиток Китаю (2024)» (далі – «Доповідь»), опублікованим Інтернет-суспільством Китаю, сценарії застосування цифрових людей спочатку сформували три категорії: медіа цифрові люди, службові цифрові люди та цифрові люди промисловості. Серед них медіа цифрова людина є відносно зрілою формою цифрового застосування людиною. Кількість сцен, що генеруються навколо медіа цифрової людини, може досягати 50%, а її реалістичні зображення та вільне мовне вираження значно підвищують інтерактивність та інтерес до поширення інформації.
Наприклад, на «Новорічному науково-технічному шоу», започаткованому Центральним радіо і телебаченням Китаю в минулому році вперше - «Китайський фестиваль інновацій в науці і техніці», була сцена, де ведучий Чжан Тен'юе і «клон штучного інтелекту» вели на одній сцені. Цей «ШІ-хост» на основі інтелектуальної платформи iFLYTEK iFLYTEK не тільки має такий самий голос, вирази обличчя та рухи, як і справжній хост, але й може спокійно спілкуватися з ведучим, точно розуміти слова іншої сторони та швидко та належним чином реагувати, а плавність взаємодії ускладнює для аудиторії розрізнення справжнього та підробленого.
Згідно зі звітом, окрім цифрових людей у сфері медіа, також комплексно модернізовано сервісні цифрові люди, які мають сильніші можливості взаємодії, а кількість сценаріїв становить 30%, що широко використовується в державних справах, електронній комерції, фінансах та інших сферах; Цифрові люди в індустрії почали проростати, кількість сценаріїв становить 20%, поступово відіграючи роль у медичній допомозі, освіті та управлінні підприємством.
Має шанс стати входом до інновацій AI
Цифрові люди в основному пройшли три етапи: від керування реальними людьми до програмного управління, а тепер до керування штучним інтелектом.
У перші дні цифрові люди, керовані реальними людьми, також могли представляти віртуальні цифрові аватари, але в основному за допомогою комп'ютерної графіки, моделювання та захоплення руху та інших технологій, вони все ще потребували підтримки великої кількості мови, дій та інших даних, наданих реальними людьми. Керована програмою цифрова людина вже не може бути забезпечена реальними людьми мовою, діями та іншими даними, але вона заснована на фіксованій комп'ютерній програмі, яка ближче до «цифрового робота» і не може досягти антропоморфного ефекту високої точності. Останніми роками цифрові люди на основі штучного інтелекту не тільки стали більш реалістичними у представленні деталей, таких як голосові трансляції та вираз обличчя, але й поступово мають більш потужні можливості взаємодії та мислення.
"Кілька років тому цифрові люди могли мати проблеми з формою губ, невідповідністю виразів обличчя, жорсткістю рухів тощо. Це було пов'язано з тим, що цифрові люди самі не розуміли семантику тексту, а також вирази та рухи в основному залежали від обмежених попередньо заданих ресурсів, що не дозволяло точно відповідати змісту тексту." Керівник бізнесу цифрових людей компанії iFlytek Гао Цзіньвень зазначила, що завдяки глибшому застосуванню технології великих моделей у сфері цифрових людей продуктивність цифрових продуктів досягла нового рівня.
Наприклад, у жовтні минулого року компанія iFLYTEK випустила суперантропоморфну цифрову людину. Він заснований на багаторежимній дифузійній генерації великих моделей, які можуть генерувати рухи тіла в режимі реального часу відповідно до ритму, інтонації та змісту мови, долаючи обмеження попередньо встановлених шаблонів дій і значно покращуючи виразність цифрових людей у динамічних сценах. Цифрова людина Zhiying від Tencent може досягти «клонування зображень» і «клонування звуку», користувачам потрібно лише завантажити невелику кількість фотографій, відео та аудіоматеріалів, і вони можуть швидко генерувати власні цифрові людські клони та налаштовувати їх тембр. Цифрова людина зі штучним інтелектом Alibaba з відкритим вихідним кодом, EchoMimic, може надати статичним зображенням яскраву мову та вираз обличчя.
"Коротше кажучи, технологія великих моделей дозволяє цифровим людям дійсно розуміти семантику, а також швидко генерувати відповідні дії та вирази на основі розуміння тексту, досягаючи при цьому надзвичайної точності", - сказала Гао Цзинвень.
Голова Китайської асоціації Інтернету Шан Бін вважає, що цифрові люди стають активним входом для застосування ШІ, маючи сильний зв'язок, вбудованість і інтеграцію з такими галузями, як великі дані, розумні термінали та матеріалізований інтелект, і можуть стати одним з активних інтерфейсів наступного покоління Інтернету. Слід звернути увагу на практичну реалізацію інноваційних застосувань, активно досліджувати нові бізнес-моделі, такі як цифрові люди, та прискорити формування переваг масового застосування.
武锁宁 також вважає, що цифрова людина є вихідною точкою для застосування ШІ та входом для інновацій ШІ. Цифрова людина, що працює на основі ШІ, має потенціал принести різноманітні застосування у всі сфери, які, в свою чергу, можуть спрямувати ШІ на шлях практичного розвитку.
Створення індивідуального "цифрового аватара"
З поширенням цифрових людей багато сцен вимагають від цифрових людей вищих вимог.
«Наприклад, такі сценарії, як пряма трансляція електронної комерції та запитання та відповіді служби підтримки клієнтів, висувають надзвичайно високі вимоги до здатності взаємодії цифрових людей у реальному часі. Цифрові люди повинні не тільки вміти вести розмови з користувачами в режимі реального часу, а й генерувати відповідні дії та вирази відповідно до змісту діалогу, інакше це вплине на ефективність бізнес-обробки та безпосередньо вплине на користувацький досвід. Гао Цзінвень представив, що для підвищення ефективності цифрової моделі генерації людського відео команда компанії розробила технологію вилучення представлення дії, яка перетворює введення мови та тексту в компактні проміжні представлення, ефективно стискаючи розмір відео. За допомогою цієї технології система може швидко витягувати ключову інформацію з вхідного тексту та голосу, як стенографістка, зменшувати кількість неактуальних інформаційних даних і відповідно генерувати відео, значно підвищуючи ефективність генерації відео та забезпечуючи взаємодію в режимі реального часу між цифровими людьми та користувачами.
Слід також зазначити, що хоча цифрова людська індустрія стрімко розвивається, вона все ще перебуває в періоді бурхливого зростання. Гао Цзінвень вважає, що в даний час існує феномен гомогенізації цифрових людських продуктів, і персоналізація та кастомізація стануть важливим напрямком розвитку цифрової людської індустрії в майбутньому. З розвитком технології генеративного штучного інтелекту поріг виробництва та вартість цифрових людей швидко знизилися, ефективність виробництва та різноманітність контенту значно покращилися, а для користувачів стало реальністю створювати більш персоналізовані цифрові людські продукти відповідно до власних характеристик. Тепер персоналізована суперантропоморфна цифрова людина може бути згенерована лише за допомогою фотографії, запису в одному реченні та інших матеріалів, що значно спрощує вимоги до попередньо встановлених матеріалів для цифрової кастомізації людини та оптимізує шлях роботи користувача.
Гао Цзинвень також зізналася, що хоча технології великих моделей сприяють тому, що цифрові люди "влітають у звичайні домівки", для досягнення більш детального ефекту все ще потрібні великі обсяги даних для навчання та взаємодії. Крім того, проблеми, що виникають, такі як витік конфіденційності та безпеки даних, не можна ігнорувати.
"Можливо, в майбутньому у кожного з нас буде свій 'цифровий двійник', який зможе допомагати нам у роботі, відповідати на питання в житті та стати нашим супутником", – сказала Гао Цзиньвень.
(джерело: Наукова щоденна газета)
Джерело: Східне багатство мережі
Автор: Науковий щоденник
Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
Штучний інтелект сприяє тому, щоб цифрові люди "влітали до звичайних домівок"
З моменту відкриття павільйону Китаю на Всесвітній виставці в Осаці, Японія, у 2025 році з квітня, він привернув безліч туристів для щоденного відвідування. Коли туристи заходять у павільйон Китаю, здалеку можна почути голос: "俺老孙来也". Цей голос належить "AI Сунь Укуну", створеному компанією iFlytek (далі - "iFlytek"), який володіє трьома мовами: китайською, японською та англійською. Його зовнішній вигляд і тембр відтворюють класичну анімаційну стрічку "Велике повстання в небесах".
“AI Сунь Укунь” за собою має швидко розвиваючу технологію цифрових людей в останні роки. Як ключова зв'язуюча ланка нових галузей, таких як ШІ та метавсесвіт, цифрові люди набувають все більшої важливості у розвитку цифрової економіки. З поглибленим використанням технології великих моделей у цій сфері цифрові люди поступово переходять від “зручних” до “зручніших”, сприяючи входженню відповідних галузей у нову стадію розвитку.
Формуються три типи сценаріїв застосування
Цифрова людина - це цифровий інтелектуальний агент, створений за допомогою моделювання та інших цифрових інтелектуальних технологій. Вона має людський зовнішній вигляд, голос і мову, здатна моделювати рухи тіла, має мисленнєві здібності та може реалізовувати функції навчання, генерації та взаємодії за підтримки великої моделі.
Під впливом технологій та попиту екосистема цифрової індустрії в нашій країні стає дедалі більш досконалою, масштаб застосування постійно розширюється, а виробничі, операційні та сервісні можливості вгору і вниз по ланцюгу поставок поступово зростають. Дані Tianyancha показують, що станом на 2024 рік в нашій країні кількість компаній, пов'язаних з цифровими людьми, досягла 1,144 мільйона, лише за перші 5 місяців 2024 року було зареєстровано понад 174 тисячі нових компаній, що свідчить про ринковий потенціал та динаміку індустрії цифрових людей.
На думку члена Консультативного комітету експертів Інтернет-асоціації Китаю У Со Ніна, щоб уникнути формального використання технології цифрових людей і запобігти марнотратству ресурсів, необхідно знайти виходи для застосування, щоб просувати впровадження цифрових людей через окремі приклади.
Залучаючи програми, індустрія цифрових людей швидко формує закриту екосистему "технології - сцена - бізнес".
Згідно з «Доповіддю про цифровий людський розвиток Китаю (2024)» (далі – «Доповідь»), опублікованим Інтернет-суспільством Китаю, сценарії застосування цифрових людей спочатку сформували три категорії: медіа цифрові люди, службові цифрові люди та цифрові люди промисловості. Серед них медіа цифрова людина є відносно зрілою формою цифрового застосування людиною. Кількість сцен, що генеруються навколо медіа цифрової людини, може досягати 50%, а її реалістичні зображення та вільне мовне вираження значно підвищують інтерактивність та інтерес до поширення інформації.
Наприклад, на «Новорічному науково-технічному шоу», започаткованому Центральним радіо і телебаченням Китаю в минулому році вперше - «Китайський фестиваль інновацій в науці і техніці», була сцена, де ведучий Чжан Тен'юе і «клон штучного інтелекту» вели на одній сцені. Цей «ШІ-хост» на основі інтелектуальної платформи iFLYTEK iFLYTEK не тільки має такий самий голос, вирази обличчя та рухи, як і справжній хост, але й може спокійно спілкуватися з ведучим, точно розуміти слова іншої сторони та швидко та належним чином реагувати, а плавність взаємодії ускладнює для аудиторії розрізнення справжнього та підробленого.
Згідно зі звітом, окрім цифрових людей у сфері медіа, також комплексно модернізовано сервісні цифрові люди, які мають сильніші можливості взаємодії, а кількість сценаріїв становить 30%, що широко використовується в державних справах, електронній комерції, фінансах та інших сферах; Цифрові люди в індустрії почали проростати, кількість сценаріїв становить 20%, поступово відіграючи роль у медичній допомозі, освіті та управлінні підприємством.
Має шанс стати входом до інновацій AI
Цифрові люди в основному пройшли три етапи: від керування реальними людьми до програмного управління, а тепер до керування штучним інтелектом.
У перші дні цифрові люди, керовані реальними людьми, також могли представляти віртуальні цифрові аватари, але в основному за допомогою комп'ютерної графіки, моделювання та захоплення руху та інших технологій, вони все ще потребували підтримки великої кількості мови, дій та інших даних, наданих реальними людьми. Керована програмою цифрова людина вже не може бути забезпечена реальними людьми мовою, діями та іншими даними, але вона заснована на фіксованій комп'ютерній програмі, яка ближче до «цифрового робота» і не може досягти антропоморфного ефекту високої точності. Останніми роками цифрові люди на основі штучного інтелекту не тільки стали більш реалістичними у представленні деталей, таких як голосові трансляції та вираз обличчя, але й поступово мають більш потужні можливості взаємодії та мислення.
"Кілька років тому цифрові люди могли мати проблеми з формою губ, невідповідністю виразів обличчя, жорсткістю рухів тощо. Це було пов'язано з тим, що цифрові люди самі не розуміли семантику тексту, а також вирази та рухи в основному залежали від обмежених попередньо заданих ресурсів, що не дозволяло точно відповідати змісту тексту." Керівник бізнесу цифрових людей компанії iFlytek Гао Цзіньвень зазначила, що завдяки глибшому застосуванню технології великих моделей у сфері цифрових людей продуктивність цифрових продуктів досягла нового рівня.
Наприклад, у жовтні минулого року компанія iFLYTEK випустила суперантропоморфну цифрову людину. Він заснований на багаторежимній дифузійній генерації великих моделей, які можуть генерувати рухи тіла в режимі реального часу відповідно до ритму, інтонації та змісту мови, долаючи обмеження попередньо встановлених шаблонів дій і значно покращуючи виразність цифрових людей у динамічних сценах. Цифрова людина Zhiying від Tencent може досягти «клонування зображень» і «клонування звуку», користувачам потрібно лише завантажити невелику кількість фотографій, відео та аудіоматеріалів, і вони можуть швидко генерувати власні цифрові людські клони та налаштовувати їх тембр. Цифрова людина зі штучним інтелектом Alibaba з відкритим вихідним кодом, EchoMimic, може надати статичним зображенням яскраву мову та вираз обличчя.
"Коротше кажучи, технологія великих моделей дозволяє цифровим людям дійсно розуміти семантику, а також швидко генерувати відповідні дії та вирази на основі розуміння тексту, досягаючи при цьому надзвичайної точності", - сказала Гао Цзинвень.
Голова Китайської асоціації Інтернету Шан Бін вважає, що цифрові люди стають активним входом для застосування ШІ, маючи сильний зв'язок, вбудованість і інтеграцію з такими галузями, як великі дані, розумні термінали та матеріалізований інтелект, і можуть стати одним з активних інтерфейсів наступного покоління Інтернету. Слід звернути увагу на практичну реалізацію інноваційних застосувань, активно досліджувати нові бізнес-моделі, такі як цифрові люди, та прискорити формування переваг масового застосування.
武锁宁 також вважає, що цифрова людина є вихідною точкою для застосування ШІ та входом для інновацій ШІ. Цифрова людина, що працює на основі ШІ, має потенціал принести різноманітні застосування у всі сфери, які, в свою чергу, можуть спрямувати ШІ на шлях практичного розвитку.
Створення індивідуального "цифрового аватара"
З поширенням цифрових людей багато сцен вимагають від цифрових людей вищих вимог.
«Наприклад, такі сценарії, як пряма трансляція електронної комерції та запитання та відповіді служби підтримки клієнтів, висувають надзвичайно високі вимоги до здатності взаємодії цифрових людей у реальному часі. Цифрові люди повинні не тільки вміти вести розмови з користувачами в режимі реального часу, а й генерувати відповідні дії та вирази відповідно до змісту діалогу, інакше це вплине на ефективність бізнес-обробки та безпосередньо вплине на користувацький досвід. Гао Цзінвень представив, що для підвищення ефективності цифрової моделі генерації людського відео команда компанії розробила технологію вилучення представлення дії, яка перетворює введення мови та тексту в компактні проміжні представлення, ефективно стискаючи розмір відео. За допомогою цієї технології система може швидко витягувати ключову інформацію з вхідного тексту та голосу, як стенографістка, зменшувати кількість неактуальних інформаційних даних і відповідно генерувати відео, значно підвищуючи ефективність генерації відео та забезпечуючи взаємодію в режимі реального часу між цифровими людьми та користувачами.
Слід також зазначити, що хоча цифрова людська індустрія стрімко розвивається, вона все ще перебуває в періоді бурхливого зростання. Гао Цзінвень вважає, що в даний час існує феномен гомогенізації цифрових людських продуктів, і персоналізація та кастомізація стануть важливим напрямком розвитку цифрової людської індустрії в майбутньому. З розвитком технології генеративного штучного інтелекту поріг виробництва та вартість цифрових людей швидко знизилися, ефективність виробництва та різноманітність контенту значно покращилися, а для користувачів стало реальністю створювати більш персоналізовані цифрові людські продукти відповідно до власних характеристик. Тепер персоналізована суперантропоморфна цифрова людина може бути згенерована лише за допомогою фотографії, запису в одному реченні та інших матеріалів, що значно спрощує вимоги до попередньо встановлених матеріалів для цифрової кастомізації людини та оптимізує шлях роботи користувача.
Гао Цзинвень також зізналася, що хоча технології великих моделей сприяють тому, що цифрові люди "влітають у звичайні домівки", для досягнення більш детального ефекту все ще потрібні великі обсяги даних для навчання та взаємодії. Крім того, проблеми, що виникають, такі як витік конфіденційності та безпеки даних, не можна ігнорувати.
"Можливо, в майбутньому у кожного з нас буде свій 'цифровий двійник', який зможе допомагати нам у роботі, відповідати на питання в житті та стати нашим супутником", – сказала Гао Цзиньвень.
(джерело: Наукова щоденна газета)
Джерело: Східне багатство мережі
Автор: Науковий щоденник