A IA impulsiona os "humanos digitais" a "voar para a casa das pessoas comuns".

Desde a abertura do Pavilhão da China na Exposição Mundial de Osaka, Japão, em abril de 2025, atraiu numerosos visitantes para a "Presença diária". Ao entrar no Pavilhão da China, os visitantes podem ouvir de longe a famosa frase "俺老孙来也". Esta voz vem do "AI Sun Wukong" desenvolvido pela iFlytek Co., Ltd. (doravante designada "iFlytek"), que domina três idiomas: chinês, japonês e inglês, com a sua aparência e tom de voz recriando o clássico personagem Sun Wukong do filme de animação "大闹天宫".

Por trás do "AI Monkey King" está a tecnologia humana digital que se desenvolveu rapidamente nos últimos anos. Como um ponto de conexão fundamental para indústrias emergentes como IA e metaverso, o papel dos humanos digitais no desenvolvimento da economia digital está se tornando cada vez mais importante. Com a aplicação aprofundada da tecnologia de modelos em larga escala neste campo, os seres humanos digitais estão gradualmente a passar de "utilizáveis" para "fáceis de usar", promovendo indústrias relacionadas a entrar numa nova fase de desenvolvimento.

Formar três grandes categorias de cenários de aplicação

Os humanos digitais referem-se a agentes digitais criados através de modelagem e outras tecnologias de inteligência digital. Eles possuem aparência humana, voz e linguagem, são capazes de simular movimentos corporais, têm capacidade de raciocínio e podem realizar funções como aprendizagem, geração e interação, suportados por grandes modelos.

Sob a dupla condução da tecnologia e da demanda, o ecossistema da indústria de pessoas digitais na China está se tornando cada vez mais completo, a escala de aplicação está continuamente se expandindo, e a capacidade de produção, operação e serviço ao longo da cadeia industrial está gradualmente melhorando. Dados da Tianyancha mostram que, até 2024, o número de empresas relacionadas a pessoas digitais na China alcançou 1,144 milhões, e apenas nos primeiros 5 meses de 2024, foram registradas mais de 174 mil novas empresas, demonstrando o potencial de mercado e a vitalidade da indústria de pessoas digitais.

Na opinião de Wu Suoning, membro do Comitê Consultivo de Especialistas da Associação da Internet da China, para evitar que a tecnologia de humanos digitais se torne uma formalidade e resulte em desperdício de recursos, é necessário encontrar saídas de aplicação, promovendo a implementação da aplicação de humanos digitais de forma gradual.

A indústria dos humanos digitais está a acelerar a construção de um ecossistema fechado "tecnologia—cenário—comércio", impulsionada pela aplicação.

A Associação da Internet da China publicou o "Relatório sobre o Desenvolvimento de Humanos Digitais na China (2024)" (doravante denominado "Relatório"), que analisa que os cenários de aplicação de humanos digitais estão atualmente a formar-se em três grandes categorias: humanos digitais de mídia, humanos digitais de serviços e humanos digitais de setores. Dentre eles, os humanos digitais de mídia são a forma de aplicação de humanos digitais mais madura no momento. A proporção de cenários gerados em torno dos humanos digitais de mídia pode chegar a 50%, e sua imagem realista e expressão linguística fluida aumentam significativamente a interatividade e o entretenimento da disseminação de informações.

Por exemplo, no "Show Tecnológico de Ano Novo" — "Grande Cerimônia de Inovação Tecnológica da China", lançado pela primeira vez pelo Grupo Central de Rádio e Televisão da China no ano passado, surgiu a cena do apresentador Zhang Tengyue apresentando ao lado de um "sósia de IA". Este "apresentador de IA", criado com base na plataforma Xunfei Zhizuo da iFlytek, não só possui a mesma voz, expressões e movimentos de um apresentador real, como também pode se comunicar descontraidamente com o apresentador, compreendendo com precisão as palavras do outro e respondendo rapidamente de forma adequada, o que torna a interação tão fluida que o público tem dificuldade em distinguir entre o verdadeiro e o falso.

O "relatório" mostra que, além dos humanos digitais de mídia, os humanos digitais de serviços também passaram por uma atualização completa, possuindo uma capacidade de interação mais forte, com uma proporção de 30% no número de cenários, amplamente aplicados em áreas como governo, e-commerce e finanças; os humanos digitais da indústria começaram a surgir, com uma proporção de 20% no número de cenários, gradualmente desempenhando um papel na medicina, educação e gestão empresarial.

Com potencial para se tornar uma entrada para a inovação em IA

Os seres digitais passaram por três fases: da condução por humanos para a condução por programas, e agora para a condução por IA.

Os humanos digitais impulsionados por pessoas reais no início, embora pudessem apresentar uma imagem digital virtual, ainda dependiam de técnicas como modelagem em gráficos computacionais e captura de movimento, necessitando de grandes quantidades de dados de linguagem e ações fornecidos por pessoas reais. Os humanos digitais impulsionados por programas não precisam mais dos dados de linguagem e ações fornecidos por pessoas, mas baseiam-se em programas de computador fixos, aproximando-se mais de "robôs digitais", incapazes de alcançar um efeito humanizado altamente realista. Nos últimos anos, os humanos digitais impulsionados por IA não só se tornaram cada vez mais realistas na apresentação de detalhes como narração de voz e expressões faciais, mas também gradualmente adquiriram capacidades interativas e de pensamento mais poderosas.

“Há alguns anos, os seres digitais podiam ter problemas como desajuste na forma dos lábios e nas expressões, e movimentos rígidos. Isso ocorre porque os seres digitais em si têm uma compreensão inadequada do significado do texto, e as expressões e movimentos dependem principalmente de recursos pré-definidos limitados, o que impede uma correspondência precisa com o conteúdo do texto.” Gao Jingwen, responsável pelo negócio de seres digitais da iFLYTEK, disse que, com a aplicação aprofundada da tecnologia de grandes modelos no campo dos seres digitais, o desempenho dos produtos digitais alcançou um novo patamar.

Por exemplo, em outubro do ano passado, a iFLYTEK lançou um humano digital superantropomórfico. Baseia-se na geração de difusão multimodo de grandes modelos, que podem gerar movimentos corporais em tempo real de acordo com o ritmo, entonação e conteúdo da fala, rompendo as limitações dos modelos predefinidos de ação e melhorando muito a expressividade dos humanos digitais em cenas dinâmicas. O Zhiying digital human da Tencent pode alcançar a "clonagem de imagem" e a "clonagem de som", os usuários só precisam carregar um pequeno número de fotos, vídeos e materiais de áudio, e eles podem rapidamente gerar seus próprios clones humanos digitais e personalizar seu timbre. O humano digital de IA de código aberto do Alibaba, EchoMimic, pode dar fala vívida e expressão a imagens estáticas.

"Em resumo, a tecnologia de grandes modelos não só permite que os humanos digitais compreendam verdadeiramente o significado, mas também que gerem rapidamente as ações e expressões correspondentes com base na sua compreensão do texto, tornando-se assim extremamente realistas." disse Gao Jingwen.

O presidente da Associação da Internet da China, Shang Bing, acredita que os humanos digitais estão se tornando a porta de entrada para a aplicação ativa da IA, com um forte grau de conexão, incorporação e fusão com grandes dados, terminais inteligentes e inteligência incorporada, podendo se tornar uma das interfaces de interação ativas da próxima geração da internet. É importante focar na prática da implementação de aplicações inovadoras, explorar ativamente novas formas de negócios, como os humanos digitais, e acelerar a formação de vantagens de aplicação em larga escala.

武锁宁 também acredita que os humanos digitais são a porta de entrada para a aplicação da IA e a inovação em IA. Os humanos digitais impulsionados por IA têm o potencial de trazer aplicações mais ricas e diversificadas para todas as indústrias, e essas aplicações podem, de fato, guiar a IA em direção a um desenvolvimento prático.

Criar um "gêmeo digital" personalizado

Com a ampla aplicação de humanos digitais, muitos cenários exigem mais dos humanos digitais.

“Por exemplo, cenários como transmissões ao vivo de e-commerce e perguntas e respostas de atendimento ao cliente exigem uma capacidade de interação em tempo real extremamente alta dos humanos digitais. Os humanos digitais precisam ser capazes de dialogar em tempo real com os usuários e gerar ações e expressões correspondentes com base no conteúdo da conversa, caso contrário, isso afetará a eficiência do processamento de negócios e impactará diretamente a experiência do usuário.” Gao Jingwen apresentou que, para melhorar a eficiência do modelo de geração de vídeo dos humanos digitais, a equipe da empresa desenvolveu a tecnologia de extração de representação de ações, que transforma entradas de voz e texto em representações intermediárias compactas, comprimindo efetivamente a dimensão do vídeo. Com esta tecnologia, o sistema pode, como um estenógrafo, extrair rapidamente informações-chave das entradas de texto e voz, reduzindo a quantidade de dados de informações irrelevantes e, com base nisso, realizar a geração de vídeo, aumentando significativamente a eficiência da geração de vídeo e garantindo a interatividade em tempo real entre os humanos digitais e os usuários.

Deve-se notar também que, embora a indústria humana digital esteja se desenvolvendo rapidamente, ainda está em um período de rápido crescimento. Gao Jingwen acredita que, atualmente, há um fenômeno de homogeneização de produtos humanos digitais, e a personalização e personalização se tornará uma importante direção de desenvolvimento da indústria humana digital no futuro. Com o desenvolvimento da tecnologia de IA generativa, o limiar de produção e o custo dos humanos digitais foram rapidamente reduzidos, a eficiência de produção e a diversidade de conteúdo foram significativamente melhoradas e tornou-se uma realidade para os usuários criar produtos humanos digitais mais personalizados de acordo com suas próprias características. Agora, um humano digital superantropomórfico personalizado pode ser gerado com apenas uma foto, uma gravação de uma frase e outros materiais, o que simplifica muito os requisitos de materiais predefinidos para personalização humana digital e otimiza o caminho de operação do usuário.

郜静文 também admitiu que, embora a tecnologia de grandes modelos esteja a impulsionar os humanos digitais "a entrar nas casas das pessoas comuns", para alcançar um efeito mais refinado, ainda é necessário realizar uma enorme quantidade de alimentação de dados e treino interativo. Além disso, os problemas de violação de privacidade e segurança de dados que surgem não podem ser ignorados.

"Talvez no futuro cada um de nós tenha um 'gêmeo digital', que pode nos ajudar a lidar com o trabalho, responder a dúvidas na vida e se tornar nossa companhia." disse Gao Jingwen.

(Fonte: Diário da Tecnologia)

Fonte: Eastmoney

Autor: Diário da Ciência e Tecnologia

Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)