银河国际(GALAXY) 阿里云潘奕如: 为创意加快, AI 重构短漫剧全进程惩处有野心

发布日期：2026-03-30 22:44 点击次数：141

银河国际(GALAXY) 阿里云潘奕如: 为创意加快， AI 重构短漫剧全进程惩处有野心

新腕儿漫剧大会报谈

新腕儿漫剧大会已矣后，近期将延续发布嘉宾们的演讲本体。

3月20日，在新腕儿漫剧大会上，阿里云AI惩处有野心人人潘奕如上台共享对于《为创意加快，阿里云短漫剧行业的惩处有野心共享》的主题演讲。

以下为演讲全文：

全球好，我今天共享的主题是《为创意加快，阿里云短漫剧行业的惩处有野心共享》，本体是比拟偏干货，主要给全球讲一下阿里模子的基本情况，还有咱们新模子的预报。

率先讲一下咱们万相视觉模子生成的才能，第二部分会讲到短漫剧行业的一个最好实际，第三部分主要讲咱们在短漫剧行业的生态资源。

先看一下咱们所有这个词产物大图。咱们基座模子第一部分作念的原生多模态，相沿文本、语音、图像、视频等多模态数据输入、输出；第二部分中，是咱们所有这个词模子基本迭代，才能捏续颠倒。通过文本、音频、视频多模态数据对都的齐集检修，强化学习进步画面生成质感、视频动态和指示撤职的才能。第三个即是视频生成部分，每次都会迭代、生成畛域，还有编著畛域的迭代。

在生成畛域，咱们主如果为了撤职优化进程、好意思学质感、物理轨则，保捏东谈主物的一致性，包括对举座画面元素的精确终结及局部编著。

除了视频生成模子，咱们也不错迭代生图模子，我稍后会对新模子作念难得先容。

上头的第二层在百行万企都不错看到万相模子的身影，尤其在2025年，咱们在短漫剧行业有了好多的头部客户，包括本体、蹂躏电子、酬酢等畛域，咱们都有标杆客户。

视频生成的2.6版块，即是原生多模态模子，偏向专科创作家自身升级。分为三部分，咱们主如果相沿15秒时长，还有参考扮装生视频作念了翻新。

图像生成方面，咱们有通用的文生图、图生图、图像编著，主如果像复杂的图文排版、构图创意这类商用生图，都用到咱们的图像模子。

有了这个后，咱们省去了后期配音的过程，咱们径直上传东谈主物的视频，参考东谈主物形象、声息，是以咱们举座加快了漫剧生成的进程。

底下即是咱们的一些模子功能，一个是多镜头智能退换，不错看到通过分镜1、分镜2领导词这样的形色。

这个即是咱们通过这个形色作念的一个多镜头的恶果。这个是咱们用智能分镜的功能，就尽头于咱们的模子有一个参数不错终结是否开启智能分镜，开启后即使对于小白用户不会写专科的分镜领导词，也能够生成连贯的多镜头视频。

像这种智能多镜和多东谈主对话的场景，在15秒的时长下，对于东谈主物一致性和多东谈主的口型、东谈主脸一致性保捏条目比拟高，milan(中国)官方网站而咱们在这个场景中受到各式用户的认同。

这个主如果给全球看一下咱们在一些ASMR音效。因为刻下这种视频模子的主流发展是音画同步的，除了这种东谈主物的声息BGM、还有这种ASMR，比如说作念这种电商带货视频，还有作念这种音效生成，咱们的声息特质相当传神。

这个咱们千问Image2.0的预报，在过年前发布的模子，这个模子其实主如果几个特质：

一个是更专科的笔墨渲染才能，全球有一种体感是，国外的生图模子如NanoBanana在汉文笔墨的渲染方面不及，可是国内的这些模子中，其实咱们在更专科的汉文笔墨渲染中，包括商用PPT、海报、复杂进程图，刻下都有了更强的才能。

第二是咱们出图区分率是2K，之前差未几是720和1080P，刻下径直即是用是商用高清2K区分率。

第三是更强语义撤职才能，除了文生图，图生图，图像编著，在一个模子就能作念到。

咱们优化的模子架构和推理加快，刻下以更小的模子领有更快的推理速率，出图速率在10秒内。

像作念这种3D漫画生图，还有2D分镜生图，恶果基本上在国内生图里是第一梯队。像作念真东谈主剧的工夫，银河国际游戏平台官网这种生图，东谈主的肌肤纹理质感、形状的邃密进程、光影都达到了商用。

底下是新模子预热，咱们迭代后会在这几个见识上加强。因为咱们有更多的多模态数据和强化学习检修，在画质、声息、动态进展，格调化生成和一致性终结这些维度都大幅进步。

另外，模子的功能层面也有更强的才能，更适配短漫剧的创作进程，包括首尾帧生视频，还有九宫格分镜生视频、还有主体与音色参考，视频编著相沿对全局或局部元素的编著，视频复刻是时序特征迁徙，相沿参考视频中动作、殊效、运镜、格调的复刻。

对于所有这个词漫剧创作来说，咱们才能的进步意味着更高的可控性，还有更大的创作空间，能够让创作家作念出更精彩的本体。

下一步看一下短漫剧的实际。其实这部分对于大部分漫剧公司来说，是很熟习的责任流。当全球责任流都换取的情况下，何如能在责任流中生成更好的本体？

用文本模子Qwen3-Max在所有这个词演义本体中索求出扮装、场景，并生因素镜故事板，在这个措施中，咱们通过繁密的文本处理才能，将演义分镜的画面形色、东谈主物的对话，还有生图的Prompt都结构化生成，通过生成扮装图、场景图算作金钱，再使用图像编著模子生因素镜图，使用好的图像编著模子能更好的把控所有这个词分镜环境质感。终末在用图生视频，不错用到Wan2.2或者是2.6首帧生视频、R2V，终末一步去作念编著、合成和添加讲解。

所有这个词责任流里，如果能每个措施用到SOTA模子，所有这个词画面本体会有更好的体验。

下一个是咱们「Wan2.6万物可主演：典型创作进程」，刻下不光不错参考视频生成终结，还不错多图参考。传统生成一个扮装设定图、谈具设定图、场景设定图，三张图生成一个分镜片断，或者三个参考视频，参考视频维度会愈加立体，把声息沿途算作参考。

这是一个「典型创作进程」，比如扮装设定图有两个东谈主物、谈具加场景，用R2A后就能够生成一个视频。看了这样多漫剧行业客户用AI后，现阶段AI中枢是脚本创作和漫剧制作，尤其脚本创作，是通过大批网文IP以文本模子进行脚本改写，包括脚天职镜生成，到漫剧制作措施，这个措施中的分镜生成部分是最为贫苦的，且需要由分镜师去不雅察所有这个词分镜生成情况，恶果不合适条目需要重重生成。