当专业 AI 团队介入游戏开发

触乐
2023-11-19 20:02

本文来自微信公众号：触乐（ID：chuappgame），作者：祝思齐

降本与增效的平衡，以及更加分化的未来。

在过去一年中，触乐已经写过多篇关于游戏行业尝试应用 AI 的文章。鉴于 AI 技术仍在飞速发展，总是掌握最新的情况并不是一件容易的事，对于游戏厂商来说也是如此。到目前为止，仍然有很多公司的决策者不知道怎样引入 AI，是否能够引入 AI，而专门分出人力去研究这件事，似乎也并不符合人们对技术“降本增效”的原始期待。

因此，有一部分业内人士开始专门钻研 AI 技术，并且尝试作为一个独立的团队与游戏厂商展开合作，为他们提供包括建立合理工作流、自主训练模型、AI 辅助概念设计等方面的解决方案。和 AI 技术一样，这种团队非常新兴，人们尚且不够全面了解他们所能做到的事情。

在游戏行业工作 20 余年、作为制作人参与研发 7 年的吉川明静目前是一家 AI 工作室的负责人。他的团队主要研究 AI 美术方向。和过去的研发经验结合，他们对 AI 美术融入游戏开发的工作流程有比较深入的经验和心得，并且有了一些和厂商合作的实际案例。为此，触乐和他聊了聊，以期更全面地了解 AI 技术融入游戏开发流程的实际状况与前景。

成本与效率的平衡

触乐：能不能先简要地介绍一下您这个工作室的人员情况和分工情况？

吉川：我们 AI 工作室的成员均来自于小红书上最大的 AIGC 社群“野神殿”，目前有 9 名成员。其中 3 名偏向技术，6 名偏向设计，大家来自天南地北、各行各业。目前，AIGC 是团队成员共同的兴趣和纽带。

我们现在的主要工作之一，是帮合作方调教模型。具体一点说，所谓的模型，通常是 AI 生成图片所需的基底大模型（又称 Checkpoint），或者能对其产生影响和控制的小模型（例如常见的 LoRA 和 LyCORIS），每个人都可以通过不同方法 —— 一般就是通过提供大量图片和打标给 AI 学习，称为训练 —— 去调优模型，让它根据自己想要的概念去定向生成某一类图。在这个过程中，单纯的训练往往是不够的，还要将不同模型进行复杂的融合，就像杂交植物那样，才能最终获得我们想要的模型。

如果已经有了较为满意的模型，我们还可以帮合作方根据实际需求需要和操作人员的水平来设计合理的 AI 工作流。比如你应该通过哪些步骤使用哪些参数，用什么形式的提示词，甚至如何跟传统的美术工具去配合，最后得到想要的效果。因为我们掌握的 AI 工具相对多，也时刻保持着最新知识的迭代，所以能够帮助游戏公司去做统筹优化。

我们还会直接帮合作方做设计，包括服装、场景和角色。现在可以做到在传统设计的基础上加入 AI 辅助，快速实现 70% 以上的最终效果。比如角色设定，在以往的工作流中，不管是在公司内部还是跟外部做交流，其实都需要花大量的时间去找资料或是设计草图，但现在我们可以靠 AI 的帮助来使得前期沟通和反馈的效率大大提升。而中期迅速且高品质的设计成型也会给后期人工调整省下不少的力气。

一个典型的绘图完整工作流，AI 工作室可以部分弥补合作厂商“AI 人才不足”的状况

触乐：您有能透露的帮助游戏厂商训练 AI 的具体事例吗？

吉川：最近 3 个月，我们工作室跟 3 家公司合作了 5 个项目。有的项目做了不久就停止了，有的则在坚持一段时间之后成功了。

我先讲一个不那么成功的例子吧，因为这个例子是我个人觉得比较可惜的，而且能够反映出一些普遍的状况。

合作一开始，我们定了一个比较高的目标：为游戏训练一款全能的画风模型，这样他们后面的一些人物立绘，甚至整个剧情 CG 都能用这个画风模型很快地跑出来。比如说给 AI 一张线稿或者一张色稿，AI 就能输出一个很接近成品的结果。

具体一点说，当时我们的目标是根据简单线稿，把角色衣服的材质以及精细花纹都能用 AI 跑出来。然而尝试了多种不同技术之后，我们发现，立绘的画风不难实现，服装的材质也能够很好地还原，但 AI 生成的花纹在精细度、结构和逻辑上问题就比较多了。进一步细化线稿能改善这个问题，但这样对研发来讲可能有些得不偿失，因为这就近乎用人力来负担起最复杂的工作，AI 只是负责上色。这不是我们想要的方向。

总之当时训练并调整了近 1 个月，中间遇到形形色色的困难，我们也一一克服。最初我们的目标是能跑出接近成品百分之七八十的图片，但最终的成果大概也只有百分之五十左右的完成度。这时研发觉得，实际效果和一开始想的有较大出入，再加上其他一些运营方面的顾虑，他们决定停止继续合作。

触乐：但您觉得那个项目其实是有前景的吗？

吉川：是的。我之所以觉得这个项目很可惜，是因为当时已经看到了曙光。我想多花一点时间，看能不能让 AI 学会一些具体的花纹。可惜最后没有更多时间可以尝试了。

AI 需要较长的时间学习绘制复杂精细的服饰和花纹（图文无关）

触乐：感觉这可能代表一个普遍现象，不光是厂商对在 AI 上投入成本比较犹豫，很多公司还要考虑项目上线之后会面临的舆论压力。

吉川：确实会感觉到，每位公司的负责人对 AI 技术的态度是不一样的。有的负责人会比较积极地推进这件事，哪怕是遇到一些困难和技术难题都很有耐心。这样的话，对接的研发者同样也会配合度比较高，往往能够得到比较好的结果。

但如果碰到负责人对 AI 技术本身认知有差异，或者只是抱着试试看的心态，并没有决心去真正落地的话，那从上到下的态度都会比较纠结。尤其是一线工作者可能会流露出明显的抵触情绪。

有一些人会感觉自己在“给 AI 打下手”，尤其是现在很多公司会把“降本增效”放在明面上讲，一些员工就会觉得，AI 这个东西整合好了会不会让自己失业。所以在沟通上、反馈上偶尔就会流露出“要不就算了”的情绪。而这种情绪同样也会自下而上蔓延。

触乐：您也知道目前游戏行业的环境比较艰难，很多人会把更多精力放在生存问题上。在这个前提下，AI 真的能起到“救命”的作用吗？尤其是在“降本增效”方面？

吉川：我认为增效更为重要，而非降本，不应该本末倒置。因为 AI 工作流的设计与运行并非大家想象的那么容易。

我知道不少从业者，包括游戏用户潜意识就觉得 AI 是个廉价的东西。尤其是一些二次元游戏，主要卖卡面的，用户会觉得几千几百去抽一个好看又强力的角色，必须得是“大触”手工画的，如果用了 AI，这张图就会价值大跌。再加上网上现在有很多教程会教人傻瓜式的训练模型，甚至给一般人使用“一键出图”等功能，就让人觉得 AIGC 是个很容易的事情。

但如果实际使用过 AI 工作流，就会发现，要做出可用的图，那些简单的教程是没有办法做到的，不是简简单单挑几个提示词就能画出来。商业化落地需要精准输出，构图是什么样，服装设计要遵循哪些规则，色调和光线不能发生偏差…… 比如我们训练一个模型，如何判断训练集（素材）的好坏，如何添加关键参数，目前还是需要专业的人来做。而哪怕直接把训练好的模型给初学者用，画出的成品也无法满足商业落地的需要。

要生成实际可用的图片，仍然需要较为专业的 AI 训练过程和工作流的设计

触乐：但这似乎不符合现在大众对 AI 的印象。

吉川：是的，包括一些来找我们的公司也存在认知误区。有些人以为 AI 现在已经非常简单，能 5 分钟画完想要的。过来看了之后发现实际不是那么回事，就退缩了。还有一些人稍微试了一下水，好像就安心了，觉得“AI 确实不行”，再问一下价格，觉得“还不如找人画便宜”。

因为很多人都知道，现在美术上的成本占游戏开发的大头，但大量的一线画师人工其实是非常低的。而目前 AIGC 的人才还比较缺乏 —— 有专门研究 AI，但对传统作画知识不够了解的；也有很了解传统作画知识，但对 AI 不够了解的。同时掌握两者，且具有一定审美的人可谓少之又少 —— 这样的人才无论如何都不会是廉价的吧？因此，对于那些把“降本”看作一切的人，目前 AI 确实还无法满足他们。

触乐：所以 AI 并不是一个很好的“降本”方式？

吉川：我觉得比较有远见的态度还是把 AI 当做增效工具，去思考如何利用现有的人力资源配置，在同等的时间下开发出更多更优质的内容。这件事非常重要，因为现在的游戏对内容的消耗是很大的。你开发了很长时间的内容，上线之后慢则几个月，快则几周、几天就消耗完了。用 AI 的话就不需要像以前那样按部就班地出草稿、色稿、线稿，而是能快速将完成度推到 70%，剩下人工修改的工作量相比之下就少得多，那样的话，同等时间内能生产的美术素材量就可以有比较大的提升。

成果与壁垒

触乐：也许您能举一些成功案例？

吉川：我这边最成功的案例是和一家成都公司合作的项目。合作已经持续了 3 个多月，我们不但成功地把角色和场景模型都开发到了期待值之上，还在根据新需求和新技术不断优化和补充新的合作内容。

细节丰富、结构准确的 AI 场景示例

另一个成功范例是一个原创游戏。根据对方提供的原始素材和目标阐述，我们在不断尝试之后，找到了合适的模型组合去实现具体的设计风格。每个深入的阶段我们都会去和合作方确认。可以从这些示例看到我们是怎么样从一开始确定笔触、构图风格，一步步地把角色具象化的整个过程。

利用 AI 进行画风尝试的示例

利用 AI 进行构图尝试的示例

丰富面部表情和设计武器的示例

触乐：那您觉得目前 AI 生成图片的技术瓶颈在哪里？其中影响最大的是什么？

吉川：我来讲讲跟模型有关的难点吧。

首先是能用于训练集的素材不足。这个问题非常常见。比如说某个 IP 的游戏已经做到第 2 代了，那么它对美术质量其实是有迭代要求的。现在出的游戏，画面效果不可能跟 5 年前、10 年前的水准一样。所以，哪怕前作积累了很多素材，里面还是有很大一部分无法直接使用，不能进入训练集，最多只能用来训练一些基础的概念。

所以在组建训练集的时候，肯定需要将现有的素材运用各种手段“变出花来”，还需要跟其他的优秀模型进行一些深层融合，以借鉴它们的优点。出图的流程也要相应调优，最后才能做出好的成品来。我们的核心竞争力就在于此，也希望将来能有机会参与更多有着不同需要的研发项目。

还有一个难点在于，因为 AI 神经网络本身的复杂性，整个训练过程其实就像黑箱，谁也不知道它具体是如何学习的。目前大家只在大方向上有共识，但具体的训练方法，哪些参数该怎么设置，还没有全球统一的标准，存在很多不同流派的见解。正因如此，模型训练也被称为“炼丹”或“炼金”（笑）。很多东西还是要在实践中慢慢摸索，根据输出效果及时调整。像我这边两位负责技术的大佬，他们训练了成百上千个模型，都有自己独到的一套方法论。

之后我们有计划去训练一些能在游戏这个垂直领域使用的定制化大模型，用来探索我们之前没见过的美术风格。

触乐：图片的画风对成功率有影响吗？比如二次元和真人画风感觉差异就挺大的。

吉川：要求的风格对难度有一些影响。比如现在比较主流的两种，真人画风和二次元画风，二者的训练参数稍微有一些区别，而理论大体是一样的，只不过用户对真人的还原度要求会比二次元来得高。举个例子，有时候真人模型需要针对某个特定人物，但出图经常会不像，或者只有几分像。因为一般对真人的面部判断是很苛刻的。二次元相对来说好很多，以初音未来为例，基本上有水青色的双马尾，眼睛颜色对上了，大家自然而然就会认出这个角色，对五官的位置、比例之类的要求没有真人标准那么高。当然现在 SD 迭代更新的一些技术（注：SDXL），本身包含的参数是之前的几倍，但我还没有看到在还原度上表现非常稳定的真人模型，大部分还是要通过反复的抽卡来获得偶尔满意的结果。

观看者对真人画风的图片还原度要求更高

我估计，明年年初 AI 会再经历一次技术迭代，到时候再看能不能突破现在真人模型训练的局限。而二次元的话，现在的技术可以说已经够用了。

触乐：除了绘图之外，AI 也逐渐应用到了视频领域。在这方面有什么值得分享的新成果吗？

吉川：最近 AI 动画（视频）的发展也特别快，从今年 9 月开始，AI 圈子里像疯了一样地研究动画。之前不是有人用 AI 做了一个《流浪地球 3》的伪预告片吗？甚至惊动了郭帆导演，把作者请过去聊了，可谓是彻底出圈。而现在 SD 派生出来的新插件和节点也很适合做原创动画。上半年的时候，想做动画可能还得用真人视频来转绘，现在只需要提示词和视频参考就能做出相当自然流畅的动画了。

顺便一提，目前做得最好的短片，比如“剪刀石头布”系列，就是用真人先拍，再转成动画，那个效果就已经很惊艳了。

“剪刀石头布”系列是目前成品效果最好的 AI 动画之一，不过目前仍然需要投入大量后期人力

当然这个领域也没有到一步登天的程度，想坐在电脑前点几下鼠标就可以直接做一部动画片，那不现实。我觉得还需要至少半年左右的发展，才能用 AI 技术直接生成面向最终用户的完整短片。

当下 AI 动画的应用前景已经很有想象力。比如很多二次元游戏需要做片头或者剧情动画，如果先用 AI 做一些 Demo 或者概念片还是很方便的。比起拼接别的动画进行沟通、或者绘制传统的静态故事板的形式，交流效率高得多。

说个有意思的题外话，我们 AI 创作者社区里还有很多其他行业的从业者，其中广告行业的朋友非常欢迎 AI 动画。他们说用了之后提案通过率高得吓人，客户往往看了之后“大喜”。以往要沟通很长时间才能谈下来的项目，现在一周就可以拿下，关键是动画的制作时间成本还不高。

AI 工具在传达概念上的效率极高

未来：更精细的分化

触乐：那厂商能不能自己研究 AI 呢？我经常碰见有负责人说自己指定了团队里的一两个人专门研究这个，更激进一点的，会要求全员都学习。

吉川：很多小团队，尤其独立开发者，对尝试 AI 的态度确实非常积极，甚至可以说是激进。因为他们有着迫切的降低成本需求，如果只是在 Steam 之类的平台上发一些实验性质大于商业性质游戏的话，也不会去考虑太多舆论风险。中型公司会相对谨慎一些，他们会更多考虑玩家的反应。但通常来说，中小团队对 AI 的学习仍然仅止于应用层面，真正去深入研究怎么训练模型、甚至做一定程度开发的还是比较少。

据我了解，现在只有一些跨领域的大公司能够组织专门的人甚至部门来研究 AI。像腾讯这样的大厂，本身就有自己的 AI Lab，研发出了不少图像生成的关键性技术。但中小公司就很难有这个余力了。一方面是这方面的综合性人才难觅，另一方面组织学习也很困难，因为市面上没有成熟的培训体制，全职员工也往往没有闲余时间。我们之前也做过培训课件，发现很多知识都要自己去分辨、补充、整理。而且知识迭代非常快，一些原有的功能可能短短一两个月后就有上位替代了。所以每天必须花不少时间在学习最新的知识上。

在这种情况下，让专业的人来做专业的事确实是对中小团队的一个补充。

触乐：那之前传言的“AI 会彻底解放生产力，让每个人都成为开发者”岂不是不太现实？

吉川：确实，AI 创作的门槛在不断降低，只是还没有大家想象的那么“傻瓜式”。打个比方，就像是单反相机和手机拍照的效果确实存在差异。比如最近特别火的 DALL-E3，它集成在 ChatGPT 里之后，甚至不需要使用者会英文，直接用中文的自然语言去跟它聊天、描述，就能把图生成出来。当然画出来的东西从美学角度来看还是比不过最好的 AI 绘图软件，只是它把使用门槛拉低到了前所未有的程度。相应地，如果要产出质量特别好的素材，或者要在游戏开发过程中深度融入 AI 的话，还是要系统地学一些高级的生图和训练技能；小小的个人需求和务求落地的大型商业项目，对这方面的需求完全不一样。

DALL-E3 和 ChatGPT 的结合，进一步拉低了 AI 绘图的门槛

触乐：听起来最后会分化成“专业 AI”和“非专业 AI”。

吉川：在我看来，AI 创作最终会是一个比较两极分化的领域。低门槛会越来越低，高门槛会越来越高。我甚至想过去深入学一些传统艺能，比如 Adobe 那一系列绘图和视频制作的工具…… 像 Adobe 这样的传统公司其实也在积极拥抱 AI。未来的话，一些在传统美术方面有实力、在传统工具方面也很有经验的人，仍能保持遥遥领先。

我觉得，未来 AI 创作领域很可能会分化为 3 个方向：一是围绕 AI 最新技术发展为主的创作蓬勃发展，二是普罗大众的低门槛应用，三是传统的专业选手利用扎实的基础，去利用 AI 提升原本的工作效率和效果。我知道现在围绕 AI 还是有很多争议，但面对新事物和技术的发展，一些人心中会有被落下的恐惧，另一些人则把这种变化视为机遇。

而我一直将 AI 的迅猛发展看作人生的重大转折和千载难求的机遇，我也希望能够有机会与更多有着相近观点和看法的朋友，在游戏的领域一起进行更多、更长期的实际探索。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。