当前位置:首页 > 其他
AI模特能一键换肤+一键换装,确实无比犀利惊艳!
2023-06-17 来源:商家投稿(广告) 阅读:17
先看一个场景,国内的商家在出海时,常常要面对重新请他国的模特重新拍摄商品照片的问题,如果能一键变换不同国家的模特而保持商品不变,则能降低不少营销侧的成本。给大家看下这两周和几个小伙伴一起搞的一个demo效果:
说下结论,diffusion models虽然已经能生成出非常惊艳的效果,但其在精准和控制上依旧离傻瓜式的产品体验有明显的距离。将技术产品化的过程中,不仅仅是基础模型的创新,也存在工程、场景适配的调参、不同模型的融合等大量的具体工作,需要更多相关的从业者投入其中。就算是不成熟的中间态产品,也能对行业起到不错的推动作用。
背景
随着AI技术的持续出圈,电商圈的小伙伴也很积极在尝试各种可能性,估计很多从业者在各种社交媒体刷到过下面一些图:
基于Diffusion技术有明显的特点:
1. 生成效果更加逼真,具备接近真实图片观感,
2. 通过自然语言来描述需求,即常说的prompt,自由度很高。
但如果大家仔细看上面的图片,也很容易发现问题,商品图片的细节被改变了。在今天的电商业务中,拍摄成本确实是一个明显的成本项,若有新的技术能够帮助大家优化其中成本,体现在消费者侧则是可进一步降低售价。
但电商它不是一个纯数字化场景,最终需要实物履约,消费者的购物体验经常被货不对板伤害,比如有些商家过度P图,更甚的是有些商家直接无货空挂,靠图片测款,有了订单再想办法找补货。因此,若新技术的产品化程度不高,则一定会伤害到用户体验,如果靠牺牲用户体验来达成该成本的优化,从长期看并不是一个有意义的事情。
快速梳理下现有技术的方案
考虑到今天AI技术的进步是以天为单位在更新,现在有缺陷的技术不代表未来不能解决。梳理一波现有技术的方案,有助于我们理解如何开展下一步的创新,但并不是说这个技术路线的正确性。
工具选型:MidJourney vs Stable diffusion webui
依靠MidJourney,MidJourney的产品化程度很高,导致自由度也比较低。一般是用它的img2img来做,经常需要用PS做一些mask图,整体效果不太可控,个人认为可行性最差。
“基于开源的stable diffusion webui项目,该项目是在stable diffusion社区基础上做的一个集成工作,应该是目前最流行、各项feature集成度最高、社区最活跃的项目,在github上已经有63k的star。”
dreambooth+lora确实能保持不少独特性,而且训练也很简单,只要10张左右的图片效果就挺好的,加上用lora的训练方式,对算力要求也不高。其效果就如论文原作者给的示例,能把作者原图中狗的样子变成一个概念注入到一个特殊的[V]中,从而可以在未来生成过程中用[V]来触发。
局部编辑:inpaint + LoRA + ControlNet
对国内的商家来讲,请不同国家的模特拍摄成本不低,如果我们换个思路,只对已有的商品图片换模特,则有可能利用生成式模型逼真的特点同时又保留了商品的细节。下图是我们快速实践的效果:
生成式模型对比过去的换脸和换肤色技术,在感官上明显更逼真,五官会更接近不同国家民族的特色。但是impaint有个致命的问题,需要去手动做mask,我们调研了不少skin detect,包括最近的segment anything、Grounding_DINO等技术,各种corner case比较多,目前还无法直接产品化。
而且从用户体验的角度,mask、inpaint、img2img,stage比较多,需要用户理解的成本变大,且每个stage的生成即需要不少时间又有一定的不确定性,调试成本很高,用户体验不可控,因此,这个方案还是只能工作室玩,无法有效的产品化。
上一篇:没有了
下一篇:没有了