NSDT工具推荐Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - AI模型在线查看 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割 - 3D道路快速建模

今天,Meta 分享了其对 CM3leon(发音为“chameleon”)的最新研究,这是一种基于 Transformer 的模型,在文本到图像生成方面取得了最先进的结果,并展示了多模态 AI 的新功能。 CM3leon 标志着自回归模型首次在关键基准上与领先的生成扩散模型的性能相匹配。

近年来,能够根据文本提示创建图像的生成式人工智能模型发展迅速。 Midjourney、DALL-E 2 和 Stable Diffusion 等模型可以从简短的文本描述中召唤出逼真的场景和肖像。 这些模型使用一种称为扩散的技术,该过程涉及迭代地减少完全由噪声组成的图像中的噪声,并逐渐使其更接近所需目标。 虽然基于扩散的方法产生了令人印象深刻的结果,但它们的计算强度带来了挑战,因为它们的运行成本可能很高,并且通常缺乏实时应用所需的速度。

CM3leon 采用了不同的方法。 作为基于 Transformer 的模型,它利用注意力机制的力量来权衡输入数据的相关性,无论是文本还是图像。 这种架构上的区别使 CM3leon 能够实现更快的训练速度和更好的并行化,使其比传统的基于扩散的方法更加高效。

CM3leon 仅使用单个 TPU pod 在许可图像数据集上进行了高效训练,并在 MS-COCO 数据集上达到了 4.88 的 FID 分数。 Meta 研究人员表示,该模型的效率比同类transformer架构高 5 倍以上。

但原始性能指标并不能说明全部情况。 CM3leon 真正的亮点在于处理更复杂的提示和图像编辑任务。 例如,CM3leon 可以根据“撒哈拉沙漠中戴着草帽和霓虹灯太阳镜的小仙人掌”这样的提示准确地渲染图像。

该模型还擅长根据自由格式的文本指令编辑现有图像,例如更改天空颜色或在特定位置添加对象。 这些功能远远超过了 DALL-E 2 等领先型号目前所能达到的水平。

1、文本引导的图像编辑

CM3leon 的多功能架构使其能够在文本、图像和合成任务之间流畅地移动。 除了文本到图像的生成之外,CM3leon 还可以生成图像的说明文字、回答有关图像内容的问题,甚至可以根据边界框和分割图的文本描述创建图像。 这种将多种模式组合成单一模型的做法在公开的人工智能系统中是前所未有的。

2、物体到图像

给定图像边界框分割的文本描述,CM3leon 可以生成图像。

3、超分辨率结果

单独的超分辨率级可以与 CM3leon 输出集成,从而显着提高分辨率和细节。 下面是每个提示的四个示例图像: (1) 一杯热气腾腾的咖啡,背景是山脉。 公路旅行期间休息。 (2) 夕阳下的道路美丽而雄伟。 审美的。 (3) 湖中央的小圆形岛。 湖周围有森林。 高对比度

CM3leon 的成功可以归因于其独特的架构和训练方法。 该模型采用纯解码器transformer架构,类似于已建立的基于文本的模型,但增加了处理文本和图像的功能。 培训涉及检索增强、基于该领域最近的工作以及跨各种图像和文本生成任务的指令微调。

通过应用一种称为跨模式监督微调的技术,Meta 能够显著提高 CM3leon 在图像字幕、视觉 QA 和基于文本的编辑方面的性能。 尽管仅使用 30 亿个文本标记进行训练,CM3leon 仍匹配或超过了使用多达 1000 亿个标记进行训练的其他模型的结果。

Meta 尚未宣布公开发布 CM3leon 的计划。 但该模型为多模式人工智能定义了一个新的标准,并展示了检索增强和监督微调等技术的力量。 这是一项了不起的成就,它预示着人工智能系统可以在图像、视频和文本的理解、编辑和生成之间平滑过渡。


原文链接:Meta Unveils CM3leon: A Breakthrough AI Model for Advanced Text-to-Image Generation and Image Understanding

BimAnt翻译整理,转载请标明出处