Janus Pro大模型
deepseek Janus Pro,来自用于图像理解和生成的统一多模态大模型
标签:ai大模型Janus Pro 7b Janus Pro 大模型 Janus Pro下载 Janus Pro官网 Janus Pro本地部署deepseek Janus Pro官网,用于图像理解和生成的统一多模态大模型
简介
Janus Pro官网下载(github): https://github.com/deepseek-ai/Janus
Janus Pro官网下载(huggingface):
https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B
Janus系列的模型下载:
模型 | 序列长度 | 下载 |
Janus-1.3B | 4096 | 🤗拥抱脸 |
JanusFlow-1.3B | 4096 | 🤗拥抱脸 |
Janus-Pro-1B | 4096 | 🤗拥抱脸 |
Janus-Pro-7B | 4096 | 🤗拥抱脸 |
继成功推出DeepSeek-V3和DeepSeek-R1之后,DeepSeek又推出了Janus多模态模型的增强版产品Janus-Pro,继续推动人工智能的发展。在快速发展的人工智能领域,能够无缝理解和生成文本与图像内容的多模态模型正变得越来越重要。Janus-Pro 代表了这一领域的重大飞跃,具有优化的训练策略、扩展的数据集和架构创新。这一先进的模型为多模态理解和文本到图像生成树立了新的标杆。
Janus Pro通过引入优化的培训策略,扩展其数据集并扩展其模型体系结构来建立其前身Janus。这些增强功能使Janus Pro能够在多模式理解和遵循遵循的文本指导指令中取得显着改进,并在AI领域设定新的基准测试。在本文中,我们将剖析研究论文,以帮助您了解DeepSeek Janus Pro中的内容以及如何访问DeepSeek Janus Pro 7b。
随着DeepSeek V3和R1的发布,美国科技巨头正在努力重新获得竞争优势。现在DeepSeek推出了最先进的多模式AI Janus Pro,它进一步巩固了其在理解和生成AI任务中的主导地位。 Janus Pro在多模式推理,文本对图像生成和指导遵循基准测试中的表现优于许多领先的模型。
Janus-Pro 是 DeepSeek 的 Janus 多模态模型的高级版本,设计用于出色地理解和生成涉及文本和图像的内容。该模型以 Janus 确立的基本原则为基础,并引入了几项关键的先进技术,使其与众不同:
-
优化训练策略 :Janus-Pro 采用更有效的训练策略,注重更好地利用数据和资源。 -
扩展的训练数据集:该模型结合了真实数据源和合成数据,增强了其稳健性和适应性。 -
更大的模型规模:Janus-Pro 的参数规模从 10 亿 (1B) 到 70 亿 (7B),性能和稳定性都得到了提高,尤其是在文本到图像生成和多模态理解等任务中。
什么是DeepSeek Janus Pro 7b?
DeepSeek Janus Pro 7b是一种AI模型,旨在在一个系统中处理多种格式(例如文本,图像和视频)的任务。使它脱颖而出的是其独特的设计:它将视觉信息的处理分离为不同的途径,同时使用单个变压器框架将所有内容整合在一起。无论是分析内容还是生成新想法,这种智能设置都可以使模型更加灵活和高效。与较旧的多模式AI模型相比,Janus Pro 7b在性能和多功能性方面迈出了一大步。
- 优化的视觉处理: Janus Pro 7b使用单独的途径来处理视觉数据,例如图像和视频。与早期模型相比,这种设计可以提高其更有效地理解和处理视觉任务的能力。
- 统一变压器设计:该模型具有流线型体系结构,该体系结构将不同类型的数据(例如文本和视觉效果)无缝汇总在一起。这提高了其跨多种格式理解和生成内容的能力。
- 开放且易于使用: Janus Pro 7b是开源的,可以在拥抱脸等平台上免费获得。这使开发人员和研究人员可以轻松潜水,实验和解锁其全部潜力而无需限制。
多模式理解和视觉生成结果

多模式理解性能
- 该图比较了四个基准测试模型能够同时了解文本和视觉数据的能力的平均性能。
- X轴表示模型参数的数量(数十亿) ,该数量表示模型大小。
- Y轴显示了这些基准的平均性能。
- Janus-Pro-7b位于顶部,表明它的表现优于包括Llava , Vila和Emu3-Chat在内的许多竞争模型。
- 红色和绿色线表示不同的模型组: Janus-Pro家族(统一模型)和Llava家族(仅了解) 。
图像生成的指导跟踪
- 该图评估了模型如何根据文本提示生成图像。
- 使用了两个基准:
- GenEval
- DPG板凳
- Y轴代表精度(%) 。
- Janus-Pro模型(Janus和Janus-Pro-7b)达到了最高的精度,超过SDXL, Dalle-3和其他视觉模型。
- 这表明Janus-Pro-7b在基于文本提示的生成图像方面非常有效。
简而言之,Janus-Pro的表现优于统一的多模式和专业模型,使其成为理解和生成视觉内容的表现最佳的AI。
关键要点
- Janus-Pro-7b在多模式的理解方面表现出色,表现优于竞争对手。
- 它还在文本到图像生成中实现了最新的性能,使其成为创造性AI任务的强大模型。
- 其在多个基准测试中的性能都很强,证明它是一个全面的AI系统。
Janus Pro的主要进步
DeepSeek Janus Pro在四个主要领域中纳入了改进:培训策略,数据扩展,模型架构和实施效率。
1。优化培训策略
Janus-Pro优化了其培训管道,以解决Janus观察到的计算效率低下的问题:
- 扩展的I阶段训练:初始阶段专注于训练适配器和图像预测头使用ImageNet数据。 Janus-Pro延长了这个阶段,即使使用冷冻的语言模型参数,也确保了对像素依赖性建模的强大功能。
- 简化了II期训练:与Janus不同,Janus将大部分的训练分配给了Imagenet数据以进行像素依赖性建模,Janus-Pro在II阶段中跳过了这一步骤。取而代之的是,它直接在密集的文本到图像数据集上训练,从而提高了视觉上相干图像的效率和性能。
- 数据集比率调整:监督的微调阶段(第三阶段)现在使用平衡的多模式数据集比(分别用于多模式,文本和文本图像数据)。这种调整可保持强大的视觉产生,同时增强多模式理解。
2。数据缩放
为了提高多模式的理解和视觉生成能力,Janus-Pro显着扩展了其数据集:
- 多模式理解数据:数据集已增长了9000万个样本,包括YFCC , Docmatix和其他来源的贡献。这些数据集丰富了该模型处理各种任务的能力,从文档分析到对话AI。
- 视觉生成数据:认识到嘈杂的现实世界数据的局限性,Janus-Pro整合了7200万个合成美学样本,达到了平衡的1:1真实合成数据比率。这些合成样品策划了质量,加速收敛并增强图像产生稳定性和美学。
3。型号
Janus-Pro扩展了原始Janus的架构:
- 较大的语言模型(LLM ):模型大小从15亿参数增加到70亿,随着超参数的改善。这种缩放通过加快收敛性和改善概括来增强多模式的理解和视觉产生。
- 脱钩的视觉编码:该体系结构采用独立的编码器来实现多模式理解和生成。图像输入通过Siglip处理高维语义特征提取,而Visual Generation则利用VQ令牌将图像转换为离散ID。
DeepSeek Janus Pro 7b的详细方法
1。建筑概述

Janus-Pro通过脱钩的视觉编码方法遵守自回归框架:
- 多模式理解:从2D网格到1D序列的特征。然后,适配器将这些功能映射到LLM。
- 视觉生成: VQ令牌将图像转换为离散ID。这些ID被扁平并映射到LLM使用一代适配器的输入空间。
- 统一处理:多模式特征序列是串联的,并由LLM,带有单独的预测头,用于文本和图像输出。
1.理解(处理图像生成文本)
该模块使模型能够根据输入查询分析和描述图像。
它的工作原理:
- 输入:图像
- 该模型将图像作为输入。
- 和。编码器(理解编码器)
- 从图像中提取重要的视觉特征(例如对象,颜色和空间关系)。
- 将原始图像转换为变压器可以理解的压缩表示。
- 文本令牌
- 如果提供了语言指令(例如, “此图像中有什么?” ),则将其归为数值格式。
- 自动回归变压器
- 处理图像功能和文本令牌以生成文本响应。
- 文字脱口机
- 将模型的数值输出转换为可读文本。
例子:
Input: An image of a cat sitting on a table + 输入:坐在桌子上的猫的图像 +“描述图像”。
输出: “一只小白猫坐在木桌上。”
2。图像生成(处理文本生成图像)
该模块使该模型能够从文本描述中创建新图像。
它的工作原理:
- 输入:语言指令
- 用户提供了描述所需图像的文本提示(例如, “晚上是未来派的城市”。 )。
- 文本令牌
- 文本输入将其表示为数值格式。
- 自动回归变压器
- 通过令牌预测图像表示令牌。
- 将军编码器(生成编码器)
- 将预测的图像表示转换为结构化格式。
- 图像解码器
- 基于编码表示形式生成最终图像。
例子:
Input: 输入:“一条龙在日落时飞过城堡。”
输出:日落时中世纪城堡上方的龙的AI生成的图像。
3。模型中的关键组件
成分 | 功能 |
和。编码器 | 从输入图像中提取视觉特征。 |
文本令牌 | 将文本输入转换为用于处理的令牌。 |
自动回归变压器 | 依次处理文本和图像生成的中央模块。 |
将军编码器 | 将生成的图像令牌转换为结构化表示。 |
图像解码器 | 从编码表示形式中产生图像。 |
文字脱口机 | 将生成的文本代币转换为人类可读的响应。 |
4。为什么这个架构?
- 统一变压器模型:使用相同的变压器处理图像和文本。
- 顺序生成:对于图像和文本,输出是逐步生成的。
- 多模式学习:可以在单个系统中理解和生成图像和文本。
DeepSeek Janus-Pro模型是一个强大的视觉语言AI系统,可以使图像理解和文本形象生成。通过利用自动回归学习,它可以有效地以结构化和可扩展的方式产生文本和图像。 🚀
2。培训策略增强功能
Janus-Pro修改了三阶段训练管道:
- I阶段:专注于基于Imagenet的预读,并延长训练时间。
- 第二阶段:放弃图像到图像数据集的密集数据,从而提高了计算效率。
- 第三阶段:调整数据集比以平衡多模式,文本和文本图像数据。
3。实施效率
Janus-Pro利用了LLM框架,利用NVIDIA A100 GPU进行分布式培训。整个训练过程都是简化的,在1.5B模型中需要7天,而在多个节点上为7B模型需要14天。
实验结果
Janus-Pro在以前的模型中表现出重大进步:
- 收敛速度:缩放到7b参数可显着减少多模式理解和视觉生成任务的收敛时间。
- 改进的视觉生成:综合数据增强了文本对图像的稳定性和美学,尽管由于解决方案的限制,精细的细节(例如,小面特征)仍然具有挑战性。
- 增强的多模式理解:扩展的数据集和精致的培训策略提高了模型理解和生成有意义的多模式输出的能力。
Janus系列的模型:
模型 | 序列长度 | 下载 |
Janus-1.3B | 4096 | 🤗拥抱脸 |
JanusFlow-1.3B | 4096 | 🤗拥抱脸 |
Janus-Pro-1B | 4096 | 🤗拥抱脸 |
Janus-Pro-7B | 4096 | 🤗拥抱脸 |
如何访问DeepSeek Janus Pro 7b?
首先,在需求下保存以下给定的python库和依赖项。

pip install -r /content/requirements.txt

其次是必需的库,使用以下代码:
import torch
from transformers import AutoConfig, AutoModelForCausalLM
from janus.models import MultiModalityCausalLM, VLChatProcessor
from janus.utils.io import load_pil_images
from PIL import Image
# specify the path to the model
model_path = "deepseek-ai/Janus-Pro-7B"
vl_chat_processor: VLChatProcessor = VLChatProcessor.from_pretrained(model_path)
tokenizer = vl_chat_processor.tokenizer
vl_gpt: MultiModalityCausalLM = AutoModelForCausalLM.from_pretrained(
model_path, trust_remote_code=True
)
vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval()
conversation = [
{
"role": "<|User|>",
"content": f"<image_placeholder>\n{question}",
"images": [image],
},
{"role": "<|Assistant|>", "content": ""},
]
# load images and prepare for inputs
pil_images = load_pil_images(conversation)
prepare_inputs = vl_chat_processor(
conversations=conversation, images=pil_images, force_batchify=True
).to(vl_gpt.device)
# # run image encoder to get the image embeddings
inputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs)
# # run the model to get the response
outputs = vl_gpt.language_model.generate(
inputs_embeds=inputs_embeds,
attention_mask=prepare_inputs.attention_mask,
pad_token_id=tokenizer.eos_token_id,
bos_token_id=tokenizer.bos_token_id,
eos_token_id=tokenizer.eos_token_id,
max_new_tokens=512,
do_sample=False,
use_cache=True,
)
answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=True)
print(f"{prepare_inputs['sft_format'][0]}", answer)

请参阅此信息:gradio的完整代码: deepseek-ai/janus-pro-7b
- 两个超能力:它有两种本领
- 🧠理解模式:用”超级眼镜”(SigLIP-L)仔细看图片(最大384×384大小),还能读文字
- ✏️画画模式:用”魔法画笔”(校正流+SDXL-VAE)自己创作同样大小的图片
- 聪明的大脑:它的核心是DeepSeek语言模型(相当于一个特别会编故事的AI),已经学习过很多知识
- 特别训练法:
- 先自己看很多图画书学习(预训练)
- 然后老师手把手教它(监督微调)
- 最后用”精华浓缩法”(EMA)保存最好的学习成果
为什么用Transformer大一统模型,不用Diffusion模型
扩散模型(Diffusion Models)在图像生成上质量更高,但Janus-Pro的设计目标不同:
- 任务导向:Janus-Pro追求多任务统一(理解+生成),而扩散模型更专注生成质量。
- 效率考量:扩散模型需要多次迭代去噪(如Stable Diffusion约20步),而自回归生成可能更实时。
- 架构简洁性:保持单一Transformer架构,降低训练和部署成本。
好处:
统一Transformer架构:一个大脑,两种思维
- 架构本质:虽然视觉处理分两条路,但后续处理仍用同一个Transformer(类似人脑不同区域处理不同信息)。
- 关键设计:
- 参数共享:底层Transformer同时学习理解和生成任务,促进知识迁移(例如学会「猫」的概念后,生成时自然能画猫)。
- 注意力机制:通过跨模态注意力(如文字关注图像区域),实现图文深度对齐。
- 灵活性:可通过调整输入(如切换理解/生成路径的Token)快速切换任务模式,无需重新训练模型
数据评估
本站别摸鱼导航提供的Janus Pro大模型都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由别摸鱼导航实际控制,在2025年1月29日 下午8:12收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,别摸鱼导航不承担任何责任。