Qwen2vl-Flux – 开源的多模态图像生成模型,支持多种生成模式 Qwen2vl-Flux是什么 Qwen2VL-Flux是多模态图像生成模型,结合Qwen2VL的视觉语言理解和FLUX框架,基于文本提示和图像参考生成高质量的图像。模型支持多种生成模式,包括变体生成... Ai项目 4周前4,9250
MVGenMaster – 复旦联合阿里等实验室推出的多视图扩散模型 MVGenMaster是什么 MVGenMaster是复旦大学、阿里巴巴达摩院和湖潘实验室共同推出的多视图扩散模型,基于增强3D先验处理多样化的新视角合成(NVS)任务。模型基于度量深度和相机姿态扭曲... Ai项目 4周前4,9250
Fish Speech 1.5 – Fish Audio 推出的语音合成模型,支持13种语言 Fish Speech 1.5是什么 Fish Speech 1.5 是Fish Audio 推出的文本到语音(TTS)模型,基于深度学习技术如Transformer、VITS、VQVAE和GPT等... Ai项目 4周前4,9250
VE-Bench – 北京大学开源首个针对视频编辑质量评估的新指标 VE-Bench是什么 VE-Bench 是北京大学的研究团队 MMCAL 最近发布首个专门针对视频编辑质量评估的指标。VE-Bench 的设计目标是与人类感知能力高度一致,更准确地评估视频编辑效果... Ai项目 4周前4,9250
Janus-Pro – DeepSeek 开源的统一多模态模型 Janus-Pro是什么 Janus-Pro是 DeepSeek 推出的开源AI模型,支持图像理解和图像生成,提供 1B 和 7B 两种规模,适配多元应用场景。通过改进的训练策略、扩展的数据集和更大规... Ai项目 4周前4,9250
VideoGrain – 悉尼科技大学和浙大推出的视频编辑框架 VideoGrain是什么 VideoGrain 是悉尼科技大学和浙江大学推出的零样本多粒度视频编辑框架,能实现类别级、实例级和部件级的精细视频修改。VideoGrain基于调节时空交叉注意力和自注意... Ai项目 12个月前04,9250
MT-TransformerEngine – 摩尔线程开源的高效训练与推理优化框架 MT-TransformerEngine是什么 MT-TransformerEngine 是摩尔线程开源的高效训练与推理优化框架,专为 Transformer 模型设计。框架通过算子融合、并行加速等技... Ai项目 12个月前04,9250
混元3D v2.5 – 腾讯推出的最新版 3D 生成模型 混元3D v2.5是什么 混元3D v2.5是腾讯推出的新一代3D生成模型,在建模精细度上大幅提升,总参数量从1B提升至10B,有效面片数增加超10倍,有效几何分辨率达到1024,实现超高清的几何细节... Ai项目 12个月前04,9250
NLWeb – 微软推出支持自然语言与任何网站交互的开源项目 NLWeb是什么 NLWeb 是微软推出的开源项目,基于简化网站自然语言界面的创建,让任何网站都能变成 AI 驱动的应用程序。NLWeb用 Schema.org、RSS 等半结构化数据,结合 LLM ... Ai项目 4周前4,9200
ChatDLM – Qafind Labs推出的全球最快扩散语言模型 ChatDLM是什么 ChatDLM是 Qafind Labs推出的全球最快扩散语言模型,核心定位是突破传统Transformer架构在长上下文处理与推理效率上的瓶颈。模型融合了“区块扩散(Block... Ai项目 4周前4,9200