Qwen2.5-Omni – 阿里开源的端到端多模态模型 Qwen2.5-Omni是什么 Qwen2.5-Omni 是阿里开源的 Qwen 系列旗舰级多模态模型,拥有7B参数,Qwen2.5-Omni具备强大的多模态感知能力,能处理文本、图像、音频和视频输入... Ai项目 7个月前04,4000
CogVideoX-2 – 智谱 AI 推出的文本到视频生成模型 CogVideoX-2是什么 CogVideoX-2是智谱 AI 推出的文本到视频生成模型,基于先进的 3D 变分自编码器(VAE),将视频数据压缩到原本的 2%,减少资源使用,同时确保视频帧之间的连... Ai项目 7个月前4,3900
AnimateAnything – 浙江大学联合北航推出的统一可控视频生成技术 AnimateAnything是什么 AnimateAnything是浙江大学和北京航空航天大学研究者推出的统一可控视频生成技术。AnimateAnything能精确操作视频,包括控制相机轨迹、文本提... Ai项目 7个月前4,3800
DELIFT – 数据高效语言模型指令微调算法 DELIFT是什么 DELIFT(Data Efficient Language model Instruction Fine-Tuning)是基于高效数据优化语言模型指令微调,一种新颖的算法,用在优... Ai项目 7个月前4,3700
HART – 麻省理工学院推出的自回归视觉生成模型 HART是什么 HART(Hybrid Autoregressive Transformer)是麻省理工学院研究团队推出的自回归视觉生成模型。能直接生成1024×1024像素的高分辨率图像,质量媲美扩... Ai项目 7个月前4,3600
AI-Infra-Guard – 腾讯开源的 AI 基础设施安全评估工具 AI-Infra-Guard是什么 AI-Infra-Guard是腾讯开源的高效、轻量级易于使用的 AI 基础设施安全评估工具,能发现和检测 AI 系统中的潜在安全风险。AI-Infra-Guard支... Ai项目 7个月前04,3550
GR00T N1 – 英伟达开源的人形机器人基础模型 GR00T N1是什么 GR00T N1 是英伟达推出的全球首个开源基础模型,专为通用人形机器人设计。基于多模态输入(如语言和图像)实现多样化环境中的操作任务。GR00T N1 基于大规模人形机器人数... Ai项目 7个月前04,3550
PaperBench – OpenAI 开源的 AI 智能体评测基准 PaperBench是什么 PaperBench是OpenAI开源的AI智能体评测基准,支持评估智能体复现顶级学术论文的能力。PaperBench要求智能体从理解论文内容到编写代码、执行实验,全面展现... Ai项目 7个月前04,3400
Imagen 4 – 谷歌推出的最新图像生成AI模型 Imagen 4是什么 Imagen 4是谷歌发布的最新图像生成AI模型。支持高达2K分辨率的图像生成,细节呈现逼真,可清晰呈现复杂织物纹理、水滴折射及动物毛发质感等。在文本渲染方面,Imagen 4... Ai项目 5个月前4,3350
PPTAgent – 中科院推出的自动生成高质量演示文稿框架 PPTAgent是什么 PPTAgent是中国科学院软件研究所中文信息处理实验室推出的创新框架,基于模仿人类工作流程的两阶段编辑方法,从文档自动生成高质量的演示文稿。PPTAgent分析参考演示文稿... Ai项目 7个月前4,3150