Concept Lancet – 宾夕法尼亚大学推出的图像编辑框架 Concept Lancet是什么 Concept Lancet(CoLan)是宾夕法尼亚大学的研究团队推出的零样本、即插即用的图像编辑框架。Concept Lancet基于在潜在空间中对图像进行稀疏... Ai项目 4个月前2,7350
GPT学术优化 – 专为学术研究和写作设计的多功能开源项目 GPT学术优化是什么 GPT学术优化(GPT Academic)是功能丰富的开源项目,专为学术研究和写作设计。GPT学术优化集成一键论文翻译、源代码解析、互联网信息获取、Latex文章校对、论文润色和... Ai项目 5个月前2,7350
Pippo – Meta 推出的单图生成多视角高清人像视频模型 Pippo是什么 Pippo是Meta Reality Labs推出的图像到视频生成模型,能从单张照片生成1K分辨率的多视角高清人像视频。模型基于多视角扩散变换器,预训练了30亿张人像图像,在2500... Ai项目 5个月前02,7350
VideoVAE+ – 香港科技大学推出的先进跨模态视频变分自编码器 VideoVAE+是什么 VideoVAE+(VideoVAE Plus)是香港科技大学团队推出的先进的跨模态视频变分自编码器(Video VAE),通过引入新的时空分离压缩机制和文本指导,实现了对大... Ai项目 5个月前2,7300
Motion Dreamer – 香港科技大学推出的运动合理视频生成框架 Motion Dreamer是什么 Motion Dreamer是香港科技大学(广州)研究者提出的视频生成框架,生成运动合理视频。基于两阶段生成方式,先基于输入图像和运动条件生成中间运动表示,再利用该... Ai项目 5个月前2,7300
LegoGPT – 卡内基梅隆大学推出的乐高积木设计模型 LegoGPT是什么 LegoGPT 是卡内基梅隆大学推出的乐高积木设计模型,支持基于文本提示生成物理稳定且能构建的乐高积木模型。LegoGPT 基于自回归语言模型和大规模乐高设计数据集进行训练,根据... Ai项目 4个月前2,7250
PaliGemma 2 – 谷歌DeepMind推出的全新视觉语言模型 PaliGemma 2是什么 PaliGemma 2是Google DeepMind基于Gemma 2语言模型家族推出的新一代视觉语言模型(VLM),作为PaliGemma模型的升级版。结合SigLI... Ai项目 5个月前2,7250
MEMO – 音频驱动的生成肖像说话视频框架,保持身份一致性和表现力 MEMO是什么 MEMO(Memory-Guided EMOtionaware diffusion)是Skywork AI、南洋理工大学和新加坡国立大学推出的音频驱动肖像动画框架,用在生成具有身份一致... Ai项目 5个月前2,7200
Kheish – 开源的多智能体协调平台,可灵活配置多个Agent解决复杂任务 Kheish是什么 Kheish是基于大型语言模型(LLM)的多智能体编排开源平台,用多个专门的角色(智能体)和灵活的工作流协调复杂任务的各个步骤,如提案生成、审核、验证和格式化,产生高质量结果。平台... Ai项目 5个月前2,7200
HuatuoGPT-o1 – 港中文联合深圳大数据研究院开源的医学高级推理大模型 HuatuoGPT-o1是什么 HuatuoGPT-o1是香港中文大学(深圳)和深圳大数据研究院联合推出的,针对医学领域开发的复杂推理模型,基于复杂的推理能力提高解决医学问题的性能。模型用两个阶段的训... Ai项目 5个月前2,7200