VE-Bench – 北京大学开源首个针对视频编辑质量评估的新指标 VE-Bench是什么 VE-Bench 是北京大学的研究团队 MMCAL 最近发布首个专门针对视频编辑质量评估的指标。VE-Bench 的设计目标是与人类感知能力高度一致,更准确地评估视频编辑效果... Ai项目 2个月前1,0350
EDTalk – 上海交大联合网易推出高效解耦的情感说话头像合成模型 EDTalk是什么 EDTalk是上海交通大学联合网易研发的音频驱动唇部同步模型,能实现对嘴型、头部姿态和情感表情的独立操控。只需上传一张图片、一段音频和参考视频,就能驱动图片中的人物说话,支持自定义... Ai项目 2个月前1,6300
video-analyzer – AI 视频分析工具,提取视频关键帧、生成视频详细描述 video-analyzer是什么 video-analyzer 是开源的视频分析工具,结合Llama的11B视觉模型和OpenAI的Whisper模型来提取视频关键帧、转录音频内容,并生成视频的详细... Ai项目 2个月前1,4500
SPAR – 智谱团队推出的自我博弈训练框架 SPAR是什么 SPAR是智谱团队推出的自我博弈框架,能增强大型语言模型在遵循指令方面的能力。框架基于内部的生成者和完善者两个角色进行互动,生成者执行指令生成回复,完善者对回复进行分析和改进。SPAR... Ai项目 2个月前1,4600
LowCodeEngine – 阿里开源的低代码开发框架 LowCodeEngine是什么 LowCodeEngine是阿里巴巴开源的低代码开发框架,基于提供拖拽、配置等简单操作,让开发者快速构建复杂的系统页面。框架以强大的定制能力、优雅的开发体验、丰富的A... Ai项目 2个月前1,4550
Qwen-Agent – 阿里通义开源的 Agent 应用开发框架 Qwen-Agent是什么 Qwen-Agent是基于通义千问模型(Qwen)的开源Agent开发框架,支持开发者用Qwen模型的指令遵循、工具使用、规划和记忆能力构建智能代理应用。Qwen-Agen... Ai项目 2个月前1,2750
Mind GPT-3o – 理想汽车推出的多模态端到端大模型 Mind GPT-3o是什么 Mind GPT-3o是理想汽车推出的多模态端到端大模型,融合语音、视觉和语言理解技术,实现高效实时交互。Mind GPT-3o具备记忆、规划、工具使用和表达能力,能提升... Ai项目 2个月前1,6150
琅琊 – 中国科学院海洋研究所自主研发的海洋大模型1.0版本 琅琊是什么 琅琊是中国科学院海洋研究所自主研发的新一代海洋人工智能大模型1.0版本,专注于海洋状态变量预报。模型结合了先进的人工智能算法和专业的海洋科学知识,能实现对全球海洋状态变量的中短期高精度预报... Ai项目 2个月前1,3750
DynamicControl – 腾讯优图联合南洋理工等机构推出的动态条件控制图像生成新框架 DynamicControl是什么 DynamicControl是腾讯优图联合南洋理工、浙大等研究机构推出的集成多模态大语言模型(MLLM)推理能力的文本生成图像(T2I)任务新框架。DynamicC... Ai项目 2个月前1,6900
VideoPhy – UCLA 联合谷歌推出评估视频生成模型物理常识能力的基准测试 VideoPhy是什么 VideoPhy是UCLA和谷歌研究研究院联合推出的,首个评估视频生成模型物理常识能力的基准测试,能衡量模型生成的视频是否遵循现实世界的物理规则。VideoPhy基准包含688... Ai项目 2个月前1,4100