video-analyzer – AI 视频分析工具,提取视频关键帧、生成视频详细描述 video-analyzer是什么 video-analyzer 是开源的视频分析工具,结合Llama的11B视觉模型和OpenAI的Whisper模型来提取视频关键帧、转录音频内容,并生成视频的详细... Ai项目 2周前5,1300
EDTalk – 上海交大联合网易推出高效解耦的情感说话头像合成模型 EDTalk是什么 EDTalk是上海交通大学联合网易研发的音频驱动唇部同步模型,能实现对嘴型、头部姿态和情感表情的独立操控。只需上传一张图片、一段音频和参考视频,就能驱动图片中的人物说话,支持自定义... Ai项目 2周前7,1500
VE-Bench – 北京大学开源首个针对视频编辑质量评估的新指标 VE-Bench是什么 VE-Bench 是北京大学的研究团队 MMCAL 最近发布首个专门针对视频编辑质量评估的指标。VE-Bench 的设计目标是与人类感知能力高度一致,更准确地评估视频编辑效果... Ai项目 2周前4,8150
Mathtutor on Groq – AI数学辅导工具,支持用语音形式提出数学问题 Mathtutor on Groq是什么 Mathtutor on Groq 是基于 Groq 架构的AI数学辅导工具,基于语音识别功能,支持用户用语音形式提出数学问题。工具内置强大的数学引擎,能实时... Ai项目 2周前7,3850
The Language of Motion – 斯坦福李飞飞团队推出的统一多模态语言模型 The Language of Motion是什么 The Language of Motion是斯坦福大学李飞飞团队推出的多模态语言模型,能整合人类动作中的言语和非言语语言。模型能处理文本、语音和动... Ai项目 2周前5,0350
Vision Parse – 开源的 PDF 转 Markdown 工具 Vision Parse是什么 Vision Parse是开源的PDF文档转换工具,基于视觉语言模型(Vision LLMs)将PDF文件转换成Markdown格式。Vision Parse能智能识别... Ai项目 2周前6,6600
PartGen – 牛津大学联合 Meta AI 推出的3D对象生成和重建框架 PartGen是什么 PartGen是先进的3D对象生成和重建框架,是牛津大学的视觉几何小组和Meta AI共同推出的。PartGen能识别并生成由有意义部分组成的3D对象,3D对象能基于文本提示、图... Ai项目 2周前4,8250
PeterCat – AI问答机器人,自动抓取 GitHub 上的文档和 issue 作为知识库 PeterCat是什么 PeterCat是开源的智能答疑机器人助手。PeterCat能帮助开发者和社区维护者更高效地解决技术问题,提升社区支持效率。PeterCat基于自动构建知识库,能与GitHub... Ai项目 2周前4,3800
Poetry2Image – 专为中文古诗词图像生成设计的迭代校正框架 Poetry2Image是什么 Poetry2Image是一个专为中文古诗词图像生成设计的迭代校正框架,哈尔滨工业大学提出。框架通过自动化的反馈和校正循环,增强了诗歌与图像之间的一致性,有效捕捉诗歌的... Ai项目 2周前4,7800
启元重症大模型 – 腾讯和迈瑞医疗联合推出的重症医疗大模型 启元重症大模型是什么 启元重症大模型是腾讯和迈瑞医疗联合发布的全球首个重症医疗大模型,专为ICU病房设计,解决重症监护中的痛点问题。模型整体参数量达到万亿级别,经过大量医学文本数据训练,涵盖285万医... Ai项目 2周前5,3600