Goku – 港大和字节联合推出的最新视频生成模型 Goku是什么 Goku是香港大学和字节跳动联合发布的最新视频生成模型,专为图像和视频的联合生成设计。基于先进的rectified flow Transformer框架,支持文生视频、图生视频及文生图... Ai项目 1年前04,7300
gpt-4o-transcribe – OpenAI 推出的语音转文本模型 gpt-4o-transcribe是什么 gpt-4o-transcribe是 OpenAI 推出的高性能语音转文本模型。基于最新的语音模型架构,用海量多样化音频数据训练,精准捕捉语音细微差别,显著降... Ai项目 1年前04,7300
LTXV-13B – Lightricks开源的最新视频生成模型 LTXV-13B是什么 LTXV-13B 是Lightricks推出的开源 AI 视频生成模型,拥有 130 亿参数。具备极高的生成速度,比同类产品快 30 倍,能在普通消费级显卡(如 4090/50... Ai项目 4周前4,7250
MoMask – 文本驱动生成高质量3D人体动作的模型 MoMask是什么 MoMask是创新的3D人体动作生成工具,通过生成式掩码建模技术,能根据文本描述生成高质量的3D人体动作。MoMask采用分层量化方案,将人体运动表示为多层离散的运动标记,结合掩码... Ai项目 1年前04,7200
WorldPM – 阿里Qwen团队联合复旦推出的偏好建模模型系列 WorldPM是什么 WorldPM(World Preference Modeling)是阿里巴巴集团的Qwen团队和复旦大学推出的偏好建模模型系列。基于大规模训练揭示偏好模型的可扩展性。模型基于1... Ai项目 4周前4,7150
SWEET-RL – Meta 推出的多轮强化学习框架 SWEET-RL是什么 SWEET-RL是Meta推出的多轮强化学习框架,专门用在训练大型语言模型(LLM)代理进行协作推理任务。SWEET-R基于训练时的额外信息(如参考解决方案)优化“批评者”模型... Ai项目 1年前04,7150
OLMo 2 32B – Ai2 推出的最新开源语言模型 OLMo 2 32B是什么 OLMo 2 32B 是 Allen Institute for AI(Ai2)推出的最新开源语言模型,是 OLMo 2 系列的重要成果。拥有 320 亿参数,是首个在多技... Ai项目 1年前04,7100
LaTRO – 基于自我奖励提升LLMs复杂推理能力的框架 LaTRO是什么 LaTRO(Latent Reasoning Optimization)是先进的框架,提升大型语言模型(LLMs)在复杂推理任务中的表现。基于将推理过程类比为从潜在分布中采样,用变分... Ai项目 4周前4,7000
FacePoke – 开源的实时面部编辑工具,拖拽操作面部表情 FacePoke是什么 FacePoke是基于AI技术的开源实时面部编辑工具。用户基于简单的鼠标拖拽操作,对人物照片中的头部朝向(如抬头、低头、左右摇头)和面部表情(如眼睛睁闭、眼球方向、眉毛和嘴巴变... Ai项目 1年前04,7000
Agent TARS – 字节跳动开源的多模态 AI Agent 项目 Agent TARS是什么 Agent TARS 是字节跳动开源的多模态 AI Agent 项目。基于视觉解释网页内容,与浏览器、命令行和文件系统无缝集成,实现复杂任务的规划与执行。Agent TAR... Ai项目 1年前04,6950