面向 AGI 的长期记忆。
生产环境部署失败,是因为平面检索无法感知版本。PaperGuru 引入了生命周期感知记忆,在引文图上进行路由,遵循废弃声明,并实现无限扩展。

PaperBench
超越人类基准线。
在 PaperBench(OpenAI,2025)上——这是对智能体从 PDF 复现机器学习论文能力的最严格审计——先前系统无法恢复标准规范。通过在引文图上进行路由,PaperGuru 实现了前所未有的性能。
66.05%
23 篇论文的平均得分
+30.21%
相对于共享子集上最佳已发布 AiScientist 基线运行的绝对提升。
19 / 20
PaperGuru 超越最强已发布基线的论文数。
与已发布基线的性能对比
41% 人类专家(48小时)
BasicAgent
21.0%
IterativeAgent
26.0%
AiScientist (Apr 2026)
33.7%
PaperGuru (ours)
66.0%
SurveyBench
AGI 规模的写作能力。
在 SurveyBench(每次输出 150K+ tokens)上,PaperGuru 生成的综述在严格 LLM 评判下内容得分达 94.66%。由于其证据卡携带版本一致的溯源信息,它实现了其他智能体得分为零的综合丰富度提升。
94.66%
内容得分(claude-opus-4.7 评判,200K 上限)
+14.06%
相对于 OpenAI DeepResearch 的绝对内容提升。
+23.40%
综合丰富度提升(100 张已验证图表,200+ 张表格)。
20 篇生成的综述
点击打开完整 PDF
3D Gaussian Splatting

3D Object Detection

Agentic RL

LLM Alignment

Efficient Inference

LLM Evaluation

LLM Explainability

Diffusion Models

Graph Neural Networks

LLM Hallucination

LLMs for RecSys

LLMs for Time Series

Multi-Agent LLMs

Multimodal LLMs

RL for LLMs

RAG for LLMs

LLM Safety

Scientific LLMs

Vision-Language-Action

Vision Transformers
