2025-10-31
Improving Academic Writing
2025-10-31 ~ 2026-01-01
  • heuristic: 用于人工设计的规则,e.g., hand-crafted heuristic rewards

  • 图表中数值差异过大怎么呈现? 用放大镜:
    图片名称

2025-10-31
需要学习了解的东西
2025-10-31 ~ 2025-10-31
  • KV-cache

image.png

2025-10-29
Paper Reading
2025-10-29 ~ 2026-01-01

这里记录我读的paper,或是整篇文章,或是文章中最有insight的部分。

25.10.10

RL w/o verifier

RLPR: Extrapolating RLVR to General Domains without Verifiers 25.10.29

image.png