这里放项目主页与代表作,包含系统优化、数据管线与平台化实践。

代表项目

nano-llama-3

纯 PyTorch 复现 Llama 3 核心模块(RMSNorm、RoPE、GQA、SwiGLU),加载官方权重并与 HuggingFace 实现进行数值对齐。

Llama 3 · 结构复现 · 数值对齐

View on GitHub

llm_data_pipeline

基于 Ray Data 的大模型预训练数据清洗管道:CommonCrawl 抽取、规则清洗、MinHash/LSH 去重、PII 过滤、质量打分、数据集导出与 Tokenizer 训练,全流程可复现。

数据清洗 · 去重 · PII · 质量评估

View on GitHub

若你对某个方向感兴趣,欢迎通过 GitHub 联系我。