这里放项目主页与代表作,包含系统优化、数据管线与平台化实践。
代表项目
nano-llama-3
纯 PyTorch 复现 Llama 3 核心模块(RMSNorm、RoPE、GQA、SwiGLU),加载官方权重并与 HuggingFace 实现进行数值对齐。
View on GitHubllm_data_pipeline
基于 Ray Data 的大模型预训练数据清洗管道:CommonCrawl 抽取、规则清洗、MinHash/LSH 去重、PII 过滤、质量打分、数据集导出与 Tokenizer 训练,全流程可复现。
View on GitHub若你对某个方向感兴趣,欢迎通过 GitHub 联系我。