Efficient Training of Robust Traditional Chinese LLaMA-1B on a Single Consumer GPU: Continual Pre-training, SFT, and DPO
Paper
•
2510.01616
•
Published
原始模型為llama3.2-1b-instruct 由國立清華大學博士班遲佑成(1), 陽明交通大學段明濤(2) 臺北市立大學侯詠皓(2) 業餘繼續預訓練與微調而成,供公眾研究擴展知識邊界用,亦可供後續微調使用。 本模型強化中文輸出穩定性。相對llama3.2-1b-instruct顯著提升,統計學上達顯著性(<.05))。 請註明作者與詳細來源。非常謝謝!
Paper 請參考: https://arxiv.org/abs/2510.01616
fine-tuning-英翻中
fine-tuning-RAG