1. 英语词库 (English Datasets)
A. 开发者首选 (最全单词列表)
- dwyl/english-words (GitHub)
- 简介: GitHub 上最流行的英语单词列表,包含约 47.9 万个单词。来源于 Unix 系统自带的字典文件。
- 格式:
.txt(纯文本,一行一个词),.json - 适用: 拼写检查、自动补全、密码字典。
- 地址: GitHub - dwyl/english-words
B. 语义与关系数据库 (含释义)
- Princeton WordNet
- 简介: 普林斯顿大学开发的经典英语词汇数据库,它不仅收录单词,还构建了单词之间的语义关系(同义词、上下位词等)。
- 格式: 数据库文件, API
- 适用: 自然语言处理 (NLP)、AI 开发、高级词典应用。
- 地址: Princeton WordNet Download
C. 学习与分级词表 (CEFR/考试)
- Oxford 3000™ / 5000™
- 简介: 牛津核心词汇表,按 CEFR(A1-C1)分级。虽然官方主要提供 PDF,但 GitHub 上有许多开发者整理好的 CSV/JSON 版本。
- 适用: 语言学习应用、背单词软件。
- 地址: 搜索 “Oxford 3000 5000 text list github” 或访问 Oxford Learner’s Dictionaries
- COCA (Corpus of Contemporary American English)
- 简介: 当代美语语料库,提供基于频率的单词列表(前 5000/20000 高频词)。完整版需购买,但有部分免费样本数据。
- 地址: English-Corpora.org
2. 中文词库 (Chinese Datasets)
A. 综合词频库
- THUOCL (清华大学开放中文词库)
- 简介: 由清华大学自然语言处理实验室提供,包含 IT、财经、法律、医学等多个领域的词频统计。
- 格式:
.txt - 适用: 中文分词、输入法优化、特定领域词汇提取。
- 地址: THUOCL 官网
B. 汉英词典数据
- CC-CEDICT
- 简介: 最著名的开源汉英词典项目,几乎所有开源中文词典 App (如 Pleco 的免费部分) 都基于此数据。
- 格式:
.u8(文本格式,易于解析) - 内容: 包含繁简字体、拼音、英文释义。
- 地址: MDBG CC-CEDICT Download
C. 汉字与HSK等级
- 汉字字符集 (HanziDB)
- 简介: 包含汉字频率、笔画、部首等信息的数据库。
- 地址: GitHub - ruddfawcett/hanziDB
3. 多语言与结构化数据 (Multilingual)
- Kaikki.org (Wiktionary 提取版)
- 简介: 这是一个极其宝贵的资源。它将维基词典 (Wiktionary) 的非结构化数据提取为机器可读的 JSON 格式。
- 包含: 几乎所有语言的单词、发音 (IPA)、词性、释义、例句。
- 适用: 需要极其详细数据的复杂应用开发。
- 地址: Kaikki.org
建议
如果您是作为开发者寻找数据:
- 轻量级:直接去 GitHub 搜
english-words或chinese-wordlist。 - 重量级:使用
Kaikki.org的 JSON 数据或WordNet。
如果您是学习者寻找资料:
- 建议搜索 “CEFR word list PDF” 或 “HSK vocabulary list Excel” 直接获取打印版或表格版。