1. 英语词库 (English Datasets)

A. 开发者首选 (最全单词列表)

  • dwyl/english-words (GitHub)
    • 简介: GitHub 上最流行的英语单词列表,包含约 47.9 万个单词。来源于 Unix 系统自带的字典文件。
    • 格式: .txt (纯文本,一行一个词), .json
    • 适用: 拼写检查、自动补全、密码字典。
    • 地址: GitHub - dwyl/english-words

B. 语义与关系数据库 (含释义)

  • Princeton WordNet
    • 简介: 普林斯顿大学开发的经典英语词汇数据库,它不仅收录单词,还构建了单词之间的语义关系(同义词、上下位词等)。
    • 格式: 数据库文件, API
    • 适用: 自然语言处理 (NLP)、AI 开发、高级词典应用。
    • 地址: Princeton WordNet Download

C. 学习与分级词表 (CEFR/考试)

  • Oxford 3000™ / 5000™
    • 简介: 牛津核心词汇表,按 CEFR(A1-C1)分级。虽然官方主要提供 PDF,但 GitHub 上有许多开发者整理好的 CSV/JSON 版本。
    • 适用: 语言学习应用、背单词软件。
    • 地址: 搜索 “Oxford 3000 5000 text list github” 或访问 Oxford Learner’s Dictionaries
  • COCA (Corpus of Contemporary American English)
    • 简介: 当代美语语料库,提供基于频率的单词列表(前 5000/20000 高频词)。完整版需购买,但有部分免费样本数据。
    • 地址: English-Corpora.org

2. 中文词库 (Chinese Datasets)

A. 综合词频库

  • THUOCL (清华大学开放中文词库)
    • 简介: 由清华大学自然语言处理实验室提供,包含 IT、财经、法律、医学等多个领域的词频统计。
    • 格式: .txt
    • 适用: 中文分词、输入法优化、特定领域词汇提取。
    • 地址: THUOCL 官网

B. 汉英词典数据

  • CC-CEDICT
    • 简介: 最著名的开源汉英词典项目,几乎所有开源中文词典 App (如 Pleco 的免费部分) 都基于此数据。
    • 格式: .u8 (文本格式,易于解析)
    • 内容: 包含繁简字体、拼音、英文释义。
    • 地址: MDBG CC-CEDICT Download

C. 汉字与HSK等级

3. 多语言与结构化数据 (Multilingual)

  • Kaikki.org (Wiktionary 提取版)
    • 简介: 这是一个极其宝贵的资源。它将维基词典 (Wiktionary) 的非结构化数据提取为机器可读的 JSON 格式。
    • 包含: 几乎所有语言的单词、发音 (IPA)、词性、释义、例句。
    • 适用: 需要极其详细数据的复杂应用开发。
    • 地址: Kaikki.org

建议

如果您是作为开发者寻找数据:

  • 轻量级:直接去 GitHub 搜 english-wordschinese-wordlist
  • 重量级:使用 Kaikki.org 的 JSON 数据或 WordNet

如果您是学习者寻找资料:

  • 建议搜索 “CEFR word list PDF” 或 “HSK vocabulary list Excel” 直接获取打印版或表格版。