Data Schema

公司数据的主数据源是 data/companies.jsonCOMPANIES.htmldata/companies.csv 都由脚本从 JSON 生成,避免手工维护多份公司数据。

其他数据集仍保留 CSV:

文件说明
data/companies.json公司主数据源
data/companies.csv从 JSON 自动导出的公司 CSV
data/jobs.csv招聘机会候选数据
data/events.csv技术活动候选数据
data/communities.csv社群与组织候选数据
data/gov-projects.csv政府数字化项目线索
data/source-leads.csv每个方向的公开来源种子池;只用于发现候选,不直接生成公司/岗位结论

Company JSON fields

FieldTypeRequiredNotes
idstringyes稳定 slug,不要随意改名。
namestringyes公司或公开品牌名。
english_namestringno公开英文名,没有则留空。
citystringyes通常为 昆明,也可为云南其他城市。
districtstringno区县;不能确认时留空。
categorystringyes一个主要方向。
tagsarrayyes2-6 个短标签。
websitestringno官网;没有则留空。
source_urlstringyes最主要的公开来源。
source_typestringyesdocs/data-standard.html
verification_statusstringyesverified / official_page / community_pending / outdated / unknown
last_checkedstringyesYYYY-MM-DD
notesstringyes中性事实说明,不写主观评价。
opportunitiesarrayyesinternship / hiring / outsourcing / partnership / unknown
confidence_scorenumberyes1-5,见数据标准。
suitable_for_studentsbooleanyes适合学生阅读。
suitable_for_freelancersbooleanyes适合自由职业者阅读。
suitable_for_job_seekersbooleanyes适合求职者阅读。
suitable_for_foundersbooleanyes适合创业者阅读。

为了兼容旧页面和历史数据,JSON 中暂时保留 name_zhname_ensummary_zhsource_urlssource_checked_atverification 等旧字段。新代码优先读取上表中的字段。

Source leads CSV fields

data/source-leads.csv 用来沉淀“下一步应该去哪里查”的公开入口。它不是公司数据、不是岗位数据,也不代表某个方向已经有确定机会。

FieldTypeRequiredNotes
idstringyes稳定 slug。
directionstringyes必须属于 9 个方向之一。
source_titlestringyes入口名称,例如 BOSS 直聘昆明关键词页。
source_typestringyesrecruiting_platform / official_portal / government_portal / public_resource_portal / university_portal / event_platform / industry_association / incubator_or_park / open_source / media_database / search_engine_query
source_urlstringyes公开可访问链接。
citystringyes通常为 昆明云南
keywordstringyes用来发现候选的关键词。
last_checkedstringyesYYYY-MM-DD
statusstringyes当前统一为 seed_source
notesstringyes必须说明“不代表存在岗位/活动/合作”。

校验脚本会要求每个方向至少 5 条来源入口。

Other CSV fields

其他 CSV 目前是轻量候选表:

Commands

npm run generate:companies
npm run export:csv
npm run validate:data
npm run validate

详情见:docs/data-standard.html