数据标准 / Data Standard
这个项目的可信度来自两件事:只收录公开可核验信息,并且把不确定性标出来。
1. 什么公司可以收录
可以收录昆明及云南范围内,和技术、软件、数据、系统集成、数字化交付有关的公司、机构或团队,包括:
- 软件开发、网站建设、小程序、App、SaaS、企业服务。
- 系统集成、政企信息化、智慧城市、工业数字化、ICT 运维。
- AI、大数据、云服务、物联网、网络安全。
- 农业数字化、医疗信息化、金融科技、文旅科技等行业技术公司。
- 有公开技术团队、公开产品、公开项目或公开招聘页的传统行业数字化团队。
2. 什么公司不收录
暂不收录:
- 没有公开来源、无法核验的公司名。
- 与技术、数字化、软件、系统集成、数据服务没有明显关系的普通商贸公司。
- 只来自私人聊天、微信群截图、口头转述的信息。
- 第三方未经授权的私人手机号、私人微信、私人邮箱等个人联系方式。
- 未经核实的负面爆料、薪资、裁员、加班、纠纷信息。
- “保证就业”“内部资源”“包过面试”等无法验证的营销信息。
3. 怎么判断“技术相关”
一家公司满足以下任一条件,可以作为候选:
- 官网、官方页或公开资料明确提到软件开发、系统集成、数据、AI、云、网络安全、物联网、信息化等业务。
- 政府公开名单、招投标公告或公开项目中显示其承担技术、数字化或信息化工作。
- 公开招聘页出现研发、测试、运维、数据、产品、项目实施、系统集成等技术岗位。
- 公司有公开产品、技术博客、开源仓库或开发者文档。
如果只从名字看像“科技公司”,但没有公开业务说明,应标记为 community_pending,不要写成已核验。
4. source_type 的含义
| 值 | 含义 |
|---|---|
official_site | 公司官网或产品官网 |
official_profile | 官方公众号文章、集团页面、官方新闻或机构主页 |
government_public_list | 政府公告、科技型中小企业名单、公共资源交易、采购公告等 |
community_list | 旧社区清单、开源清单、社区整理资料 |
recruiting_platform | Boss 直聘、智联招聘、前程无忧、猎聘、拉勾等公开招聘平台公司主页或搜索入口。只能说明“公开可查”,不能自动推断正在招聘。 |
media_database | 媒体报道、项目数据库、投融资/企业资料平台 |
public_web | 其他公开网页 |
unknown | 来源类型暂不清楚,后续应补充 |
5. verification_status 的含义
| 值 | 含义 |
|---|---|
verified | 找到官网或产品官网,且与公司名称/业务方向基本对应 |
official_page | 找到官方文章、集团页面、政府公告等官方来源,但可能缺少独立官网 |
community_pending | 来自社区清单、公开名单或平台页,需要继续补官网和业务方向 |
outdated | 来源可能过期,页面失效或信息明显陈旧 |
unknown | 暂未能判断核验状态 |
6. confidence_score 评分规则
| 分数 | 规则 |
|---|---|
| 5 | 官网已核验,官网和业务方向清楚 |
| 4 | 官方页核验,来源可靠,但缺少独立官网或信息不完整 |
| 3 | 招聘平台、媒体数据库或公开网页可支持基本存在,但还缺官网或业务交叉验证 |
| 2 | 政府公开名单、社区历史清单等候选来源,只能说明“值得复核” |
| 1 | 来源弱、信息不完整或状态未知,应优先复核 |
7. opportunities 的含义
opportunities 是阅读提示,不是承诺,不代表公司正在招聘或正在接外包。
允许值:
internship:有公开实习线索。hiring:有公开招聘线索。outsourcing:从公开业务看,可能与外包、网站建设、软件交付有关。partnership:从公开业务看,可能与合作、客户、产业项目有关。unknown:暂时不判断。
没有明确招聘页时,不要编造 internship 或 hiring。如果只是发现招聘平台搜索入口,应该先放在 data/source-leads.csv,或在公司记录里保守使用 source_type: recruiting_platform、opportunities: ["unknown"]。
8. suitable_for_* 字段
这些字段表示“适合谁阅读这条记录”,不是业务承诺。
suitable_for_students:适合学生了解行业、找项目方向或实习研究入口。suitable_for_freelancers:适合自由职业者研究外包/交付/合作可能性。suitable_for_job_seekers:适合求职者进一步查官网、招聘页或公开岗位。suitable_for_founders:适合创业者研究客户线索、产业方向或合作对象。
9. 如何处理过期信息
如果官网打不开、公司名称变更、业务方向明显变化:
- 不要直接删除记录。
- 先把
verification_status改为outdated,在notes里写明“待复核”。 - 如果找到新官网或新官方页,再更新
website、source_url、source_type、last_checked。 - 只有确认重复、明显错误或不符合收录边界时,才在 PR 中说明原因后移除。
10. 隐私和负面信息边界
不要收录:
- 第三方未经授权的私人手机号、私人微信、私人 QQ、私人邮箱。
- 私人聊天记录、群截图、朋友圈截图。
- 未经核实的负面爆料。
- 无法公开验证的薪资、裁员、加班、纠纷信息。
如果某条公开来源包含第三方私人联系方式,只保留来源链接,不把私人联系方式复制进数据字段;维护者本人主动公开的项目联系入口可以出现在 README 或页面 CTA 中。