# 数据标准 / Data Standard 这个项目的可信度来自两件事:只收录公开可核验信息,并且把不确定性标出来。 ## 1. 什么公司可以收录 可以收录昆明及云南范围内,和技术、软件、数据、系统集成、数字化交付有关的公司、机构或团队,包括: - 软件开发、网站建设、小程序、App、SaaS、企业服务。 - 系统集成、政企信息化、智慧城市、工业数字化、ICT 运维。 - AI、大数据、云服务、物联网、网络安全。 - 农业数字化、医疗信息化、金融科技、文旅科技等行业技术公司。 - 有公开技术团队、公开产品、公开项目或公开招聘页的传统行业数字化团队。 ## 2. 什么公司不收录 暂不收录: - 没有公开来源、无法核验的公司名。 - 与技术、数字化、软件、系统集成、数据服务没有明显关系的普通商贸公司。 - 只来自私人聊天、微信群截图、口头转述的信息。 - 第三方未经授权的私人手机号、私人微信、私人邮箱等个人联系方式。 - 未经核实的负面爆料、薪资、裁员、加班、纠纷信息。 - “保证就业”“内部资源”“包过面试”等无法验证的营销信息。 ## 3. 怎么判断“技术相关” 一家公司满足以下任一条件,可以作为候选: 1. 官网、官方页或公开资料明确提到软件开发、系统集成、数据、AI、云、网络安全、物联网、信息化等业务。 2. 政府公开名单、招投标公告或公开项目中显示其承担技术、数字化或信息化工作。 3. 公开招聘页出现研发、测试、运维、数据、产品、项目实施、系统集成等技术岗位。 4. 公司有公开产品、技术博客、开源仓库或开发者文档。 如果只从名字看像“科技公司”,但没有公开业务说明,应标记为 `community_pending`,不要写成已核验。 ## 4. `source_type` 的含义 | 值 | 含义 | | --- | --- | | `official_site` | 公司官网或产品官网 | | `official_profile` | 官方公众号文章、集团页面、官方新闻或机构主页 | | `government_public_list` | 政府公告、科技型中小企业名单、公共资源交易、采购公告等 | | `community_list` | 旧社区清单、开源清单、社区整理资料 | | `recruiting_platform` | Boss 直聘、智联招聘、前程无忧、猎聘、拉勾等公开招聘平台公司主页或搜索入口。只能说明“公开可查”,不能自动推断正在招聘。 | | `media_database` | 媒体报道、项目数据库、投融资/企业资料平台 | | `public_web` | 其他公开网页 | | `unknown` | 来源类型暂不清楚,后续应补充 | ## 5. `verification_status` 的含义 | 值 | 含义 | | --- | --- | | `verified` | 找到官网或产品官网,且与公司名称/业务方向基本对应 | | `official_page` | 找到官方文章、集团页面、政府公告等官方来源,但可能缺少独立官网 | | `community_pending` | 来自社区清单、公开名单或平台页,需要继续补官网和业务方向 | | `outdated` | 来源可能过期,页面失效或信息明显陈旧 | | `unknown` | 暂未能判断核验状态 | ## 6. `confidence_score` 评分规则 | 分数 | 规则 | | --- | --- | | 5 | 官网已核验,官网和业务方向清楚 | | 4 | 官方页核验,来源可靠,但缺少独立官网或信息不完整 | | 3 | 招聘平台、媒体数据库或公开网页可支持基本存在,但还缺官网或业务交叉验证 | | 2 | 政府公开名单、社区历史清单等候选来源,只能说明“值得复核” | | 1 | 来源弱、信息不完整或状态未知,应优先复核 | ## 7. `opportunities` 的含义 `opportunities` 是阅读提示,不是承诺,不代表公司正在招聘或正在接外包。 允许值: - `internship`:有公开实习线索。 - `hiring`:有公开招聘线索。 - `outsourcing`:从公开业务看,可能与外包、网站建设、软件交付有关。 - `partnership`:从公开业务看,可能与合作、客户、产业项目有关。 - `unknown`:暂时不判断。 没有明确招聘页时,不要编造 `internship` 或 `hiring`。如果只是发现招聘平台搜索入口,应该先放在 `data/source-leads.csv`,或在公司记录里保守使用 `source_type: recruiting_platform`、`opportunities: ["unknown"]`。 ## 8. `suitable_for_*` 字段 这些字段表示“适合谁阅读这条记录”,不是业务承诺。 - `suitable_for_students`:适合学生了解行业、找项目方向或实习研究入口。 - `suitable_for_freelancers`:适合自由职业者研究外包/交付/合作可能性。 - `suitable_for_job_seekers`:适合求职者进一步查官网、招聘页或公开岗位。 - `suitable_for_founders`:适合创业者研究客户线索、产业方向或合作对象。 ## 9. 如何处理过期信息 如果官网打不开、公司名称变更、业务方向明显变化: 1. 不要直接删除记录。 2. 先把 `verification_status` 改为 `outdated`,在 `notes` 里写明“待复核”。 3. 如果找到新官网或新官方页,再更新 `website`、`source_url`、`source_type`、`last_checked`。 4. 只有确认重复、明显错误或不符合收录边界时,才在 PR 中说明原因后移除。 ## 10. 隐私和负面信息边界 不要收录: - 第三方未经授权的私人手机号、私人微信、私人 QQ、私人邮箱。 - 私人聊天记录、群截图、朋友圈截图。 - 未经核实的负面爆料。 - 无法公开验证的薪资、裁员、加班、纠纷信息。 如果某条公开来源包含第三方私人联系方式,只保留来源链接,不把私人联系方式复制进数据字段;维护者本人主动公开的项目联系入口可以出现在 README 或页面 CTA 中。