GitHub 于今日正式宣布更新 Copilot 交互数据的使用政策。自 4 月 24 日起,免费、专业及专业增强版用户的交互数据将用于训练人工智能模型,除非用户明确选择退出。这一重大变更旨在提升代码建议的准确性与安全性,La Era 报道了该消息。
受影响的数据范围广泛,包括输入代码、输出结果及上下文环境。GitHub 企业版和商业版用户不受此政策调整影响,其数据隔离处理。公司强调,企业级数据不会被纳入公共模型训练集,以保护商业机密。
用户可在设置中的隐私选项内选择退出数据收集计划。此前已选择退出的用户偏好将被永久保留,数据不会用于训练。GitHub 表示,参与计划的用户将帮助模型更好地理解复杂的开发工作流。
收集的具体数据涵盖代码片段、文件结构及导航模式。系统还会记录用户对建议的反馈,例如点赞或点踩。这些信息有助于模型识别潜在错误并优化代码模式,从而减少生产环境中的漏洞。
早期模型主要依赖公开数据和人工编写的样本进行构建。过去一年,微软员工交互数据的加入已显著提升代码接受率。GitHub 认为,真实世界数据对提升模型性能至关重要,能够覆盖更多样化的用例。
该计划收集的数据可能与 GitHub 关联公司共享,包括微软。数据不会提供给第三方人工智能模型提供商。GitHub 明确区分了静态存储与活跃交互数据的处理差异,确保合规性。
私有仓库中的静态内容不会被使用,但活跃交互数据除外。这是因为运行服务需要处理私有仓库代码才能提供服务。若用户不退出,这部分交互数据可能被用于改进模型,这是运行服务的必要条件。
首席产品官 Mario Rodriguez 在声明中详细阐述了产品愿景。他表示,未来的人工智能开发依赖于开发者的真实交互数据。这位拥有 20 年经验的领导者曾负责微软和 GitHub 的 AI 战略。
无论用户是否参与,Copilot 功能均可正常使用。公司承诺继续构建加速工作流的工具,赋能开发者构建更安全的软件。开发者社区的选择将直接影响工具的未来发展方向,GitHub 对此表示感谢。
此次政策调整反映了生成式 AI 在软件行业的应用趋势。随着模型迭代,数据隐私与性能提升之间的平衡将持续受到关注。业界将观察其他平台是否跟进类似策略,这将成为行业常态。