GitHub 更新 Copilot 数据政策用户交互数据将用于模型训练

GitHub 于今日正式宣布更新 Copilot 交互数据的使用政策。自 4 月 24 日起，免费、专业及专业增强版用户的交互数据将用于训练人工智能模型，除非用户明确选择退出。这一重大变更旨在提升代码建议的准确性与安全性，La Era 报道了该消息。

受影响的数据范围广泛，包括输入代码、输出结果及上下文环境。GitHub 企业版和商业版用户不受此政策调整影响，其数据隔离处理。公司强调，企业级数据不会被纳入公共模型训练集，以保护商业机密。

用户可在设置中的隐私选项内选择退出数据收集计划。此前已选择退出的用户偏好将被永久保留，数据不会用于训练。GitHub 表示，参与计划的用户将帮助模型更好地理解复杂的开发工作流。

收集的具体数据涵盖代码片段、文件结构及导航模式。系统还会记录用户对建议的反馈，例如点赞或点踩。这些信息有助于模型识别潜在错误并优化代码模式，从而减少生产环境中的漏洞。

早期模型主要依赖公开数据和人工编写的样本进行构建。过去一年，微软员工交互数据的加入已显著提升代码接受率。GitHub 认为，真实世界数据对提升模型性能至关重要，能够覆盖更多样化的用例。

该计划收集的数据可能与 GitHub 关联公司共享，包括微软。数据不会提供给第三方人工智能模型提供商。GitHub 明确区分了静态存储与活跃交互数据的处理差异，确保合规性。

私有仓库中的静态内容不会被使用，但活跃交互数据除外。这是因为运行服务需要处理私有仓库代码才能提供服务。若用户不退出，这部分交互数据可能被用于改进模型，这是运行服务的必要条件。

首席产品官 Mario Rodriguez 在声明中详细阐述了产品愿景。他表示，未来的人工智能开发依赖于开发者的真实交互数据。这位拥有 20 年经验的领导者曾负责微软和 GitHub 的 AI 战略。

无论用户是否参与，Copilot 功能均可正常使用。公司承诺继续构建加速工作流的工具，赋能开发者构建更安全的软件。开发者社区的选择将直接影响工具的未来发展方向，GitHub 对此表示感谢。

此次政策调整反映了生成式 AI 在软件行业的应用趋势。随着模型迭代，数据隐私与性能提升之间的平衡将持续受到关注。业界将观察其他平台是否跟进类似策略，这将成为行业常态。

评论