美国科技巨头 GitHub 于今日发布官方声明,宣布更新 Copilot 人工智能助手的数据使用政策。根据新规定,自四月 24 日起,免费、专业版及专业增强版用户的互动数据将被用于训练其 AI 模型。除非用户主动选择退出,否则代码输入、输出及相关上下文信息将被收集。这一举措标志着平台在数据利用策略上的重大转变,引发全球开发者关注。
政策调整主要针对 Copilot Free、Pro 和 Pro+ 订阅用户,企业版和商业版用户数据不受此影响。GitHub 首席产品官 Mario Rodriguez 在声明中指出,这一变化符合行业既定实践。用户若不希望数据被用于改进产品,可在隐私设置中进行更改。此举旨在平衡个人隐私与模型性能提升之间的关系,确保透明度。
对于此前已选择不允许 GitHub 收集数据用于产品改进的用户,其偏好设置将被保留。GitHub 强调,只要用户未重新选择加入,其数据就不会被用于模型训练。这一机制旨在确保用户的选择权得到持续尊重。平台表示不会因用户退出而限制其基本功能的使用,保障服务稳定性。
可能被收集的数据包括用户接受或修改的输出代码、输入的代码片段以及光标周围的上下文。此外,用户编写的注释、文档、文件名及仓库结构信息也在收集范围内。反馈评分如点赞或点踩也将被纳入分析数据集。这些细节有助于模型更精准地理解开发者的具体需求。这包括代码逻辑和注释习惯。
该计划明确排除了企业拥有仓库中的互动数据以及用户选择退出的数据。涉及公开讨论、问题记录或静态存储于私人仓库的内容也不会被使用。GitHub 特别注明,服务运行所需的代码处理与模型训练数据存在区别。静态存储意味着数据仅在特定交互时刻被处理。这意味着数据不会在后台长期留存。
收集的数据可能会与 GitHub 的关联公司共享,其中包括母公司 Microsoft。GitHub 承诺不会将此类数据分享给第三方人工智能模型提供商或其他独立服务提供商。这种限制旨在防止敏感开发数据流入外部竞争环境。数据共享范围仅限于其企业联盟内部,确保控制力。
早期的模型主要基于公开数据和人工编写的代码样本构建。过去一年,GitHub 开始整合 Microsoft 员工的互动数据,并观察到采纳率显著提升。利用真实世界的数据有助于模型适应更多样化的使用场景。这反映了行业从静态训练向动态学习转变的趋势,同时也引发了关于隐私边界的讨论。
参与数据计划的用户将帮助模型更好地理解开发工作流,从而提供更准确的代码建议。GitHub 表示,这将增强模型发现潜在错误的能力,防止其在生产环境中出现。最终目标是构建服务于整个开发者社区的工具。通过反馈循环,软件质量有望得到系统性提升,推动行业进步。在竞争激烈的全球市场中,数据优势成为关键因素。
即使不选择参与,用户仍可继续使用已知的 AI 功能。GitHub 呼吁开发者访问常见问题页面了解详细信息。随着人工智能在软件开发中的普及,此类数据政策调整将成为行业常态。未来开发者需更加关注数据授权的具体条款,以保护自身权益。