2017 年,LinkedIn 向数据科学公司 hiQ Labs 发出了一封停止函,因为该公司抓取了 LinkedIn 的公开数据,并利用这些数据创建工具和见解。此案最终演变成一场长达 6 年的法律纠纷,如今已成为网络抓取行业的里程碑案件。
第一次法庭裁决有利于 hiQ Labs,但 LinkedIn 提起上诉,称 hiQ Labs 违反了《计算机欺诈和滥用法案》(CFAA)。不过,当时 电报粉 法院裁定,由于 hiQ Labs 从 LinkedIn 抓取的数据是公开的,因此该公司没有违反 CFAA 的条款。
随着法律纠纷的持续,案件的焦点转移到 hiQ Labs 使用虚假个人资料抓取 LinkedIn 数据。2022 年的第二项裁决指出,使用虚假个人资料抓取登录墙后面的网络数据违反了网站的条款和条件。最终,公司达成和解,hiQ Labs 同意停止抓取 LinkedIn。
然而,需要强调的是,第二项裁决并没有推翻之前关于 CFAA 和公共数据抓取的先例。相反,该判决决定了另一个法律问题,主要涉及用户协议和从 LinkedIn 收集数据时使用虚假账户的问题。
值得注意的是,通过创建虚假账户,hiQ Labs 在访问 LinkedIn 在线服务之前也接受了 LinkedIn 的用户协议,该协议禁止创建虚假身份。
因此,美国地方法院于 2022 年 10 月 27 日作出的命令裁定,LinkedIn 的用户协议禁止抓取和未经授权使用抓取的数据,并且 hiQ 通过 turkers 在 LinkedIn 平台上创建虚假身份违反了 LinkedIn 的用户协议。
您仍应注意,公共网络数据抓取领 定潜在客户开发策略至关重要 域在不断变化,并且应关注涉及网络数据公司的相关判例法发展。
我建议就与之相关的任何商业活动咨询法律专家。
道德与谨慎的网络抓取
如上所述,除了从网络上收集公共网络数据的法律方面,还有其他方面与网络抓取的道德有关。随着时间的推移,这些原则成为该领域参与者不成文的行为准则的一部分。主要考虑因素如下:
速率限制。数据提取是通过向网站提交请求来执行的。网站请求过载会影响其性能,应避免这种情况。
专用 API。请记住,有些网站提供 在短信中 用于访问其数据的 API。
代理。用于网页抓取的代理应符合道德规范。
负责任的企业将道德的网络抓取视为一种承诺,与成为公共网络数据业务中信誉良好的参与者密不可分。
去年,一些领先的网络数据聚合公司发起了一项道德网络数据收集倡议,旨在鼓励对话并提高消费者和公司的数字安心。此后,他们公布了一系列道德网络数据收集原则,例如:
谨慎。这意味着数据收集公司应该谨慎并意识到数据的潜在滥用。
社会责任。公司绝不应该出于可能危害社会的目的收集数据。有道德的数据收集公司还会通过向研究机构或非政府组织等组织和项目提供数据来为其提供支持。
网页抓取和人工智能
高质量的网络数据有助于将人工智能技术的关键类型之一——大型语言模型 (LLM) 推向如今的水平。训练 LLM 以理解人类语言并生成情境感知响应需要大量数据。
例如,GPT-4 的前身 GPT-3 的训练需要45 TB 的文本。来自互联网的公开信息是用于训练人工智能的重要信息支柱之一。
预计未来几年,人工智能市场将呈指数级增长。这自然引发了关于使用网络数据训练人工智能和创建人工智能产品的问题。