导航

88必发手机娱乐观点

执法风暴下的大数据爬虫合规之路 编辑:陈际红 吴佳蔚 刘元兴 2019-10-17

 

执法风暴

 

近日,魔蝎科技、新颜科技等多家现金贷相关的数据源企业被查处,涉事高管被警方控制。到目前为止,魔蝎、新颜、天机、有盾、聚信立、白骑士等多家知名数据风控相关企业都已经主动或被动地停止了与爬虫相关的数据业务[1]。此次大数据执法风暴大有持续发酵之势头,相比2017年《中华人民共和国网络安全法》(“以下简称《网安法》”)实施后的首轮整顿可能更为严厉和彻底。

 

此次行动源于银监会、互联网金融风险专项整治、P2P网贷风险专项整治工作领导小组办公室等监管机构主导的现金贷溯源性整肃,以及公安机关在全国范围开展的扫黑除恶行动,即打掉“套路贷”和暴力催收的数据源头[2]。法律依据为《网安法》、《刑法修正案九》等法律法规中关于禁止非法收集、使用个人信息的规定,以及上述专项整治工作领导小组办公室于2017年下发的《关于规范整顿“现金贷”业务的通知》所提出的红线要求:“不得暴力催收和不得非法侵犯公民个人信息”。 

 

爬虫合规误区与风险

 

面对这一轮监管利剑,很多大数据企业噤若寒蝉,主要原因是不清楚大数据行业的合规边界,尤其是如何收集数据(特别是利用爬虫技术)及如何使用数据的边界和红线。

 

基于法律规定和近期的执法背景,大家就关于数据产业链中涉及数据爬取和后续处理、流转的 “六个常见做法和合规误区”做出分析,意在厘清大数据爬虫的合规边界与红线。其中,数据爬取行为分为“企业与用户、企业与第三方平台”两个场景,数据交易行为分为“数据提供方企业和数据接收方企业”两个维度。在数据产业链上下游中,企业在两端,参与角色上来说,既可能是上游数据源企业(数据提供方),也有可能是下游数据使用企业(数据接收方);从参与行为上来说,可能涉及数据爬取行为,内部对于该等数据的使用亦可能涉及数据融合场景,还可能涉及数据交易在内的流转行为(提供或接收)

 

图:企业参与数据产业链上下游中的角色、行为、风险

 

 

(一)数据爬取行为

 

 

场景1:企业与用户

 

 

常见做法1:

未经授权进行爬取

 

合规误区:

公开网站上用户信息是公开的,不需要用户授权同意;已经获得用户的同意,爬取用户通讯录中的第三人联系信息并进行后续使用。

 

风险分析:

通过公开网站中爬取的个人信息,如果不是个人信息主体自行向社会公众公开或者公共机构主动明示公开的信息,则仍然需要获得个人信息主体的授权,用户通讯录中的第三人联系信息往往不可能直接获得该第三人的授权,该等缺乏授权的收集行为明显不具有合法性和正当性。(《网安法》【第四十一条】、【第六十四条】,《个人信息安全规范》【第5.4条】

 

 

 

常见做法2:

模糊收集措辞,概括性授权收集

 

合规误区:

意在收集的个人信息范围和类型难以穷尽列举,可以使用“等个人信息”表述模糊处理。

 

风险分析:

爬虫采集协议文本使用“等个人信息”表述。

  1. 违反了相关规定的“透明度”的要求。(《网安法》【第二十二条、四十一条】、《个人信息安全规范》【第5.3条】及《App违法违规收集使用个人信息自评估指南》【评估要点7、20、23】的规定

  2. 实践中该等描述往往伴随着超出使用目的范围的过度收集之嫌,可能违反最小必要原则。(《网安法》【第四十一条】及《个人信息安全规范》【第4条】、《App违法违规收集使用个人信息自评估指南》【评估要点7、25、26、27】

 

 

 

常见做法3:

内部数据融合,超出范围使用

 

合规误区:

在有效授权下爬取的数据,或者从上游数据源企业获得的爬取数据,可以放心进入企业自身数据库进行内部数据融合处理,可以进行超出原有授权采集目的进行使用而没有限制措施。

 

风险分析:

现有法律法规没有对数据融合做出专门性规定,但信安标委于今年6月份发布的《个人信息安全规范(征求意见稿)》7.5明确提及数据融合——基于不同业务目的所收集的个人信息的汇聚融合,一、应遵守7.3“个人信息的使用限制”的要求;二、应根据汇聚融合后个人信息的使用目的,开展个人信息安全影响评估,采取适当的个人信息保护措施。可见数据融合处理和使用不是无限制的,应当遵循“合法性、正当性、必要性”原则,既要有合法性和正当性基础(用户授权同意等),也要限制在必要的范围内,并采取个人信息安全保护措施,否则可能会违反《网安法》的相关规定,遭到行政监管和处罚的风险。(《网安法》【第二十二、四十一、四十二条、六十四条】、《个人信息安全规范(征求意见稿)》【7.3、7.5】

 

 

场景2:企业与第三方平台

 

 

常见做法4:

未经被爬取平台的授权直接爬取。

 

合规误区:

平台上用户数据属于用户,已经获得用户授权,爬取平台上用户数据不需要平台授权同意。

 

风险分析:

(1)非法收集个人信息的风险

对被爬取平台而言,未经其授权的数据爬取行为存在一定的安全风险,因此可能遭到被爬取平台基于平台安全的合法正当理由的封阻;未经第三方平台授权,通过破解技术爬取用户数据的行为可能构成《网安法》项下的窃取或以其他非法方式获取个人信息的违法行为《网安法》【第四十四、六十四条】、脉脉案中确定的三重授权原则)。

(2)不正当竞争及其他风险

未经授权直接爬取第三方平台数据的行为,很可能构成“不劳而获”和“搭便车”、“侵犯商业秘密”(同业爬虫)、“妨碍、破坏正常运营”(破解爬虫)的不正当竞争情形。破解爬虫,可能构成“非法侵入他人网络、窃取网络数据的违法行为”,亦有可能构成“危害计算机信息系统安全的其他行为”,由此可能面临相应行政监管的风险,也有构成“非法获取计算机信息系统数据罪”或“破坏计算机信息系统罪”的刑事风险。(《反不正当竞争法》【第二、九、十二条】、《网安法》【第二十七条】、《计算机信息系统安全保护条例》【第七条】以及《刑法》【第二百八十五条、二百八十六条】

 

近期监管机构的立法亦试图规范不正当的爬取行为,2019年5月28日,网信办发布关于《数据安全管理办法(征求意见稿)》,其中【第十六条】规定:网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。

 

2019年9月9日,美国联邦第九巡回上诉法院判决维持了地区法院支撑数据爬取方hiQ的初审裁定。其中的焦点认定是:因为公开数据缺少相应的保护措施(例如密码),hiQ 爬取LinkendIn公开数据的爬虫行为不构成CFAA意义上的“未经授权”或“超出授权”行为。该案对我国数据爬虫纠纷审判实践具有借鉴意义。

 

(二)数据交易行为

 

 

维度1:数据提供方企业

 

 

常见做法5:

将具有授权瑕疵的爬取数据整合后提供给下游数据使用企业。

 

合规误区:

无论是否存在授权瑕疵,爬取数据均可在被整合后提供给下游数据使用企业;在对外提供过程中,下游数据使用企业使用数据的情形和目的是下游数据使用企业自己的事情,与提供方无关,无需进行严格审查。

 

风险分析:

如果上述情节严重到一定程度,很可能构成侵犯公民个人信息罪。为完成数据交易需要经过“数据爬取和数据提供”两个行为具有授权瑕疵的数据爬取行为可能构成“窃取或者以其他方法非法获取公民个人信息”数据提供行为则可能构成“向他人出售或者提供公民个人信息”。(《刑法》【第二百五十三条之一】、《最高人民法院 最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的说明》【第五条】

 

结合目前的执法趋势和背景,企业对外的数据交易行为,很有可能由于非法获取数据行为或之后的交易行为而面临相应的刑事责任。

 

 

维度2:数据接收方企业

 

 

常见做法6:

下游数据使用企业使用数据源企业非法爬取的数据。

 

合规误区:

上游数据源企业(数据提供方)非法爬取的数据,责任由数据源企业(数据提供方)自己承担,与下游数据使用企业(数据接收方)无关。

 

风险分析:

下游数据使用企业(数据接收方)在不对上游数据源企业(数据提供方)的数据来源合法性和数据收集授权范围进行审查和确认的情形下,购买和使用其非法爬取的数据,如果情节严重到一定程度,很可能构成侵犯公民个人信息罪。(具体法律风险后果,同【常见做法5】)。(《刑法》【第二百五十三条之一】、《最高人民法院 最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的说明》【第五条】

 

结合目前的执法趋势和背景,下游数据使用企业很有可能由于执法机关对于上游数据合作方的调查,而面临相应的刑事责任。

 

爬虫上下游企业合规建议

 

爬虫技术是中立的,最近的执法趋势实质打击的是对于爬虫技术的非法利用以至于损害公民个人信息权利的乱象。近期,国外HiQ vs LinkedIn爬虫案,二审终于落锤,维持了一审裁定,也让爬虫行业看到了“正当发展”的些许安慰和希翼。爬虫业态在诞生和发展中长期处于灰色地带,在相关合规保护义务和追求效率刺激创新发展之间需要找到一个平衡,这是未来爬虫业态的正途。结合目前严格的执法趋势来看,无论是作为上游数据源企业(数据提供方)还是下游数据使用企业(数据接收方),企业均应就目前的合规形势进行应对之策的考量,以下是大家的简要建议:

 

(一)上游数据源企业(数据提供方)

 

 

1.针对爬取行为本身

 

  • 就爬取而言,采取对自身爬取数据的合规瑕疵进行详细评估并更新授权文本(应遵循最小必要原则并对用户进行充分通知并取得其同意,并在后续使用中不得超出原授权范围)、与被爬取平台进行合作等措施降低风险;

  • 爬虫使用技术手段应该懂得克制,遵守网站的Robots协议及适用协议,应当充分衡量其承受能力,不能影响其正常运营;

  • 爬取的数据在存储、传输、内部使用融合等方面均应满足《个人信息安全规范》的要求。

 

 

2.内部数据融合

 

将爬取的数据归入自身数据库进行数据融合应该注意以下几点:

 

  • ?对爬取数据与原有内部数据进行融合处理后产生的信息,如(单独或结合)仍具备个人识别能力,则还应作为个人信息对待,对其处理应遵循收集个人信息时获得授权同意的范围;

  • 如融合处理后产生的是个人敏感信息,还应遵守对个人敏感信息的保护要求;

  • 如数据的汇聚融合的使用行为超出了已获得授权的范围,则应当重新获得授权;

  • 非获得授权业务的必要,在融合使用时,一般应采用无需定位到具体个人的间接画像(如推送商业广告时);

  • 遵循风险规制路径,进行事前、事中、事后的动态风控评估和控制, 采取适当的个人信息保护和安全措施。

 

 

3.作为数据输出方

 

  • 在对外提供过程中,对下游合作方使用数据的情形和目的进行严格审查;

  • 并结合下游合作方的具体身份和具体场景对用户进行明确的通知,取得用户的同意;

  • 同时通过尽职调查、数据处理协议以及脱敏、匿名化处理等措施控制涉及非法出售公民个人信息的风险以及后续可能涉及的安全风险。

 

(二)下游数据使用企业(数据接收方)

 

作为数据接收方,应该参照《个人信息安全规范》5.3 b)的要求:

 

  • 严格审核上游数据源企业数据来源,特别是爬虫产品数据来源的合法性及授权同意范围,要求其保证数据来源合法合规;

  • 通过尽职调查和合同承诺等措施控制此处涉及的非法获得公民个人信息的风险以及后续可能涉及的安全风险;

  • 遵循三重授权原则,如果对获得数据使用超出原有授权目的,要再次获得用户授权,真正做到通过获取外部数据实现自身数据的补强,达成数据融合的正当性。

 

值得一提的是,截止目前随着多家不同行业的数据企业被查,表明监管部门已经拓展了执法的宽度和深度,不再限于与互金相关的数据风控企业,也不再限于爬虫,形成了“网安部门联合多个部门,针对大数据行业乱象展开新一轮的大规模整治行动”[3]的监管画面,重在打击数据产业链上下游中的违法违规行为。面对这波更大、更严的监管整顿,企业应该重点关注数据产业链上下游中关涉自身的数据合规问题,尤其要严守数据爬虫的风险边界和合规红线。

 

[注] 

 

[1] 徐徜徉:《大数据风控行业“地震”:多家企业被调查,同盾科技否认实控人“跑路”》,财经新媒体,

http://news.caijingmobile.com/article/detail/404093?source_id=40 ,访问时间:2019年9月20日。

[2] 蒋琳,李玲:《行业震荡!大批数据企业被查:是爬虫之错还是暴力催收的“锅”?》,南都记者采写,

https://new.qq.com/omn/20190912/20190912A0QJHC00.html,访问时间:2019年9月20日。

[3] 米格、本妹:《大数据企业从业者被抓,几十家被列入调查名单》,一本财经,

https://m.huxiu.com/article/270674.html,访问时间:2019年9月20日。

XML 地图 | Sitemap 地图