大数据时代,用户信息等数据早已成为几乎所有互联网企业的核心竞争资源。在某种意义上,抢占了数据就是抢占了客户,抢占了市场。
因此,近年来因争夺数据而引发的纠纷越来越多。获取数据的常见方式,除了向用户收集、从第三方共享、受让外,还有使用爬虫爬取数据。
如今,互联网公司普遍养有网络爬虫(有的称“蜘蛛”),这些爬虫如何爬取信息数据才能避免风险,做到合法合规?
一、爬虫技术违法吗?
(一)技术中立原则。由于“技术中立”的基本原则,爬虫本身不为法律所禁止,可采集公开信息。“公开”指的是对大众(所有人)公开,不具有传播对象的特定性。
(二)爬取非商业网站。如果爬取对象是对外提供公开查询服务的网站的公开信息,如公检法机关的官网、政府部门的官网、事业单位的官网等,不构成侵权或犯罪,可以抓取。
(三)爬取商业网站。没有设置反爬声明或采取反爬技术措施的各类商业网站,一般不限制爬取数据,但也并不意味着可以随意抓取。
二、相关法律法规及规定
关于数据爬取,我国存在大量相关的法律法规,包括但不限于《中华人民共和国刑法》、《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》、《数据安全管理办法(征求意见稿)》 、《反不正当竞争法》、《互联网信息服务管理办法》、《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》、《公安机关互联网安全监督管理规定》等。
三、爬取哪些信息涉嫌非法爬取
(一)爬取有反爬声明的网站数据
当某网站声明了robots协议——即网络爬虫排除标准时,数据爬取方应当对robots.txt中所记载的禁止爬取范围进行规避,若不遵守该协议,则可能面临法律风险。
(二)爬取网站非公开信息数据
如果爬取的是某公司“内网”或后台内部数据,采集的是非公开的信息,则系违法行为。
(三)爬取网站受法律保护的信息或数据
如对方网站合法收集的个人敏感信息、对方公司受法律保护的特定数据或信息等。
爬虫违规爬取数据容易造成侵犯商业秘密。另外要注意的是,如果爬虫在爬取数据的过程中对相关网站造成干扰,可能会构成不正当竞争。
四、涉嫌犯罪的爬取
当爬虫爬取数据的行为对目标网站造成严重影响,爬取行为具有社会危害性时,可能触犯刑法,涉嫌犯罪。爬虫爬取数据的容易涉及的罪名有两类,一是计算机类犯罪(包括“网安类”和“信息类”之外),二是侵犯商业秘密罪。
因此,爬取数据的行为可能同时触犯多个法益,存在构成数罪、可以并罚的可能。囿于笔者的时间及精力,本文仅论述计算机类犯罪,侵犯商业秘密罪及侵犯著作权罪本文不再赘述。
计算机类犯罪包括破坏计算机信息系统罪,非法侵入计算机信息系统罪,非法获取计算机信息系统数据罪,非法控制计算机信息系统罪,提供侵入、非法控制计算机信息系统程序、工具罪,侵犯公民个人信息罪等等。
【破坏计算机信息系统罪】
刑法第二百八十六条
违反国家规定,对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行,后果严重的,处五年以下有期徒刑或者拘役;后果特别严重的,处五年以上有期徒刑。
违反国家规定,对计算机信息系统中存储、处理或者传输的数据和应用程序进行删除、修改、增加的操作,后果严重的,依照前款的规定处罚。
故意制作、传播计算机病毒等破坏性程序,影响计算机系统正常运行,后果严重的,依照第一款的规定处罚。
单位犯前三款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照第一款的规定处罚。
如果使用网络爬虫频繁访问目标数据服务器,对目标网站的功能造成干扰,导致其系统响应变缓或者出现其他问题,影响正常运营的,可能构成破坏计算机信息系统罪。
根据《数据安全管理办法(征求意见稿)》的意见,自动化访问收集流量超过网站日均流量三分之一,即构成严重影响网站运行。
实践中,此罪的认定并不十分严格,因为“影响正常运营”是可以被解释的。此外,在部分案例中,“欺骗”信息系统也算一种“破坏”。
【非法侵入计算机信息系统罪】
刑法第二百八十五条之一
违反国家规定,侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,处三年以下有期徒刑或者拘役。
【非法获取计算机信息系统数据、非法控制计算机信息系统罪】
刑法第二百八十五条之二
违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。
若行为人违反法律规定,通过网络爬虫等技术手段破解目标网站的防抓取措施,抓取、收集网站所存储、处理或传输的非公开数据,可能构成此罪。
【提供侵入、非法控制计算机信息系统程序、工具罪】
刑法第二百八十五条之三
提供专门用于侵入、非法控制计算机信息系统的程序、工具,或者明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供程序、工具,情节严重的,依照前款的规定处罚。
单位犯前三款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照各该款的规定处罚。
《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》第二条规定,“具有下列情形之一的程序、工具,应当认定为刑法第二百八十五条第三款规定的专门用于侵入、非法控制计算机信息系统的程序、工具”: (一)具有避开或者突破计算机信息系统安全保护措施,未经授权或者超越授权获取计算机信息系统数据的功能的;(二)具有避开或者突破计算机信息系统安全保护措施,未经授权或者超越授权对计算机信息系统实施控制的功能的;(三)其他专门设计用于侵入、非法控制计算机信息系统、非法获取计算机信息系统数据的程序、工具。
如果爬虫具备绕过或突破对方反爬技术措施的功能,则易被认定为侵入计算机信息系统的程序;如果在数据抓取过程中实施了非法控制信息系统的行为,可能构成非法控制计算机信息系统罪。
【侵犯公民个人信息罪】
第二百五十三条之一
违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。
违反国家有关规定,将在履行职责或者提供服务过程中获得的公民个人信息,出售或者提供给他人的,依照前款的规定从重处罚。
窃取或者以其他方法非法获取公民个人信息的,依照第一款的规定处罚。
单位犯前三款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照各该款的规定处罚。
本罪具体内容请参见《刑法注释书》及《侵犯公民个人信息罪专题文献》。
五、如何为自己的网站设置反爬取措施
(一)设置反爬声明(Robots协议),并在用户协议中明确禁止用户实施具备商业目的的数据爬取行为。
(二)采取反爬技术措施,综合采用IP封锁、手机验证码、实名登录、访问频率设置、定时换样式/数据格式等技术保护措施。
(三) 对于版权信息或涉及到商业秘密的内容,可增加更高级别的技术保护措施及相关声明。
(四)安排专人监控,设置代码回溯功能。如发现自身数据被爬取,及时锁定违法爬取者,通过民事诉讼、行政举报投诉、刑事控告等手段进行维权。
六、合法爬取他方网站的合规注意事项
(一)识别数据是公开数据、半公开数据还是内部系统数据,企业只能爬取公开数据或者其他两类数据中已获得明确授权的数据。
(二)如果一般的个人网站或商业网站、APP既未设置反爬技术措施,也未公开反爬声明,一般是可以爬取的。但要注意,可能出现目标网站已经有公开反爬声明,但自己没发现的情形。
(三)即便爬取数据,也要说明数据来源。一方面,可以表明非恶意爬取;另一方面,预防数据本身存在问题。
(四)如果目标网站有反爬虫协议,应严格遵守网站设置的 robots协议,尽量不予爬取或更换目标网站。
(四)爬虫行为不能妨碍目标网站的正常运行。要谨慎评估网站的流量,访问流量不能超过网站日均流量的三分之一,对爬虫代码进行妥善设置,最好设置为网站日均流量的四分之一或以下,如无法预估网站流量,可以设置访问人数较少的时段进行爬取,单日爬取时间不超过2小时。
(五)抓取内容的限制策略在设置抓取策略时,应注意编码禁止抓取视频、音乐等可能构成作品的、明确的著作权作品数据,或者针对某些特定网站批量抓取其中的用户生成内容。
(六)抓取后应运用关键词审查等方式,审查所抓取的内容,如发现数据属于用户的个人信息、隐私或者涉及他人的商业秘密,应及时停止抓取,并完整删除已经爬取的信息。
(七)如双方商业模式相同或近似,爬虫获取对方的信息很可能会对对方造成直接损害或者减损其可期待利益,为避免不正当竞争的法律风险,应不予抓取。
(八) 即便目标网站的某类数据属于可爬取数据,如果系对方的核心化、批量式主营业务商业数据,应尽量避免以爬虫方式搜集,以免伤害到其实质性商业利益,从而引发法律纠纷。例如:
1.禁止设置比价软件抓取平台数据进行商业比价。
2.设置搜索链接尤其是深度链接。
获取已经公开的信息一般不违法,但该行为有涉嫌非法入侵计算机信息系统的可能,详细了解案情才能进一步分析
37号文的全称是《国家外汇管理局关于境内居民通过特殊目的公司境外投融资及返程投资外汇管理有关问题的通知》(汇发[2014]37号),其主要规定的是境内居民(境内自然人),以投融资为目的,以其合法持有的境内企业权益出资,设立境外特殊目的公司,并通过特殊目的公司对境内开展返程投资,应向商业银行申请外汇登记的相关问题。 为什么要办理37号文登记?1. 解决境内居民在境外持股的合规性问题2
近日,一份北京中易中标电子信息技术有限公司(简称中易中标公司)诉微软(中国)有限公司(简称微软中国公司)、微软公司的法院裁定文书【(2021) 京民辖56号】引起网上讨论。文书显示:“中易中标公司诉称,微软中国公司、微软公司在生产、销售的Windows98/2000/XP/2003等操作系统中使用中易 GB13000.1/GBK 宋体和黑体两副 95TrueType 字库的行为侵害了其对中易字库享
会被予以 警告且处以相应的罚款 麻烦情况再说具点。目前您说的内容我们还无法给您确切法律意见 感谢!!需要法律帮助,我愿意助您一臂之力;如果满意请采纳答案,并给予评价。
这是合理的,如果退役军人自己的退伍档案中,具有记载患有慢性病的退伍军人登记表,而此慢性病又是在《军人残疾等级评定标准》条款中列举的之一的,一旦退役后也没有任何作用的。如果在义务兵、初级士官在现役中的,达到因病六级残疾军人(因病残疾军人最低等级)以上的,就会有住院军医建议原部队领导申请评定因病残疾军人,而达不到因病六级残疾军人的疾病患者(义务兵、初级士官)就会予以“带病回乡军人”称号退役,而只有其患
侵权做法。复制他人网站上的东西需要注明转载来源就不算侵权。 网站侵权是网络侵权的一种类型,也是现代社会知识侵权的一种形式,网站侵权的本质与知识侵权是相同的,即做法人由于犯错侵害他人的财产和人身权利。网站侵权情况大量存在着,其表现形式是一些网站把隶属他人的软件、文章、图片、音乐、动画领过来放在自己网站上供用户浏览、下载,以此向用户收费或者吸引广告主的资本投入,以此达到赢利为目的。当然,侵权人可否以
房主不签字房屋在一定条件下是可以强拆的。强拆要满足一定的条件,首先负责拆迁的行政机关要与被拆迁方进行协商,协商不成可以申请行政复议和提请行政诉讼,如果既不复议也不诉讼的,并且需要被强制拆迁的建筑是可以强制拆迁的。
你好,建议积极配合接受处罚,具体处罚由工商部门定性
1、合法与合规的区别有合法性的依据是现行有效法律规定,合规性的依据是相关规章制度;合法性概念在社会科学(社会学、政治学等)中的使用有广义和狭义之分。广义的合法性概念被用于讨论社会的秩序、规范,或规范系统。合规没有广义和狭义之分。2、合规与合法是一种包容和被包容的关系,不能以偏概全,用合法取代合规。
公司存在的目的:生存、发展、获利。公司要实现其目的,内审、内控、风控可以说是公司的“防火墙”、“保健医生”。内审、内控、风控的落脚点要导向组织的战略目标、远景、规划,从近处说,要服务组织某阶段的发展目标(短期目标),从这个角度分析,三者目标导向是一致的。01法务现代企业立足市场,会面对来自方方面面的风险,诸如合同行为的风险、资本运作的风险、知识产权的风险、人力资源的风险、环境保护的风险、税务筹划的
消费者购买到了假货,可以向商家按照商品三倍价格进行索赔,可以协商索赔,也可以向消费者协会投诉要求赔偿。
异地可以个人缴纳社保,职工参加工作的由用人单位缴纳,由用人单位带齐本单位的营业执照、组织机构统一代码证书、相关核准执业证件、参保人员身份证复印件,向社会保险经办机构申请办理社会保险登记,然后按照当地的基数缴纳费用。 法律依据: 《中华人民共和国社会保险法》第五十八条 用人单位应当自用工之日起三十日内为其职工向社会保险经办机构申请办理社会保险登记。未办理社会保险登记的,由社会保险经办机构核定
需要到工商管理部门,卫生监督部门申请
建议委托我们帮你解决
网贷发恶意催收短信是违法的。对于在催收短信中辱骂、恐吓的行为以及在催收过程中随意向第三人透露债务人借款信息或者其他信息都是违法的,另外恐吓、辱骂、贴大字报、泼油漆、非法拘禁,这些行为是万万不可的。恶意催发或是发侮辱短信都会造成公民权益的侵犯
关于交通政策法律规定,各地有所不同,建议咨询当地交管部门获取权威回答。
正规臀疗,是不违法的。如果涉嫌性暗示涉黄的,就违法了。卖淫、嫖娼的,处十日以上十五日以下拘留,可以并处五千元以下罚款;情节较轻的,处五日以下拘留或者五百元以下罚款。《治安管理处罚法》第六十六条?卖淫、嫖娼的,处十日以上十五日以下拘留,可以并处五千元以下罚款;情节较轻的,处五日以下拘留或者五百元以下罚款。在公共场所拉客招嫖的,处五日以下拘留或者五百元以下罚款。
外地户籍不能在上海考人证,合规的网约车不能跑
从风险管控的角度来说,个人认为从低到高应是合规管理-内部控制-全面风险管理。首先,合规管理是最基础的层面。合规管理的本质并不聚焦于风险管理,它只是机械的避免违反内外部法律制度规范,从结果上看能够起到一定程度上控制操作风险的作用,但是这个作用有多大、够不够,并不是合规管理所关注的,自然也不是它能够解决的。其次,以coso框架为代表的内部控制,是合规管理的终极版,也可以说是操作风险管理的终极版。内部控
林律师经常在处理医疗纠纷案件的过程中遇到当事人对病历提出异议,他们的观点基本一致:医院修改病历是违法的,属于篡改病历行为,那实际上是这样吗?这显然是不正确的观点,医学文书和所有行业的文书一样,在一定范围内是允许修改的,林律师今天就来谈一下哪些修改病历的行为是合规的。一、法律基础。1.《病历书写基本规范》。第七条 病历书写过程中出现错字时,应当用双线划在错字上,保留原记录清楚、