搜索
新闻资讯
当前位置 当前位置:首页 > 新闻资讯 > 时事聚焦

爬虫技术应用合法性引争议 亟待规制非法爬取数据行为

所属分类:时事聚焦    发布时间: 2021-11-09    作者:宁夏锅炉燃料
  分享到:   
二维码分享

大数据时代,越来越多的市场主体投入巨资收集、整理、挖掘信息。如果允许网络爬虫自由使用他人通过巨额投资获取的数据资源,不利于鼓励商业投资、产业创新和诚信经营,甚至可能直接侵犯数据源用户的意志和知情权,.终损害良性竞争机制。

随着社会经济的快速发展,数据的价值日益凸显,成为企业科技创新必不可少的要素。然而,当企业通过技术手段获取数据时,数据捕获技术的应用行为是否合理合法,是一个值得深思的问题。

近年来,网络爬虫“爬行数据”成为热门词汇,相关司法案例不断出现。据不完全统计,近年来涉及网络爬虫的司法案件有十余起,既有民事案件,也有刑事案件。这种情况甚至越来越严重。

上海市人民检察院研究室副主任陈在近日于上海举行的长三角数据合规论坛(三期)暨数据爬虫法律规制研讨会上透露,检察机关正在积极推进企业合规改革试点工作,数据合规是重点之一。“目前,爬虫抓取数据的案例非常普遍。当网络平台或个人通过技术手段从其他平台抓取数据时,这种行为是否合法,谁是平台数据的主体,谁使用,值得深入探讨。”

杭州长三角大数据研究院副院长郭冰认为,数据爬虫作为一种中性技术,已经广泛应用于互联网行业。需要注意的是,如果爬虫技术应用不当,会损害其他竞争对手的合法权益,即使涉嫌违法犯罪,也会对行业的健康发展产生非常大的负面影响。

抓取数据涉嫌侵权

从技术角度来看,爬虫模拟了人类上网或通过程序浏览网页和应用的行为,使其能够高效地捕捉到互联网上爬虫制造者所需的信息。

欧莱雅中国数字化负责人刘表示,大多数网站拒绝爬虫访问。原因不仅包括商业利益,还包括自身网站的运营安全。除了爬虫可能抓取到网站而不愿意被抓取的数据外,网站运营者往往担心爬虫会干扰网站的正常运行。

但非正式爬虫会自动、持续、频繁地访问被爬方,服务器负载暴涨,也会给服务器带来“难以承受”的重量:与没有经验的网站打交道,尤其是中小型网站,可能会面临网站打不开,网页加载极其缓慢,有时甚至直接瘫痪的情况。

新浪集团诉讼总监张哲表示,无论是爬虫还是其他用途的技术都是中性的,但爬虫技术的应用并不是中性的,技术的应用有用户的目的。这个时候,我们不应该评价技术的原理,而是需要评价技术是用来做什么的,这种行为手段是否正当。

说到网络爬虫,机器人协议是一个不可回避的话题。机器人协议(也称为爬虫协议)的全称是“网络爬虫排除标准”。通过机器人协议,网站明确警告搜索引擎哪些页面可以被抓取,哪些页面不能被抓取。这个协议也被业界称为搜索领域的“君子协议”。

刘说,当一个网络爬虫访问一个网站时,机器人协议就像站在他房间门口的一块牌子,告诉外人谁能来,谁不能来。不过这只是君子协定,只能作为通知,不能作为技术防范。

实际上,恶意爬虫在抓取时并不遵守网站的robots协议,可能会抓取不该抓取的数据,这并不是孤立的情况。小红书法律总监曾翔表示,恶意爬虫案件经常发生在内容平台和电商平台。在内容上,视频、图片、文字、线上名人互动数据、用户行为等多为爬行,而在电商领域,则多为商业信息和商品信息。

“内容平台一般规定相关内容的知识产权属于发布者或发布者与平台双方。这些爬虫是用户授权的,没有签订协议,涉嫌侵犯知识产权人的权利。”曾翔说。

还是应该明确网站权利。

这涉及到数据的所有权和是否可以打开。

上海市浦东区人民法院知识产权庭法官徐红涛认为,数据是内容产业的核心竞争资源,内容平台的数据经过汇总分析处理后往往具有极高的经济价值。

“如果要求内容平台运营商无限期向竞争对手开放核心竞争资源,不仅违背‘互联互通’精神的本质,也不利于优质内容的不断变革和互联网行业的可持续发展。”徐宏伟说。

在恶意爬虫抓取数据的案例频发背后,数据的价值增加,以数据为核心的市场竞争日趋激烈。

华东政法大学教授高福平表示,在大数据时代,数据的价值再次凸显,如今爬虫技术已经从.初的网络爬虫走向底层数据的爬行。数据爬虫的问题会越来越严重。

在大数据时代的背景下,越来越多的市场主体投入巨资收集、整理、挖掘信息,业内人士对此表示担忧:如果任由网络爬虫任意使用或利用他人通过巨额投资获取的数据资源,将不利于鼓励商业投资、产业创新和诚信经营,甚至可能直接侵害数据源用户的意愿和知情权,.终损害健康的竞争机制。

高福平认为,如果网站合法积累数据资源,那么这些数据资源应该属于网站的资产。“允许数据生产者和控制者出于商业目的开放数据是有益的,更多的人可以通过许可、交换交易等方式享受数据服务。期待未来确认所有合法数据生产者的控制权和使用权。”

有序流通同样重要。

目前,虽然网站可以指定相应的策略或技术手段来防止爬虫抓取数据,但爬虫也有更多的技术手段来对抗这种反抓取策略。

刘说,防爬和爬行的技术一直在迭代。在技术领域,没有不能爬的网站和应用,只有愿意爬和爬多难的问题。

据了解,现实中,恶意网络爬虫制造者在进行防御时,往往会将机器人协议对爬行的限制与数据流联系起来。徐红涛认为,在“互联互通”背景下,“秩序”与“流通”同等重要、缺一不可,有必要消除打着“互联互通”幌子阻碍公平竞争、危害用户数据安全的行为。

“判断非搜索引擎爬虫的合法性,要考虑是否足以保证用户数据的安全。用户数据,包括身份数据、行为数据等。,既是运营商的竞争资源,又具有用户的个人隐私属性,而此类数据的收集更关乎社会公共利益。”徐宏伟说。

据了解,近年来,与数据安全相关的法律规范不断完善。数据安全法作为数据安全的基本法,承担着解决我国数据安全核心制度框架的重任。此外,还有2019年通过的密码法,工信部计划出台《工业和信息化领域数据安全管理办法(试行)》等。深圳、上海等地也在探索制定数据管理相关规范。

(——文章来源于中国新闻网,如有侵权请联系宁夏锅炉燃料的小编删除)