当前位置:首页 > 外汇资讯 > 正文内容

OpenAI新产品GPTBot:可爬取网络数据,为GPT-5做准备

激石外汇2023-08-09 12:00:20外汇资讯318

激石Pepperstone(http://www.paraat.net/)报道:

8月8日,OpenAI在官网介绍了新产品GPTBot,这是一种网络爬虫,可大规模爬取网络数据用于训练AI模型。(地址:https://platform.openai.com/docs/gptbot)

OpenAI表示,将通过GPTBot抓取海量数据,用于训练、优化未来模型。国外不少科技媒体指出,这个未来模型指的就是GPT-5。

事实上,OpenAI在今年7月18日提交了GPT-5商标的消息,此时又放出全新网络爬虫, 说明GPT-5离我们越来越近了。

GPTBot介绍

GPTBot是OpenAI的网络爬虫,可以通过以下用户代理和字符串来识别,代码如下。

User agent token: GPTBot

Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

OpenAI会对抓取的数据进行过滤,例如,删除需要付费才能查看、使用的数据,搜集的个人身份信息(PII)或违反法律法规的数据等,以保证抓取的数据符合安全标准。

如果用户的网站不想被GPTBot抓取数据,可以将GPTBot添加到站点的robots.txt中,代码如下:

User-agent: GPTBot

Disallow: /

用户也可以自定义GPTBot的访问权限,将其添加到网站的robots.txt中,代码如下:

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

什么是网络爬虫

网络爬虫,是一种主要通过浏览网络抓取数据的工具,方式包括数据挖掘,网页数据复制/拍照、网站镜像等方式。

网络爬虫是互联网和大数据时代最重要工具之一,被誉为“黄金矿工”应用场景非常广泛。

例如,谷歌、百度等搜索引擎通过网络爬虫来收集和建立网页索引,方便用户可以通过关键字快速找到相关的网页

也有商业机构使用网络爬虫实时收集竞争对手的信息,如产品价格、新产品发布、营销活动等,以进行市场分析和营销策略制定。

网络爬虫的缺点

虽然网络爬虫功能强大,但也存在数据质量不稳定、版权风险、难以爬取特定内容、爬取频率等缺点。

数据质量不稳定:网络爬虫抓取的数据可能包含大量非法、虚假或质量低下的数据,例如,爬取了一个非法网站的数据。因此,想使用爬虫的数据需要进行清洗和处理。

版权风险:网络爬虫可能会侵犯数据隐私和版权,违反网站的使用协议带来法律风险。例如,非法爬取了目标网站的付费内容。

难以爬取特定内容:对于一些需要用户输入或交互才能获取的内容,例如,网站搜索结果、验证码、登录后才能查看的内容等,网络爬虫可能难以抓取。

爬取频率:网络爬虫抓取的数据是静态的,不能实时反映网页的变化需要定期重新抓取。但频率过高会对目标网站的服务器造成巨大压力影响其正常服务,频率太低数据更新又不及时,需要制定一个合理的频率。

如今在大模型等AI技术加持下,上述常见的网络爬虫缺点已得到克服,并且更注重数据版权、安全等问题。

网络爬虫抓取的数据,是训练大语言模型的重要来源

目前,训练大语言模型的主要数据来源包括自有数据集、开源数据集和网络爬虫等。自有数据集主要应用在特定业务场景的微调,例如,法律领域的使用真实的法律裁决、书籍、法律合同等数据,训练专用于法律的生成式AI产品。

开源数据集,这种数据是很多大型厂商开源的数据有的可用于商业化,有的只能用于技术研究,并且数据可能存在老旧的情况。所以,网络爬虫成为企业训练通用大模型的重要数据来源。

例如,OpenAI的GPT-3模型使用了45TB的互联网文本进行训练,包括代码、小说、百科、新闻、博客等,而这些数据来源多数是通过网络爬虫获取。

所以,我们有时候会看到ChatGPT会生成虚假的信息,就是因为在爬取时本身就抓取了错误、虚假的信息,在清洗、预训练、微调的过程中又没发现,才会出现这样的情况(有时也存在AI算法问题等)。

不过OpenAI已经制定了严格的数据获取、使用标准,避免这种情况发生。         

扫描二维码推送至手机访问。

版权声明:本文由激石Pepperstone发布,如需转载请注明出处。

本文链接:http://www.paraat.net/news/2008.html

标签: OpenAI
分享给朋友:

“OpenAI新产品GPTBot:可爬取网络数据,为GPT-5做准备” 的相关文章

如果历史可以参考,标普500还能再跌24%

激石Pepperstone(http://www.paraat.net/)报道:以史为鉴,美股的熊市征途可能才刚刚开始,更惨烈的下跌还在后面。 法国兴业银行估计,标普500未来六个月可能需要较1月份的峰值下跌34%-40%至2900-3150点,才能够触底。这意味着较当前水平进一步下跌17%-24%...

美国房租涨幅惊人:迈阿密同比暴涨41%

美国房租涨幅惊人:迈阿密同比暴涨41%

激石Pepperstone(http://www.paraat.net/)报道:“住房难”恐成为继油价之后美国人的另一个苦恼,在按揭贷款利率追随美国政策利率一路走高之际,高昂的购房成本把许多美国人拒之门外,而“天价”租房市场更是让一部分美国人望而却步,这个既买不起房也租不起房的窘境该如何破? 买不起...

最悲观的万科也“翻多”了,房地产龙头刚刚集体大涨

最悲观的万科也“翻多”了,房地产龙头刚刚集体大涨

激石Pepperstone(http://www.paraat.net/)报道:6月29日,房地产板块早盘逆势走强,信达地产、滨江集团等涨停,金地集团涨8%,万科A涨一度涨超7%。 消息面上,万科董事会主席郁亮在28日的股东大会上表示,从短期来看,地产市场已经触底,但是恢复是个缓慢温和的过程。 其...

三大央行行长“盖棺定论”:“低通胀时代”结束了!“低利率”纪元告终

激石Pepperstone(http://www.paraat.net/)报道:6月29日周三,欧美三大央行行长罕见齐聚一堂,传递出一个关键的信息是:世界正转向一种更高的通胀机制,过去二十年的低利率策略将不再适用。 “低通胀时代”结束 目前,美国、英国和欧元区的通胀率远高于目标水平,央行行长们认为,...

港股拉升 恒生科技涨超2% 互联网医疗股普涨 阿里健康飙升近7%

港股拉升 恒生科技涨超2% 互联网医疗股普涨 阿里健康飙升近7%

激石Pepperstone(http://www.paraat.net/)报道:7月5日,港股高开,恒指开涨1.02%,恒生科技指数涨1.54%。 随后,恒生科技指数的涨幅迅速扩大至超2%。 互联网医疗股普涨,阿里健康涨近7%,平安好医生、京东健康涨超3%。 科技股集体拉升,快手、阿里、商汤涨超...

开发商2.5万/平拿地,现在卖房最低1.3万/平!这个一线城市惊现“万元房”

开发商2.5万/平拿地,现在卖房最低1.3万/平!这个一线城市惊现“万元房”

激石Pepperstone(http://www.paraat.net/)报道:“面包”价格比“面粉”价格便宜,这次竟然出现在一线城市。 7月4日,《每日经济新闻》记者注意到,广州增城的法拍地王项目创基天璟,最低售价甚至达到了1.3万元/平方米。 该项目的背景是,2017年创基地产通过司法竞拍,以总...