当前位置：首页 > 外汇资讯 > 正文内容

OpenAI新产品GPTBot：可爬取网络数据，为GPT-5做准备

激石外汇2023-08-09 12:00:20外汇资讯435

激石Pepperstone(http://www.paraat.net/)报道：

8月8日，OpenAI在官网介绍了新产品GPTBot，这是一种网络爬虫，可大规模爬取网络数据用于训练AI模型。（地址：https://platform.openai.com/docs/gptbot）

OpenAI表示，将通过GPTBot抓取海量数据，用于训练、优化未来模型。国外不少科技媒体指出，这个未来模型指的就是GPT-5。

事实上，OpenAI在今年7月18日提交了GPT-5商标的消息，此时又放出全新网络爬虫，说明GPT-5离我们越来越近了。

GPTBot介绍

GPTBot是OpenAI的网络爬虫，可以通过以下用户代理和字符串来识别，代码如下。

User agent token: GPTBot

Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

OpenAI会对抓取的数据进行过滤，例如，删除需要付费才能查看、使用的数据，搜集的个人身份信息（PII）或违反法律法规的数据等，以保证抓取的数据符合安全标准。

如果用户的网站不想被GPTBot抓取数据，可以将GPTBot添加到站点的robots.txt中，代码如下：

User-agent: GPTBot

Disallow: /

用户也可以自定义GPTBot的访问权限，将其添加到网站的robots.txt中，代码如下：

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

什么是网络爬虫

网络爬虫，是一种主要通过浏览网络抓取数据的工具，方式包括数据挖掘，网页数据复制/拍照、网站镜像等方式。

网络爬虫是互联网和大数据时代最重要工具之一，被誉为“黄金矿工”应用场景非常广泛。

例如，谷歌、百度等搜索引擎通过网络爬虫来收集和建立网页索引，方便用户可以通过关键字快速找到相关的网页。

也有商业机构使用网络爬虫实时收集竞争对手的信息，如产品价格、新产品发布、营销活动等，以进行市场分析和营销策略制定。

网络爬虫的缺点

虽然网络爬虫功能强大，但也存在数据质量不稳定、版权风险、难以爬取特定内容、爬取频率等缺点。

数据质量不稳定：网络爬虫抓取的数据可能包含大量非法、虚假或质量低下的数据，例如，爬取了一个非法网站的数据。因此，想使用爬虫的数据需要进行清洗和处理。

版权风险：网络爬虫可能会侵犯数据隐私和版权，违反网站的使用协议带来法律风险。例如，非法爬取了目标网站的付费内容。

难以爬取特定内容：对于一些需要用户输入或交互才能获取的内容，例如，网站搜索结果、验证码、登录后才能查看的内容等，网络爬虫可能难以抓取。

爬取频率：网络爬虫抓取的数据是静态的，不能实时反映网页的变化需要定期重新抓取。但频率过高会对目标网站的服务器造成巨大压力影响其正常服务，频率太低数据更新又不及时，需要制定一个合理的频率。

如今在大模型等AI技术加持下，上述常见的网络爬虫缺点已得到克服，并且更注重数据版权、安全等问题。

网络爬虫抓取的数据，是训练大语言模型的重要来源

目前，训练大语言模型的主要数据来源包括自有数据集、开源数据集和网络爬虫等。自有数据集主要应用在特定业务场景的微调，例如，法律领域的使用真实的法律裁决、书籍、法律合同等数据，训练专用于法律的生成式AI产品。

开源数据集，这种数据是很多大型厂商开源的数据有的可用于商业化，有的只能用于技术研究，并且数据可能存在老旧的情况。所以，网络爬虫成为企业训练通用大模型的重要数据来源。

例如，OpenAI的GPT-3模型使用了45TB的互联网文本进行训练，包括代码、小说、百科、新闻、博客等，而这些数据来源多数是通过网络爬虫获取。

所以，我们有时候会看到ChatGPT会生成虚假的信息，就是因为在爬取时本身就抓取了错误、虚假的信息，在清洗、预训练、微调的过程中又没发现，才会出现这样的情况（有时也存在AI算法问题等）。

不过OpenAI已经制定了严格的数据获取、使用标准，避免这种情况发生。

扫描二维码推送至手机访问。

本文链接：http://www.paraat.net/news/2008.html

标签: OpenAI

分享给朋友：

返回列表

上一篇：欣捷高新IPO迎考行业反腐风暴：九成销售费投向“学术推广”

下一篇：英伟达的野心：“AI原生”彻底颠覆数据中心

“OpenAI新产品GPTBot：可爬取网络数据，为GPT-5做准备” 的相关文章

港股大幅反弹汽车股集体飙升理想汽车大涨超7%

激石Pepperstone(http://www.paraat.net/)报道：6月23日周四，港股反弹高开，恒指开涨0.71%，恒生科技指数开涨1.23%。开盘不久，恒生科技指数的涨幅迅速扩大至超2%，随后涨幅又回落至1%左右，恒指的涨幅也较开盘小幅收窄。盘面上，房地产板块领涨，时代中国控股...

激石Pepperstone：对于海外股市，“坏经济”是“利好”了？

激石Pepperstone(http://www.paraat.net/)报道：“（经济）坏消息就是（股市）好消息，”金融危机后的几年里流行的这一说法再度盛行起来。过去一个月的大部分时间里，分析师们一直在重复这句话：咨询公司Evelyn Partners分析师Ben Seager Scott：...

大幅回升！中国6月财新服务业PMI 54.5 创11个月新高

激石Pepperstone(http://www.paraat.net/)报道：随着国内疫情好转，防疫措施放宽，6月份中国服务业经营活动激增，行业景气度大幅升至扩张区间。 7月5日公布的数据显示，中国6月财新服务业PMI从5月份的41.4大幅回升至54.5，结束了连续三个月的收缩状态，并升至2021...

德国果然不满！央行行长公开质疑欧央行决策：凭什么确定各国息差“公允值”？

激石Pepperstone(http://www.paraat.net/)报道：欧洲央行此前承诺将购买更多债务负担沉重国家的债券，以应对这些国家与德国之间的利差扩大的问题，德国果然对此表示不满。周一，欧洲央行管委兼德国央行行长Joachim Nagel警告称，要决定欧元区国家之间借贷成本的差异是否...

港股强势V型反弹！酒店餐饮板块领涨，海伦司、海底捞等多股集体翻红

激石Pepperstone(http://www.paraat.net/)报道：7月7日周四，港股小幅低开，恒指开跌1.08%，恒生科技指数开跌1.68%。开盘不久，恒生科技指数的跌幅迅速扩大至超3%，恒指跌近2%。随后，恒指和恒生科技指数双双强势拉升，走出V型曲线，跌幅收窄至1%左右。盘...

激石Pepperstone：衰退要来了，消费者：不是已经开始了么？

激石Pepperstone(http://www.paraat.net/)报道：对许多家庭和企业来说，华尔街反复警告的所谓“经济衰退”早就已经到来。根据 CivicScience 上个月的一项民意调查，超过三分之一的美国人认为经济现在已经处于衰退之中。 “时代的一粒沙，普通人身上的一座大山” 小型...

OpenAI新产品GPTBot：可爬取网络数据，为GPT-5做准备

“OpenAI新产品GPTBot：可爬取网络数据，为GPT-5做准备” 的相关文章

港股大幅反弹 汽车股集体飙升 理想汽车大涨超7%

激石Pepperstone：对于海外股市，“坏经济”是“利好”了？

大幅回升！中国6月财新服务业PMI 54.5 创11个月新高

德国果然不满！央行行长公开质疑欧央行决策：凭什么确定各国息差“公允值”？

港股强势V型反弹！酒店餐饮板块领涨，海伦司、海底捞等多股集体翻红

激石Pepperstone：衰退要来了，消费者：不是已经开始了么？

Copyright © 2017-2022 激石Pepperstone

港股大幅反弹汽车股集体飙升理想汽车大涨超7%