哈佛大学、谷歌发布100万本公共领域书籍,为AI训练提供合法数据
创始人
2024-12-13 09:44:01
0

IT之家 12 月 13 日消息,据 TechCrunch 12 日报道,哈佛大学与谷歌宣布,联合发布 100 万本公共领域书籍作为 AI 训练数据集。

AI 训练所需的数据成本高昂,但却更适合资金充裕的科技公司。因此,哈佛大学计划发布一个包含约 100 万本公共领域书籍的数据集,这些书籍覆盖多种类型、语言和作者,包括已不再受版权保护的经典作家如狄更斯、但丁和莎士比亚等,因这些作品的版权已随时间过期。

图源 Pexels

虽然这个新数据集尚未公开,也不清楚具体的发布方式和时间,但它来源于谷歌的长期项目 —— 谷歌图书(Google Books)。因此,谷歌将参与这次“宝贵财富”的广泛发布。

据IT之家了解,早在今年 3 月,哈佛大学就曾透露其“机构数据计划(IDI)”,并表示这一计划旨在为 AI 提供“合法数据的可信通道”。直到正式启动后,该计划才确认得到了微软和 OpenAI 的资金支持

IDI 的执行董事格雷格・莱佩特(Greg Leppert)表示,该数据集的目标是“让竞争环境更加公平”,通过向包括研究机构和 AI 初创公司在内的各类机构开放这一庞大的数据集,以帮助他们训练大型语言模型。

相关内容

魔搭社区:坚持定位非盈利机...
7月1日,模型开源社区魔搭表示,将坚持非盈利机构的定位,立足公益性...
2025-07-01 20:40:59
龙虎榜 |雪迪龙上涨9.9...
7月1日,雪迪龙上涨9.96%登上龙虎榜,连续三个交易日内,涨幅偏...
2025-07-01 18:12:43
瞭望 | AI进高校 治理...
全天候解答疑难问题、辅助查找资料、收集文献、分析数据……“Deep...
2025-07-01 15:42:18
Meta对AI业务大洗牌 ...
Meta Platforms Inc.首席执行官马克·扎克伯格宣布...
2025-07-01 12:46:30
捷众科技:6月27日接受机...
证券之星消息,2025年6月30日捷众科技(873690)发布公告...
2025-07-01 12:43:15
骄傲!台青:过去口号是“超...
6月27日,中国国民党前主席马英九率“大九学堂”台湾青年参访敦煌光...
2025-07-01 12:43:06

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...