开源日报 | 通用端到端OCR模型开源;NGINX迁移到GitHub;开源嵌入式编译器没想象中好;国产数据库100%替代走到哪了
创始人
2024-09-11 06:51:42
0

欢迎阅读 OSCHINA 编辑部出品的开源日报——您探索和理解开源世界的日常指南。在这里,我们每天从宏观到微观,全面展现开源技术和文化的动态图景。

每日一更,风雨无阻。

OpenSource Daily # 2024.9.10省流概览

-NGINX 项目迁移到 GitHub

-Apache Cassandra 5.0 正式 GA

-开源嵌入式编译器,没想象中那么好?

-通用端到端OCR模型开源,拒绝多模态大模型降维打击

-倒计时三年:国产数据库100%替代走到哪了?

-法国人工智能初创公司的“开源”之道

-AMD将推出统一UDNA GPU架构

-网安标委发布《人工智能安全治理框架(1.0版)》

-面向下一代互联网的开源底层软硬件技术平台发布

今日要闻

NGINX 项目迁移到 GitHub

NGINX 项目宣布将开源的代码仓库从 Mercurial 迁移到 Github (https://github.com/nginx/nginx)。

从现在开始,NGINX 项目将以 Pull Requests 形式接受贡献,通过 Github 问题页接受 bug 报告、功能请求和功能增强建议,将 GitHub 的讨论页面成为社区论坛。

NGINX 项目表示将给予开发者们过渡时间,在 2024 年 12 月 31 日前继续通过邮件列表接受补丁和社区支持。

Apple Intelligence 将于下月起登陆 iPhone、iPad 与 Mac

Apple 今日宣布 Apple 智能 (Apple Intelligence)将于下月起随 iOS 18.1、iPadOS 18.1 和 macOS Sequoia 15.1 发布,更多相关功能将于未来几个月内陆续推出。

「Apple 智能」发布时支持美国英语,将于 12 月拓展至澳大利亚、加拿大、新西兰、南非和英国的本土化英语。明年,「Apple 智能」将支持中文、法语、日语、西班牙语等更多语言。

Apple 还表示,中国大陆的用户需在稍后经过监管部门批准后才能使用该功能。

Apache Cassandra 5.0 正式 GA

Cassandra 5.0 标志着 Cassandra 3.x 的终结。几个亮点:

1. 存储附加索引(SAI)

2. Trie memtables 和 trie SSTables

3. JDK 17 支持

4. 统一压缩策略(UCS)

5. 向量搜索

今日观察社交观察

开源嵌入式编译器,没想象中那么好?

对嵌入式工程师来说,嵌入式编译器是不可或缺的神兵利器,它被人冠以 “C 语言翻译官” 的名号。由于 C 语言历史悠久,早期没有规范,整个计算机产业也都处于拓荒的年代,所以就涌现了很多款 C 语言编译器。

根据 EEWorld 的调研,嵌入式工程师比较青睐的嵌入式编译器主要包括 Keil(ArmCC)、IAR、GCC、AVR GCC、CLion、Clang、green hills、TI 的 CSS、ADI 的 Visual DSP++。不过,随着嵌入式开发格局逐渐稳固,Keil、IAR、GCC 成为嵌入式编译器三巨头,基本大部分嵌入式产品都有其身影。

尤其是 GCC,作为一个完全开源的编译器,很多 MCU 厂商的 IDE 都由它改写而来。但最近一段时间,业界出现不同的声音,表示 “开源才是最贵的”,这些编译器在开源背后潜藏许多隐形成本。

-电子工程世界

通用端到端 OCR 模型开源,拒绝多模态大模型降维打击

在 AI-2.0 时代,OCR 模型的研究难道到头了吗!?(OCR:一种将图像中的文字转换为可编辑和可搜索文本的技术)

Vary 作者团队开源了第一个迈向 OCR-2.0 的通用端到端模型 GOT。用实验结果向人们证明:No~No~No~

- 微博量子位

某 E 的工程师和研发使用期到 50 岁,某 H 到 35 岁

我和朋友聊过,某 E 的工程师和研发使用期到 50 岁,某 H 到 35 岁。某 H 刚开始是真不行,但现场铺人,20 多岁一周可以上五到六个夜班,出问题现场解决。后端研发住公司可以每月出一个版本。某 E 除了被活活打死,没有任何选择。

是不是民族骄傲?我觉得是。因为作为后来者,靠慢慢研发三五十年也赶不上。但如果全社会用工企业都认可甘蔗只有中间甜,抛弃两端合理合法,而且在道德上还要觉得是因为两端没有广泛进化出新的开花结果能力。那个体唯一合理的办法,就是在自己还 “甜” 的时候,996 榨取储存糖分,之后全生命周期压制消费。

没有人永远年轻,但永远有年轻人。所以积极的一面是,只要有源源不断的年轻人,不需要做出改变,也可以继续赢下去。

- 微博落魄的三叔

现在的大模型榜单,真就没一个可信的。

上周,AI 圈有个很炸裂的大模型发布,在全网引起了山呼海啸,一众从业者和媒体尊称它为开源新王。

就是 Reflection 70B。在每项基准测试上都超过了 GPT-4o,还只用 70B 的参数,就击败了 405B 的 Llama 3.1,模型中还有一个叫「Reflection-Tuning」的技术,能让模型能够在最终回复之前,先识别自己有没有错误,如果有,纠正以后再回答。

其实这个东西当时我就很存疑,因为在我的理解里,这玩意,就是个 CoT,就是个纯 Prompt,一个 Prompt 把 70B 模型直接带的螺旋升天?

你这玩意,真要是能做到,奥特曼就真的直接原地给你磕头了。。。

最关键的是,还有一个很离谱的点,这个模型就两个人做,而且,从一拍即合、到找数据集、到模型微调完成并正式发布,一共就花了 3 周。

这效率,这速度,直接卷的螺旋升天,国内大厂速度没卷到这个地步...

- 微信数字生命卡兹克

媒体观察

倒计时三年:国产数据库 100% 替代走到哪了?

上世纪 80 年代,中国数据库开始萌芽;90 年代,IBM、Oracle 垄断国内数据库市场;本世纪初,“四朵金花” 陆续成立;10 年代,互联网公司开启 “去 O” 浪潮;到了 20 年代,国产数据库已然呈现出 “百花齐放” 的态势。当前,国产数据库仍在不断追赶与超越。

据国资委 2022 年发布的文件,截止到 2027 年,“2+8+N” 党政与八大行业要实现数据库的 100% 国产替代。

如今 2024 年接近尾声,但面对国产数据库去 “IOE” 的口号和替换时间表,行业的态度却各有不同,有的企业已经在分享核心系统替换经验,也有企业依然认为替代难度太大,不敢轻易尝试……

-蓝鲸新闻

小企业大模型 —— 法国人工智能初创公司的 “开源” 之道

如果说 2023 年的人工智能(AI)叙事始于 ChatGPT 引爆网络,那么 2024 年法国科技初创企业米斯特拉尔人工智能公司(Mistral AI)则以不俗表现引人注目。

米斯特拉尔人工智能公司 2023 年 4 月诞生于巴黎,创始人是三名曾在硅谷工作的 “90 后”。首席执行官兼创始人阿瑟・门施曾是谷歌旗下 “深层思维” 公司的研究员,主要研究语言模型。另两名创始人 —— 纪尧姆・朗普勒和蒂莫泰・拉克鲁瓦此前任职于脸书母公司 “元” 的 AI 团队。三人曾是大学同窗。

-新华网

英伟达 CUDA 将受到冲击?AMD 将推出统一 UDNA GPU 架构

在德国柏林举行的 IFA 2024 上,AMD 计算和图形业务集团高级副总裁兼总经理 Jack Huynh 宣布,公司将把以消费者为中心的 RDNA 和以数据中心为中心 CDNA 架构统一为 UDNA 架构,这将为公司更有效地应对英伟达根深蒂固 CUDA 生态系统奠定基础。

在 2019 年,AMD 决定摒弃其 GCN 微架构,转而采取新的战略方向,将图形微架构一分为二:RDNA 架构专注于服务消费市场的游戏图形产品,而 CDNA 架构则专为数据中心打造,旨在满足人工智能(AI)和高性能计算(HPC)的工作负载需求。AMD 展望未来,计划将这些架构统一为 UDNA 架构,这一变革旨在为开发人员带来更加便捷的使用体验。

-芯榜

网安标委发布《人工智能安全治理框架 (1.0 版)》

9 月 9 日,全国网络安全标准化技术委员会制定的《人工智能安全治理框架(1.0 版)》对外公开发布。

人工智能安全治理原则指出,秉持共同、综合、合作、可持续的安全观,坚持发展和安全并重,以促进人工智能创新发展为第一要务,以有效防范化解人工智能安全风险为出发点和落脚点,构建各方共同参与、技管结合、分工协作的治理机制,压实相关主体安全责任,打造全过程全要素治理链条,培育安全、可靠、公平、透明的人工智能技术研发和应用生态,推动人工智能健康发展和规范应用,切实维护国家主权、安全和发展利益,保障公民、法人和其他组织的合法权益,确保人工智能技术造福于人类。

-C114通信网

面向下一代互联网的开源底层软硬件技术平台发布

昨天(9 月 9 日)举行的 2024 浦江创新论坛 Web3.0 创新论坛上,上海浦芯未来互联网技术研究院正式发布下一代互联网 Web3.0 底层开源技术平台 “ChainWeaver”,它将作为底层核心技术,支撑上海城市级区块链基础设施的建设。

该平台融合区块链、隐私计算等前沿技术,同时具备提供分层多链扩展和零信任隐私安全保障的能力,在超异构融合芯片等专用硬件的加持下,未来可满足在全球布局千万级节点,支撑每秒千万笔数据可信、安全流通,并且具备硬件级隐私安全保护能力,性能国际领先。据悉,该平台将面向政务、金融、能源、航运贸易等一批国家级重大应用场景,支撑我国超大规模数字基础设施的建设。

-文汇报

对话复旦大学教授肖仰华:这轮生成式 AI 泡沫早晚会破,天花板一定会到来

肖仰华教授认为,AI 大模型落地的本质仍然是数据工程。但当前,大模型发展过程中,其对数据的消耗和使用极为 "粗放",对数据的使用效率极为 "低下",和人类相比远远不足,同时,千亿大模型的数据可能存在极大 "水分",现在已经处于 "大模型数据耗光" 这一状态。因此,发展合成数据、私域数据、个人数据训练,可以进一步提升大模型的技术能力。

-钛媒体

今日推荐

开源项目

google/typograms

https://github.com/google/typograms/

Typograms 是一种轻量级图像格式 (text/typogram),可用于在技术文档中定义简单图表。

与 Markdown 一样,Typograms 很大程度上受到 ASCII 中预设约定的启发。它定义了一小组原语和连接它们的规则,开发者可以使用它们来构建更大的图表。

Typograms 优化了可编辑性和可移植性(例如,纯文本易于维护、更改、存储和传输),但代价是表现力(例如,SVG 更具表现力)和人体工程学(例如,更高级别的工具可以更快地生成图表)。

Typograms 由基元和连接它们的连接器组成:管道 (| - _ \ / : ~)、点箭头 (> ^ * o # v <) 和连接器 (+ . -)。通过将它们组合在一起就可以生成许多不同的图表。

开源之声

用户观点

iPhone 16 全系列配备 8GB RAM

  • 观点 1:标准版性价比最高的一次
  • 观点 2:这下没理由买 pro 了
  • 观点 3:修手机的看了都要笑醒 边赚钱边骂苹果不是人 笑着把钱赚了

程序员梗图

References

https://www.oschina.net/news/311382/nginx-moved-to-github

https://www.oschina.net/news/311300/apple-intelligence-comes-to-iphone-ipad-and-mac-next-month

https://www.oschina.net/news/311298/cassandra-5-0-ga-released

https://www.oschina.net/news/311375/byconity-1-0

https://new.qq.com/rain/a/20240910A00RFJ00?suid=&media_id=

https://t.cj.sina.com.cn/articles/view/6105753431/16bee6757019017vrw

https://weibo.com/2692486652/Ow9vIAaRF?pagetype=profilefeed

https://mp.weixin.qq.com/s/Nc9zg7g6C0RvcgYa3J4lIQ

https://3g.k.sohu.com/t/n820397800?serialId=2c5447277ef79eabeab0f9cfa6c00935

http://www.xinhuanet.com/digital/20240910/48d2292eed8c4744a6b5bcb3609a8778/c.html

https://new.qq.com/rain/a/20240910A06DWB00

https://www.c114.com.cn/ai/5339/a1272932.html

https://t.cj.sina.com.cn/articles/view/1914880192/7222c0c002001f6o0

https://app.myzaker.com/news/article.php?m=1725860603&pk=66de71ab7f780b311e000001

https://mp.weixin.qq.com/s/xsZtg0z420Noh8cIGNfgiA

最后,欢迎扫码下载「开源中国 APP」

阅读海量技术报告、程序员极客分享

相关内容

AI技术赋能职业院校思政课...
□袁宏伟 随着信息技术快速发展,信息化教学越来越成为教学改革的重要...
2025-07-19 08:42:45
泰格医药:完成开源大模型D...
证券之星消息,泰格医药(300347)07月17日在投资者关系平台...
2025-07-18 23:12:34
百度生成式AI和大模型专利...
在全球人工智能竞争进入深水区的背景下,百度以“硬核科技”姿态交出了...
2025-07-18 22:15:31
高铁项目遭“断供” 美加州...
针对美国联邦政府16日宣布将终止对加利福尼亚州高铁建设项目拨款一事...
2025-07-18 19:41:54
开源+AI,这个机器人众筹...
著名的Hugging Face,一家估值 45 亿美元的人工智能平...
2025-07-18 13:14:55
探访|AI儿科医生上岗记
人民日报记者 申少铁 王欣悦 随着AI(人工智能)快速发展,相关技...
2025-07-18 09:41:07

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...