AI绘图新秀FLUX爆火,Figure 02人形机器人正式发布,一张照片实现实时直播换脸,这就是这周的AI大新闻!
创始人
2024-08-11 21:13:16
0

8.05~8.11,又是刺激的一周。

这周的AI大事件,就都在这里啦。

1.FLUX的周边生态发展迅速

链接:https://x.com/javilop/status/1821814987737735344

前段时间由于SD3的问题,开源的图片生态发展一度停滞,值得关注的新项目和模型几乎没有。

FLUX上周发布后这个态势被快速改变了,由于其优秀的图片质量,高昂的训练成本并没有阻止开源社区。

而且由于在其偏向真实的美学调教风格,也使生成的发布会写实图片在推上的热度爆发使得FLUX模型快速出圈。再加上Runway把那张AI生成的照片变成视频让更多人对现在图像和视频模型的发展进度有了更多的了解。

目前Xlabs已经发布了基于FLUX的Controlnet模型和Lora模型的训练脚本。

https://github.com/XLabs-AI/x-flux

他们还顺便发布了一个FLUX的Canny Controlnet模型,另外这里还有Instant ID作者的新组织InstantX训练的一个Canny模型也可以试试。

https://huggingface.co/InstantX/FLUX.1-dev-Controlnet-Canny-alpha

Xlabs 也跟Lora训练脚本一起发布了他们的多个Lora,其中这个火遍推特的图片就是用那个写实Lora做的。

https://huggingface.co/XLabs-AI/flux-RealismLora

具体的Lora包括mjv6_lora、动漫Lora、写实Lora、迪士尼Lora、风景_lora、艺术 Lora。

Xlabs Lora 下载:https://huggingface.co/XLabs-Al/flux-RealismLora

另外社区也开始利用这些训练脚本训练 Lora了,比如这个动漫 Lora。

https://civitai.com/models/633553?modelVersionId=710421

SD模型训练工具simpletuner支持了FLUX Lora的训练,如果你想要训练FLUX Lora 模型的话可以用这个。

https://github.com/bghira/SimpleTuner/blob/main/documentation/DEEPSPEED.md

一个全面的FLUX的Comfyui工作流,支持FLUX Lora、ControlNet的加载,支持文生图、图生图。

https://github.com/Ling-APE/ComfyUI-All-in-One-FluxDev-Workflow

2.Figure发布 Figure 02人形机器人

链接:https://x.com/Figure_robot/status/1820791819023909031

Figure上周发布了Figure 02人形机器人,他们说这是世界上最先进的Al硬件。2023年2月他们就完成了Figure 02的概念设计,用了18个月才将这个机器人变成实体。

  • 语音到语音:能够通过内置麦克风和扬声器连接自定义AI模型与人类对话。

  • 摄像头:AI驱动的视觉系统由6个内置RGB摄像头组成。

  • 手部:第四代手具有16个自由度并具有人类等同的力量。

  • 内置大语言模型(VLM):使机器人摄像头能够快速进行常识性视觉推理。

  • 电池:机器人躯干内的2.25千瓦时定制电池组提供超过50%的能量。

  • CPU/GPU:提供比上一代多3倍的计算和AI推理能力。

3.Deep Live Cam:单图实现实时直播换脸

链接:https://github.com/hacksider/Deep-Live-Cam

前几天引起人们对AI写实能力警惕的另一个项目,只需要一张图片就可以实现实时的直播换脸。

从演示来看角度大的话还是会穿帮,另外换脸的清晰度和原来视频的清晰度差别比较大,不过这玩意确实很危险,简单的可以用来顶替面试,严重点用来诈骗。

这里有演示视频:

https://x.com/MatthewBerman/status/1821949143918489794

使用方式的话先选择一个脸部,然后点击直播,等待十几秒钟,直播会跟真实的视频有十几秒到30秒的延迟,取决于硬件水平。

其他动态 ✦

1.阿里发布通义发布支持语音输入的模型Qwen2-Audio,该模型能够分析音频信息,包括语音、声音、音乐等,并配有文本说明。

https://qwenlm.github.io/blog/qwen2-audio/

2.阿里推出Qwen2-Math系列的LLM,专注于提高解决数学问题的能力。模型包括Qwen2-Math-Instruct-1.5B/7B/72B,其中72B在数学测试中超过了GPT-4o和Claude 3.5。

https://qwenlm.github.io/blog/qwen2-math/

3.谷歌的Gemini 1.5 Flash也降价了。输入成本下降了78%,输出成本下降了71%。1.5Flash现在所有人都可以微调。

https://developers.googleblog.com/en/gemini-15-flash-updates-google-ai-studio-gemini-api/

4.Mistral发布了La Plateforme。支持用自己的数据对已有的Mistral模型进行微调。另外还有Agents平台,支持对模型进行详细调整构建Agents。

https://mistral.ai/news/build-tweak-repeat/

5.Comfyui上周主要更新内容有提供Hunyuan DiT和FLUX的支持,第四个稳定版本发布,新的Type前端将推出,引入更强大的核心执行引擎,允许实现for循环等高级功能。

https://blog.comfy.org/august-2024-flux-support-new-frontend-for-loops-and-more/

6.GPT-40 0806模型推出,输入Token便宜50%,输出Token便宜33%。还支持了结构化输出,另外支持16K的输出长度。

https://x.com/OpenAIDevs/status/1820987573793386527

7.Groq宣布获得6.4亿美元的D轮融资,目前估值为28亿美元。此轮融资由BlackRock Private Equity Partners管理的基金和账户领投。

https://wow.groq.com/news_press/groq-raises-640m-to-meet-soaring-demand-for-fast-ai-inference/

8.Cursor Al 宣布获从a16z、Thrive等公司获得了6,000万美元的A轮融资,估值达到4亿美元。

https://techcrunch.com/2024/08/09/anysphere-a-github-copilot-rival-has-raised-60m-series-a-at-400m-valuation-from-a16z-thrive-sources-say

9.John Schulman是OpenAl的联合创始人之一,他已经离开该公司加入了竞争对手AI初创公司Anthropic。Greg Brockman也在推上宣布自己开始休假。据The Information报道,ChatGPT的产品负责人Peter Deng也即将离职。

https://x.com/johnschulman2/status/1820610863499509855

https://x.com/gdb/status/1820644694264791459

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:歸藏

>/ 投稿或爆料,请联系邮箱:wzglyay@gmail.com

相关内容

城市词元工厂落地 焕新AI...
(图片来源:摄图网) (记者 杜峰)近日,在四川自贡举行的“202...
2026-06-23 19:15:39
技嘉COMPUTEX 20...
技嘉在COMPUTEX 2026展会上这次选择了一种不同于以往的表...
2026-06-23 19:13:06
AI大模型进入“开源+高效...
中国能否依靠开源,走出一条不同于美国科技巨头依赖海量算力、资本与能...
2026-06-23 19:08:14
AI陪伴“火”了,靠谱吗?
【解码数智+⑨·记者观察】 过去一年,大学生王诗航陆续购入6款AI...
2026-06-23 10:52:31
华为AI通信专利获授权:设...
【CNMO科技消息】随着人工智能技术加速向终端设备普及,如何让不同...
2026-06-22 20:32:22
刚刚,百度开源拿下全球第一...
新智元报道 【新智元导读】百度开源Unlimited OCR!3...
2026-06-22 20:30:12

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...
谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息,谷歌于 8 月 27 日发布博文,宣布旗下 Gemini AI 支持...
青云QingCloud Kub... 日前,青云科技宣布开源 Thanos 的企业级发行版 Whizard,为企业带来真正高可用、可扩展、...
Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大 的mac卸载工具,以帮助您完全卸载...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...