微软开源新工具 MarkItDown,Office 文件轻松转换为Markdown格式
创始人
2024-12-17 18:29:15
0

IT之家 12 月 17 日消息,微软在 GitHub 上发布了名为 MarkItDown 的开源 Python 库,可以将 Office 文档在内的多种文件格式,转换为 Markdown 格式。

用户通过该工具转换后,有助于文本索引、分析等多种应用场景,并支持开发者利用大型语言模型进行图像描述。

IT之家附上 MarkItDown 库当前支持的文件格式如下:

  • PDF (.pdf)

  • PowerPoint (.pptx)

  • Word (.docx)

  • Excel (.xlsx)

  • Images (EXIF metadata, and OCR)

  • Audio (EXIF metadata, and speech tranion)

  • HTML (special handling of Wikipedia, etc.)

  • 其它各种文本格式 (csv, json, xml, etc.)

开发人员还可以配置 MarkItDown 库,使用大型语言模型来描述图像,需要将 mlm_client 和 mlm_model 参数设置为 MarkItDown 对象,如下所示:

from markitdown import MarkItDownfrom openai import OpenAIclient = OpenAImd = MarkItDown(mlm_client=client, mlm_model="gpt-4o")result = md.convert("example.jpg")print(result.text_content)

由于 MarkItDown 库在 MIT 开源许可下可用,因此开发人员可以自由使用、修改和分发它,唯一的要求是他们在分发时包含原始许可证和版权声明。

相关内容

中兴通讯:公司积极拥抱开源...
金融界5月9日消息,有投资者在互动平台向中兴通讯提问:您好,请问公...
2025-05-09 18:19:43
Meta 开源 Llama...
IT之家 5 月 9 日消息,Meta AI 公司最新推出 Lla...
2025-05-09 14:47:29
美国四大AI高管国会作证:...
奥特曼、苏姿丰、史密斯等四位AI高管 北京时间5月9日,据路透社报...
2025-05-09 14:19:22
腾讯混元视频生成工具全新开...
上证报中国证券网讯 据腾讯混元5月9日消息,全新多模态定制化视频生...
2025-05-09 14:18:52
MCP,AI时代的“书同文...
21世纪经济报道记者 赵云帆 报道 AI智能体2025年的第二把火...
2025-05-08 21:46:06
特朗普政府计划取消拜登时代...
美国商务部发言人近日表示,特朗普总统有意取消前任政府对先进人工智能...
2025-05-08 09:18:22

热门资讯

原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
支持 AI 扩图,华为 Pur... 2024-07-28 09:05:02作者:姚立伟 华为Pura 70 Pro手机今日推出鸿蒙Ha...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
吞噬星空维妮娜美图/高清壁纸/... 国漫女神|《吞噬星空》维妮娜美图/高清壁纸/AI手机壁纸/无水印 国漫女神|《吞噬星空》维妮娜美图...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 商... 最近,各家的AI 9笔记本开始陆续登场,其实大家并不一定非选AI 9 HX 370,主要是这颗CPU...
AI智能+高效清洁!萤石RS2... 目前扫拖机器人市场的竞争非常激烈,在上下水扫拖一体机市场也出现了很多所谓的创新产品。但是对于这些产品...