Kensho 提取

全自动、可扩展的人工智能 (AI) PDF 格式文件提取工具。支持文本("PDF-到-TXT")和表格("PDF-到-CSV")的内容提取。

Service Provider Information

Kensho 堪称标普全球的人工智能加速器,负责开发能够帮助企业转型的先进技术。Kensho 的工程设计精英利用机器学习领域的最新进展以及具有极高广度和深度的标普全球数据,为决策者创建可付诸实施的新洞见和解决方案。

Kensho Extract 是一种先进的机器学习解决方案,可对文档进行结构化处理,并快速可靠地大规模采掘表格、正文和数字。凭借其文档布局分析和表格采掘功能,Kensho Extract 可以准确地组织文档的页眉、标题、段落、表格和页脚,因此用户可以在数秒内处理和采掘数百页文档中的值。通过使非结构化 PDF 具有机器可读性,该解决方案使商业和财务专业人员更容易在下游应用程序中使用这些文档。

利用 Extract,您可以

  • 将 Extract 作为 PDF 解析器来实施,以增强下游 GenAI 用例的 R.A.G 管线
  • 解读杂乱的页面布局,将文本结构化为具有内聚力的段落,然后对其进行有效的分析和搜索
  • 利用简单易用的文档采掘工具(包括可通过浏览器访问的用户界面)增强您的人力

Release Notes

<p style="margin-left:0in;"><span style="color: black;background-color: white;font-size: 11pt;font-family: Akkurat Pro;">Kensho Extract now offers a containerized version to support on-premises workflows.</span></p>

Read more

Use Cases

  • GenAI: Kensho 和 S&P Global 继续合作开展多项 GenAI 计划,将 Kensho Extract 纳入文档预处理和标准化工作。例如,Kensho Extract 在市场情报 ChatIQ 和能源 ChatAI 等应用中发挥了关键作用。
  • 文本数据集:Kensho Extract 为 S&P Global 的机器可读经纪商研究数据集提供支持,处理数百万份经纪商报告,并对这些文档中的正文进行结构化处理。文档结构化后,数据集将通过文本数据源交付给客户,从而实现下游自然语言处理(NLP)工作流,包括情绪分析和名称实体识别。
  • 大规模导出表格信息:查找并识别静态 PDF 文档中的任何表格,并将其导出为 JSON、Excel 或 CSV 等用户友好格式。

Benefits

  • 表格式采掘模型的灵活性:与其他更依赖于 "硬编码 "规则逻辑的特定用途表格采掘工具不同,Kensho Extract 的机器学习 (ML) 模型可在更广泛的文档表格类型中实现高性能
  • An以业界领先的处理时间快速准确地分析文档
  • Extracts rich, machine-readable insights for AI processing, analysis, and productivity enhancement
  • 为内部工作流程发行容器化版本

Documentation

Useful Links