当前位置: 首页 > news >正文

Github上文本切分相关的优秀项目

Github上有几个不错的文本切分相关的优秀项目,涵盖了不同技术方向和应用场景:

  1. AntSK-FileChunk

    • 特点:基于语义理解的智能文本切片工具,支持PDF、Word、纯文本等多种格式,通过语义分析和向量计算确保切片的语义完整性和连贯性。
    • GitHub地址https://github.com/xuzeyu91/antsk-filechunk
  2. LangExtract

    • 特点:谷歌开源的文本处理库,支持长文档智能分块、并行处理和多轮提取,结合LLM实现结构化信息提取,适用于医疗、法律、科研等领域的文本处理。
    • GitHub地址https://github.com/google/langextract
  3. Chonkie

    • 特点:为RAG任务设计的轻量级文本分块库,采用Tiktoken和预计算缓存技术,性能高效,适用于大规模文本处理。
    • GitHub地址https://github.com/chonkie-inc/chonkie 
  4. Late Chunking

    • 特点:基于长上下文Embedding模型的后置分块策略,通过全局信息编码和平均池化保留上下文连贯性,适用于长文档处理。
    • GitHub地址https://github.com/jina-ai/late-chunking
  5. LangChain Text Splitters

    • 特点:LangChain框架中的文本切分工具,包括RecursiveCharacterTextSplitter等,支持基于规则、NLP库(如NLTK、Spacy)的切分,适用于结构化和非结构化文本。
    • GitHub地址https://github.com/hwch/langchain

这些项目在语义切分、性能优化、多格式支持等方面各有优势,可根据具体需求选择。

http://www.gsyq.cn/news/22629.html

相关文章:

  • 微信机器人开发
  • 关于价值原语与AI元人文构想的对话全记录
  • 【填坑】电脑用户名有中文字符,如何与github建立SSH连接
  • 日常生活中的AI应用记录-2
  • 2025秋_13
  • 斑马日记2025.10.16
  • Active Directory用户账户安全配置与漏洞防范指南
  • day013
  • RAG本地知识库是啥
  • dotnet集合类型性能优化的两个小儿科的知识点
  • ABC420 AtCoder Beginner Contest 420 游记(VP)
  • ubuntu安装和设置为图形界面或命令行界面
  • 站位1
  • ubuntu2204系统ip地址配置
  • 苹果M5芯片正式登场 一文带你了解三款新品有何升级
  • 2025/10/16 模拟赛笔记 - sb
  • 神经网络之Softmax激活函数求导过程 - 指南
  • experiment2
  • 关于卷积神经网络(CNN)的入门学习报告
  • 【记录】Ubuntu|Ubuntu服务器挂载新的硬盘的流程(开机自动挂载) - 指南
  • 10月16日日记
  • 为 .NET 10 GC(DATAS)做准备
  • LLM学习记录DAY3
  • 二进制警报器
  • 常见问题处理 --- win卡任务栏 设置无法打开 桌面重启
  • p66实验题
  • 20251016
  • 虚拟线程的pinned问题终于被jdk25完美解决了
  • P4168 [Violet] 蒲公英题解
  • VGG使用块的网络