ProgramLanguageJavaApache Tika 工具包Apache Tika 工具包 可检测并提取一千多种不同文件类型(如 PPT、XLS 和 PDF)中的元数据和文本。 https://github.com/apache/tika