转换HTML表格
2024年11月26日小于 1 分钟
您可能需要安装一些额外依赖以使用:
pip install --upgrade "pdfdeal[tools]"
html_table_to_md
需要0.4.10+版本
此函数会查找并转换给定字符串中的HTML表格为Markdown表格。
注意
请注意,由于Markdown表格并不支持合并单元格,因此在有合并单元格(尤其是纵向的合并单元格)时可能会出现数据错位的现象。
from pdfdeal.file_tools import html_table_to_md
with open("Output/1706.03762v7.md", "r") as f:
html = f.read()
md = html_table_to_md(html)
with open("Output/new.md", "w") as f:
f.write(md)