DM_rewrite_3.31/booway_kg_api/Wiki_csv.py

# import pandas as pd
#
# # 读取 CSV 文件
# csv_filename = "info_dify.csv"
# md_filename = "output.md"
#
# # 读取数据
# df = pd.read_csv(csv_filename)
#
# # 处理 path 列，去除前后 /
# df['path'] = df['path'].str.strip('/')
#
# # 构建树结构
# tree = {}
#
# def insert_path(tree, levels):
#     """ 递归插入路径到树形结构，确保相同层级合并 """
#     if not levels:
#         return
#     key = levels[0]
#     if key not in tree:
#         tree[key] = {}
#     insert_path(tree[key], levels[1:])
#
# # 遍历 DataFrame 的 path 列
# for path in df['path']:
#     levels = path.split('/')  # 拆分层级
#     insert_path(tree, levels)  # 插入到树结构
#
# def generate_md(tree, level=1):
#     """ 递归生成 Markdown 文本，合并相同路径 """
#     md_text = []
#     for key in sorted(tree.keys()):  # 确保有序输出
#         md_text.append(f"{'#' * level} {key}")  # 根据层级添加 `#`
#         md_text.extend(generate_md(tree[key], level + 1))  # 递归生成子项
#     return md_text
#
# # 生成 Markdown 内容
# md_content = generate_md(tree)
#
# # 保存到 Markdown 文件
# with open(md_filename, mode='w', encoding='utf-8') as md_file:
#     md_file.write("\n".join(md_content))
#
# print(f"Markdown 文件已保存为 {md_filename}")

###################################################################################################################

# import re
# import pandas as pd
#
# # 读取 CSV 文件
# input_file = 'info_data.csv'      # 原始 CSV 文件路径
# output_file = 'info_data_cleaned.csv'  # 处理后保存的 CSV 文件路径
#
# # 加载 CSV 到 DataFrame
# df = pd.read_csv(input_file, encoding='utf-8')
#
# # 检查 'title' 列是否存在
# if 'title' not in df.columns:
#     raise ValueError("CSV 文件中没有找到 'title' 列，请检查文件内容")
#
# # 定义正则表达式：匹配括号及其中的内容
# pattern = re.compile(r'[（）()].*?[（）()]')
#
# # 遍历每一行，处理 'title' 列
# def clean_title(title):
#     # 转换为 str 并删除括号内容
#     cleaned_title = re.sub(pattern, '', str(title))
#     # 去除多余空格
#     return cleaned_title.strip()
#
# # 更新 'title' 列
# df['title'] = df['title'].apply(clean_title)
#
# # 保存到新的 CSV 文件
# df.to_csv(output_file, index=False, encoding='utf-8')
#
# print(f"处理完成！已保存到：{output_file}")


##################################################################################################################

# import pandas as pd
#
# # 读取 CSV 文件
# file_path = 'info_data_cleaned.csv'  # 请替换为你的 CSV 文件路径
# df = pd.read_csv(file_path, encoding='utf-8')
#
# # 检查是否包含 'path' 列
# if 'path' not in df.columns:
#     raise ValueError("CSV 文件中未找到 'path' 列，请检查文件内容。")
#
# # 将 'path' 列按 '/' 分割，并展开为多列
# split_columns = df['path'].str.split('/', expand=True)
#
# # 重命名列名为 title1, title2, ..., titlen
# split_columns.columns = [f'title{i+1}' for i in range(split_columns.shape[1])]
#
# # 合并原 DataFrame 和新拆分的列
# df = pd.concat([df, split_columns], axis=1)
#
# # 保存结果到新 CSV 文件
# output_file = 'info_data_cleaned_split.csv'
# df.to_csv(output_file, index=False, encoding='utf-8')
#
# print(f"处理完成，结果已保存到 {output_file}")

##################################################################################################################

# import re
# import pandas as pd
#
# # 读取 CSV 文件
# input_file = 'info_data_cleaned_split.csv'      # 原始 CSV 文件路径
# output_file = 'info_data_cleaned_split2.csv'  # 处理后保存的 CSV 文件路径
#
# # 加载 CSV 到 DataFrame
# df = pd.read_csv(input_file, encoding='utf-8')
#
# # 定义正则表达式：匹配括号及其中的内容
# pattern = re.compile(r'[（）()].*?[（）()]')
#
# # 清洗函数：删除括号及其中内容，并去除多余空格
# def clean_text(text):
#     # 转换为 str 并删除括号内容
#     cleaned_text = re.sub(pattern, '', str(text))
#     # 去除多余空格
#     return cleaned_text.strip()
#
# # 从第2列开始遍历并清洗
# for col in df.columns[1:]:
#     df[col] = df[col].apply(clean_text)
#
# # 保存到新的 CSV 文件
# df.to_csv(output_file, index=False, encoding='utf-8')
#
# print(f"处理完成！已保存到：{output_file}")


#####################################################################################################################

# import pandas as pd
#
# # 加载CSV文件
# file_path = 'info_data_cleaned_split2.csv'  # 请修改为你的文件路径
# df = pd.read_csv(file_path, encoding='utf-8')
#
# # 定义新列名
# new_column = 'Previous_Row'
#
# # 初始化新列
# df[new_column] = None
#
# # 遍历每一行
# for i in range(1, len(df)):
#     # 检查每一列是否为 NaN
#     if df.iloc[i].isna().any():
#         # 将前一行的内容放入新列中
#         df.at[i, new_column] = df.iloc[i-1].to_dict()
#
# # 输出处理后的 DataFrame
# print(df)
#
# # 如果需要保存结果到新CSV
# df.to_csv('info_data_cleaned_split3.csv', index=False, encoding='utf-8')

import pandas as pd

# 读取 CSV 文件
input_file = "info_dify_mini.csv"  # 原始 CSV 文件
output_file = "info_dify_mini_2.csv"  # 过滤后的新 CSV 文件

# 读取数据
df = pd.read_csv(input_file, encoding='utf-8')

# 过滤包含'费'字的行（假设'描述类'是列名）
filtered_df = df[df['描述类'].astype(str).str.contains('费', na=False)]

# 保存到新 CSV 文件
filtered_df.to_csv(output_file, index=False, encoding='utf-8')

print(f"筛选完成，共找到 {len(filtered_df)} 行数据，并已保存到 {output_file}")