3.31 上传 dm rewrite

This commit is contained in:
Zdao032
2025-03-31 15:17:47 +08:00
commit b444310280
430 changed files with 39039 additions and 0 deletions
+164
View File
@@ -0,0 +1,164 @@
# import pandas as pd
# import chardet
#
# # 检测文件编码的函数
# def detect_encoding(file_path):
# with open(file_path, 'rb') as f:
# result = chardet.detect(f.read())
# return result['encoding']
#
# # Step 1: 读取 A.csv 并提取 input 列
# A_encoding = detect_encoding('D:/工作簿3.csv')
# A_df = pd.read_csv('D:/工作簿3.csv', encoding=A_encoding)
# list1 = A_df['input'].tolist()
#
# # Step 2: 读取 B.csv,基于 list1 中的内容查找匹配项
# B_encoding = detect_encoding('D:/工作簿2.csv')
# B_df = pd.read_csv('D:/工作簿2.csv', encoding=B_encoding)
#
# # 创建 list2 存储匹配到的 answer 列内容
# list2 = []
#
# # 遍历 list1,查找 B.csv 中的匹配项
# for item in list1:
# match = B_df[B_df['query'] == item]
# if not match.empty:
# # 如果有匹配项,取第一个匹配的 answer 值
# list2.append(match['answer'].values[0])
# else:
# # 如果没有匹配项,填充为 NaN 或其他默认值
# list2.append(None)
#
# # Step 3: 将 list2 添加到 A.csv 的 output 列
# A_df['output'] = list2
#
# # 保存修改后的 A.csv 文件
# A_df.to_csv('D:/A_updated2.csv', index=False, encoding='utf-8') # 保存时也指定编码,确保兼容性
#
# print("A.csv 已成功更新为 A_updated.csv")
import pandas as pd
import re
# 读取CSV文件
# df = pd.read_csv('D:/2.10.15.11.csv', encoding='utf-8')
#
# # 提取'点彩原因'列内容到list
# dian_cai_list = df['点彩原因'].tolist()
#
# # 初始化'点彩原因2'列
# df['点彩原因2'] = ''
#
# # 遍历列表,查找并提取"回答错误"或"回答正确"之后的内容,并修改原列
# for idx, content in enumerate(dian_cai_list):
# if isinstance(content, str): # 确保内容是字符串
# match = re.match(r'(回答错误|回答正确|回答不出)[,]?\s*(.*)', content)
# if match:
# # 提取关键词(回答错误或回答正确)
# keyword = match.group(1)
# # 提取关键词后的内容
# extracted_content = match.group(2).strip()
#
# # 更新'点彩原因2'列
# df.at[idx, '点彩原因2'] = extracted_content
# # 修改'点彩原因'列,只保留关键词
# df.at[idx, '点彩原因'] = keyword
#
# # 保存更新后的CSV文件
# df.to_csv('D:/updated_file3.csv', index=False, encoding='utf-8')
# import requests
#
# url = "http://10.1.16.39:2333/intent_recognition"
# data = {
# "query": "BDY3是什么软件做的工程"
# }
#
# response = requests.post(url, json=data)
# print(response.json())
# import wikipedia
#
#
# def get_wikipedia_summary(term, lang="zh", sentences=2):
# """
# 使用 Wikipedia API 获取输入名词的解释或描述。
#
# 参数:
# - term: 需要查询的名词(字符串)
# - lang: 语言(默认 "zh" 为中文)
# - sentences: 返回的句子数量(默认 2 句)
#
# 返回:
# - Wikipedia 解释(字符串)
# """
# try:
# wikipedia.set_lang(lang) # 设置语言
# summary = wikipedia.summary(term, sentences=sentences)
# return summary
# except wikipedia.exceptions.DisambiguationError as e:
# return f"查询词 '{term}' 可能指多个内容:{', '.join(e.options[:5])}..."
# except wikipedia.exceptions.PageError:
# return f"未找到 '{term}' 的相关 Wikipedia 页面。"
# except Exception as e:
# return f"发生错误:{e}"
#
#
# # 测试示例
# print(get_wikipedia_summary("人工智能")) # 获取 "人工智能" 的解释
# import wikipedia
#
# def get_wikipedia_summary(term, lang="zh"):
# """
# 查询 Wikipedia API 获取名词的摘要信息。
#
# :param term: 要查询的名词
# :param lang: 语言(默认中文 'zh'
# :return: 该名词的 Wikipedia 摘要信息
# """
# try:
# wikipedia.set_lang(lang) # 设置语言
# summary = wikipedia.summary(term, sentences=3) # 获取前3句话摘要
# return summary
# except wikipedia.exceptions.DisambiguationError as e:
# return f"查询 '{term}' 有多个可能的结果,请更具体:\n{e.options[:5]}"
# except wikipedia.exceptions.PageError:
# return f"未找到 '{term}' 的 Wikipedia 词条。"
# except Exception as e:
# return f"查询失败,错误信息: {e}"
#
# import zhconv
#
# # 示例调用
# term = "历史版本"
# result = get_wikipedia_summary(term)
# traditional_text = zhconv.convert(result, 'zh-cn')
# print(traditional_text)
# # print(result)
import pandas as pd
# 读取 CSV 文件
file_path = "D:/测试集3.3.csv" # 请替换为你的文件路径
df = pd.read_csv(file_path, encoding='utf-8')
# 确保 'query' 列存在
if 'query' in df.columns:
# 筛选包含 '西藏' 的行
filtered_df = df[df['query'].str.contains('西藏', na=False)]
# 保存到新的 CSV 文件
output_path = "D:/测试集_西藏.csv"
filtered_df.to_csv(output_path, index=False, encoding='utf-8')
print(f"筛选后的数据已保存到 {output_path}")
else:
print("CSV 文件中没有 'query' 列,请检查文件格式!")