第1题 数据清洗 1(24分)

在一起涉烟案件中,警方发现嫌疑团伙成员通过微信进行资金转移,随后调取了相关嫌疑人的微信数据。在分析之前,首先需要对该嫌疑人的数据进行清洗,以便后续我们对其进行分析。

请对本题数据进行数据清洗,清洗后样例数据如下图(仅显示5行数据)。

清洗要求有以下五点:

(1)请在数据清洗1-微信流水.xlsx文件中,将交易金额列值等于0或者为空白的数据进行删除。

选择0和空白之后删除列

(2)请在数据清洗1-微信流水.xlsx文件中,将借贷类型列中出现的“转出”、“转入”或者“借”、“贷”,全部替换为“出”、“进”。

用类似的替换其他三个

可以保存对应的清晰规则

(3)请在数据清洗1-微信流水.xlsx文件中,将用户名称列中出现的“用户ID:XXXX;用户名称:XXX”删除,仅保留姓名。(提示:将“用户ID:1234;用户名称:张三”修改为“张三”)

观察数据,只用删除两种的前缀即可:

(4)请在数据清洗1-微信流水.xlsx文件中,当对手方ID列为“-”时,请从备注2中提取正确的对手方ID将“-”替换。(提示:当对手方ID列为“-”且备注2为“对手方ID为1234”时,将“-”替换为“1234”。)


自定义模板之后导出excel

(5)请在数据清洗1-微信流水.xlsx文件中,针对数据中的微信号:Aasjylsjy9480和Bsyboy2252,分别将用户ID列等于对手方ID列的数据进行删除。

wps选择两列相等之后删除即可保存上交。

第2题 数据清洗 2(26分)

在一起诈骗案件当中,警方调取了几个主要涉案人员的资金流水数据,在分析之前,我们应当对这些数据进行数据清洗使其符合标准规范,便于后面进行数据分析。

请对本题数据进行数据清洗,清洗后样例数据如下图(仅显示5行数据)。

清洗要求有以下五点:

(1)请在数据清洗2-银行流水1.xlsx文件中,将交易时间改成标准格式。(提示:交易时间的标准格式为 yyyy-MM-dd hh:mm:ss[示例:2022-10-13 19:36:45])

导入火眼他就自己洗好了。。

(2)请在数据清洗2-银行流水1.xlsx文件中,将交易金额列数据全部取正数。(提示:当交易金额由负数改为正数时,需将对应的借贷标志进行修改,若原本为“出”,需改为“进”,若原本为“进”,需改为“出”)

在此之后绝对值

(3)请在数据清洗2-银行流水1.xlsx文件中,将交易余额列数据进行单位换算,将万元转变为元。(提示:将“1万”换算为“10000”)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
import pandas as pd
import numpy as np

# 读取Excel文件
file_path = r"E:\大数据\比赛\智器云决赛模拟2\第2题数据\1.xlsx"
df = pd.read_excel(file_path)

# 将查询卡号列转换为文本格式,避免科学计数法
df['查询卡号'] = df['查询卡号'].astype(str)

# 定义单位转换函数
def convert_balance(value):
if pd.isna(value): # 处理空值
return value

# 如果已经是字符串且包含"万"
if isinstance(value, str) and '万' in value:
num_str = value.replace('万', '').strip()
try:
num = float(num_str)
return str(int(num * 10000)) # 转换为整数元并保持文本格式
except ValueError:
return value

# 如果是数值类型,直接转换为文本
elif isinstance(value, (int, float, np.number)):
# 如果数值很大(可能是以万为单位的),检查是否需要转换
if value < 10000: # 假设小于10000的值已经是元单位
return str(int(value))
else:
# 这里可以根据业务逻辑判断是否需要转换
# 暂时先直接转换为文本
return str(int(value))

else:
return str(value)

# 应用转换函数到"交易余额"列
df['交易余额'] = df['交易余额'].apply(convert_balance)

# 确保所有数值列都保存为文本格式,避免科学计数法
# 将交易金额列也转换为文本
df['交易金额'] = df['交易金额'].astype(str)

# 保存修改后的数据回原文件
df.to_excel(file_path, index=False)

print("数据已转换为文本格式并保存!")
print("预览转换后的数据:")
print(df[['查询卡号', '交易金额', '交易余额']].head())

(4)银行流水数据中借贷标志如果为,则 IP 地址中的 IP 字段为本方账号的 IP;借贷标志如果为,则 IP 地址中的 IP 字段为对方账号的 IP。请根据这个规则,在数据清洗2-银行流水1.xlsx文件中,将每行数据的 IP 地址分别清洗至本方 IP 地址列和对方 IP 地址列中。同理也请将 MAC 地址分别清洗至本方 MAC 地址列和对方 MAC 地址列中。

在上题的基础上,直接用excel拷贝即可

先插入4列

先选“出”,把ip和,mac放到本方;反之则对方。

保存即可。

(5)请在数据清洗2-银行流水2.xlsx文件中,结合收付标志付款方卡号付款方名称收款方卡号收款方名称五列中的数据内容,将查询卡号客户名称交易对方卡号交易对方名称四列空白部分补全。

选出、入之后拷贝即可

并将清洗好的数据清洗2-银行流水1.xlsx文件中的数据和清洗好的数据清洗2-银行流水2.xlsx文件中的数据合并导出填至答题卡中。

(提示:当收付标志时,查询卡号客户名称可以用付款方卡号付款方名称填充,交易对方卡号交易对方名称可以用收款方卡号收款方名称填充;当收付标志时,查询卡号客户名称可以用收款方卡号收款方名称填充,交易对方卡号交易对方名称可以用付款方卡号付款方名称填充)

第3题 假酒觅踪(20分)

根据报案信息,受害群众主要是通过在小区投放的广告信息加入了该酒销售的团购群,再被引导线上完成交易,酒由快递寄送到家,后续发现为假酒进行维权时被卖家拉黑。

(1)银行团伙分析

根据报案信息判断这是一起团伙性的售假案件,并梳理出多个卖家的身份信息(身份信息如下表所示)。

卖家姓名 证件号码
藏效 210225182997609679
乙兽氧 230125180193614013
蕊血 632801188995626969
陆医焊 642226187366595551
藏械颅 632125187095949933
瞅购 632122180892619906
陆讶尔 642226181797945560
负君 620123182795526453
靳进文 632125182591909952
坯舒司 622323182095659275

请至数据中心,根据上述表格中的卖家身份信息,调取其名下账户银行交易流水数据。并完成以下分析。(8分)

1)请分析出关联账户最多的IP地址和MAC地址,并分析出在该IP地址和MAC地址下均出现过的账户,这些账户为同一团伙账户。(6分)

关联账户最多的IP地址是 11 ,关联账户最多的MAC地址是 8 。(2分)

可疑团伙账户(4分):

团伙账户卡号 ……

下载交易明细,导入,上图,列表分析

223.104.217.211
02-42-AC-11-00-09

上图,筛选出有关联的数据,上表

2)请结合上述“可疑团伙账户”,先根据上一问结果“关联账户最多的IP地址”找出在这个IP地址上交易次数最多的“可疑团伙账户”,然后再分析这张卡在该IP地址下的交易中,资金交易总量最大的去向账户是 ,该账户的开户银行是 。(开户银行填写简称,例如:农业银行、招商银行)(2分)

涉及到开户行,下载银行账户信息:

先筛选数据

上图后,列表分析。先倒序发生次数,找到第一个mac地址

(2)微信团伙分析

在该案件中,大部分受害群众加入微信团购群后,由卖家微信主动添加新加入的成员为好友进行一对一私聊,现调取了报案信息中的卖家微信好友数据,来判断卖家微信是否为同一团伙。

请根据附件中调取的微信好友数据,完成以下分析。(6分)

下列判断条件需要全部满足:

①卖家不同微信号之间是互为好友;

②任意卖家之间包含至少三个除上述10位卖家之外的共同好友;

③卖家微信号所绑定的手机号注册归属地必须在同一省份。

1)请依次根据以上条件分析出属于同一团伙的微信,填入答题卡中。(4分)

团伙微信号 ……

2)并分析该团伙人员分布最多的地域是 市。(只填市名,例如:南京)(1分)

3)请根据微信注册信息分析,上述团伙微信中,哪两个注册证件号不同的微信可能被同一人持有。(1分)

被同一人持有的微信

(3)云搜轨迹分析

在完成以上分析后,继续对相关微信和银行账户持有人进行人员轨迹的分析,若任意两人轨迹上出现至少3次以上同日、同车次出行,且在同一站下车,则相关人员为同一团伙,请完成以下分析。(6分)

1)请根据附件中调取的出行数据,分析哪些人员为同一团伙人员。(3分)

团伙人员证件号 ……

2)请分析出该团伙中,与他人同日同车次同到站次数最多的人员,并分析这个人最常出发的站点和在该站点下最频繁出发的时间是周几。(3分)

人员名称
最常出发站点
最频繁出发时间(周一到周天)