2023年12月听新闻说裁判文书网将不再对公众开放,对于这个消息对于中国法制进程影响可谓深远。
今天在github上看到一个开源项目,中国裁判文书网本地搜索,处于好奇在本地搭建试一下,能否跑起来。
下载原始数据(102G)
我这边用迅雷下载,大概95G
下载程序并创建配置文件
我用的系统是windows,所以下载的是v0.0.5-x86_64-pc-windows-msvc.zip
测试系统配置
系统:windows11专业版
CPU:i5-10400FCPU@2.90GHz
内存:24G
硬盘:1T机械硬盘(至少要有500G的空余空间)
配置文件
配置文件参考config.toml
db="./rocksdb"#pathtostorerocksdbindex_path="./search_index"#pathtostoreindexindex_with_full_text=false#whetherestablishfull-textindexaddr="127.0.0.1:8081"#IfallowLANaccess,changeitto"0.0.0.0:port".
#Therawdatapathyoudownloadedfromthetorrent,andyoumustNOTunzipit.注意路径raw_data_path="./"
将数据加载到rocksdb数据库中
$./convert.execonfig.toml
系统资源占用情况
一共两个半小时,根据个人系统配置高低有关系。
生成rocksdb目录有184G大小。
创建索引
$./index.execonfig.toml
一共花费了70多个小时
生成search_index目录有15.4G大小。
运行搜索服务
运行mainconfig.toml程序,用浏览器打开config.toml网址,即可搜索。