无论你是编程小白还是老司机,coding过程中总会遇到不懂的问题。
最常见的方法是去论坛询问、谷歌搜索,需要反复在网页和编译器页面切换,即使有两个很大的分屏,生产力也会受到影响。
直接在终端输入「你要问的问题」,用普通的自然语言就行,和你去谷歌搜索没什么两样。
这么好用的工具安装起来也不复杂。
安装教程
安装codequestion最简单的方法是通过pip或PyPI:
pipinstallcodequestion
当然,你也可以克隆Github上的项目到本地:
安装codequestion需要Python3.6版本以上。
对于Linux系统来说,可以直接运行项目,但是Windows和Mac需要安装额外项。
Windows需要安装C++BuildTools,地址如下:
PyTorchWindows的二进制文件不在PyPI上,安装时必须添加以下url链接:
对于Mac来说,安装前需要运行这个命令:
brewinstalllibomp
安装步骤已经完成了,接下来看看实例测试吧
AI驱动的问答机制
codequestion下载完成以后,还需要安装一个模型。
python-mcodequestion.download
这个模型的核心就是作者DavidMezzetti之前开发的AI算法txtai。
txtai支持构建文本索引,执行相似性搜索,并创建基于提取式问题回答的系统。
unzipcqmodel.zip~/.codequestion
codequestion是可以定制的,可以针对自定义的问答库运行。目前,只支持StackExchange库中的问题帮助,未来会有更多的支持选项。
完成模型安装后,可以通过以下命令运行测试:
代码中包含将测试数据下载到/.codequestion/test中。
下面的表格显示了各种词向量/评分组合的测试结果。
之前,量子位也介绍过一个相似的Linux命令行查询工具,也是直接在终端输入问题,返回答案。
不同的是,当时的工具howdoi是在在线技术论坛上搜索已有答案,范围比较有限。
那么这次介绍的codequestion的AI驱动机制,有什么先进之处呢?
基本原理
第一步:原始数据转储处理
来自StackExchange库的原始7zXML转储通过一系列步骤进行处理。
只有高分的问题和答案才会被检索到,并存储在模型中。
问题和答案被整合到一个名为questions.db的单一SQLite文件中。questions.db的模式如下:
IdINTEGERPRIMARYKEYSourceTEXTSourceIdINTEGERDateDATETIMETagsTEXTQuestionTEXTQuestionUserTEXTAnswerTEXTAnswerUserTEXTReferenceTEXT
第二步:检索
codequestion工具为questions.db建立了一个句子嵌入索引。
questions.db模式中的每个问题都会被标记,并解析为单词嵌入。
词嵌入模型是建立在questions.db上的自定义fastText模型。一旦某个token被转换为单词嵌入,就会创建一个加权的句子嵌入。
词嵌入使用BM25索引对资源库中的所有token进行加权。但有一个重要的修改:标签被用来提升标签标记的权重。
一旦question.db被转换为句子嵌入的集合,它们就会被归一化并存储在Faiss中,从而可以进行快速的相似性搜索。
第三步:查询
codequestion使用与索引相同的方法对每个查询进行标记。这些标记被用来建立一个句子嵌入。根据Faiss索引对该嵌入句进行查询,以找到最相似的问题。
离线开发好帮手
可以看出,这个codequestion工具的优势在于灵活的搜索匹配问题,并且能够根据问题回答的质量优先推选好的回答。
这一点是类似工具使用关键词匹配搜索答案无法比拟的。
目前codequestion的局限在于只支持StackExchange中的问题,但是,作者承诺后期会加入更多的库。
怎么样?如果这个工具对你有用,那就赶快上手操作吧~
参考链接&传送门:
Github地址:
C++BuildTools安装地址:
量子位之前介绍过的Linux命令行查询工具:
—完—
好课推荐|0基础学Python
《动手学Python》课程由上海交大博士教研团队研发,在线学习平台由上海交大AI实验室技术支持,旷视、文远知行、图森未来、来也科技等知名AI企业CEO/CTO力荐。
0基础可入门,限时开放体验课!扫码即刻开启Python学习之旅:
量子位QbitAI·头条号签约作者
''追踪AI技术和产品新动态
原标题:《写代码、搜问题,全部都在「终端」完成!如此编程神器,是时候入手了》