作为文字工作者,我每天都在跟搜索引擎打交道。 比如在写Facebook的财报新闻时,Google可以告诉我它的实时股价、市值、近期高低点等非常有用的信息。 但其实,还有另一个工具比Google更好用,那就是WolframAlpha。它比Google更进一步,可以用结构化的方式直接列出我可能需要的知识。 举个最简单的例子:我家带宽是75Mbps(9。375MBs),要下载一个100GB的文件需要多久?我可以直接用自然语言询问,WolframAlpha不仅会告诉我答案,还会写出公式: 它不仅是一个数学工具,还是一个很好的知识聚合工具。比如最近电影《小丑》很火,如果我想写关于它的文章,上WolframAlpha一搜就能找到大量细节,包括并不限于影片信息、排名和票房等。 准确来讲,WolframAlpha并非一个搜索引擎。它的官方定义叫做计算式知识引擎,可以用来回答那些没有公开答案,但是计算一下即可得到的问题。而且,它用结构化的方式去展现答案,而不是像搜索引擎那样,把链接一条一条列出来。 接下来介绍今天文章的主角:Magi,一个最近几天在我的技术圈朋友中间小有名气的工具。 Magi(网址https:magi。com)看起来也像是一个搜索引擎: 但是只要玩上一次,就会发现,它和你印象中的所有搜索引擎都大不相同。 当我用它搜索词条易烊千玺时,得到了下面的结果。 首先,答案提供了对易烊千玺的几个关键描述,如TFBOYS的成员、00后国民偶像代表等。紧接着,它列出了关于词条主人的几乎全部的重要属性,包括由他出生年月、参演的影视作品、发表的音乐专辑等。 答案的结构化展现方式,和WolframAlpha颇有类似。 甚至连千纸鹤(易烊千玺粉丝代称)的应援色都答了出来 更有趣的是,magi。com还答出了易烊千玺的几个近义项,比如他的昵称、代称和他所养的宠物等等。 有时候,Magi还能给出一些令我忍俊不禁的结果 输入了一下新世纪福音战士。答案的描述中有业界有名的劳模 又搜了一下小岛秀夫,答案里的专长一项我也是醉了 接下来搜了一下富坚义博。 可能因为职业生涯中大部分时间都在拖稿,magi。com告诉我富坚的业余爱好是画画漫画 当然,大部分时候magi。com给出的答案还是比较靠谱的。 搜索到的答案,每一条都会用以绿、黄、红三种颜色表示其可信度从高到低;在答案的右侧则会提供几条链接,用鼠标划过它们即可看到,答案是从哪个哪几个具体的来源学习到的: 你会注意到,magi。com的结果中,答案在正下方,链接跑到了右边,跟主流搜索引擎的用户界面完全是反的。 这就是Magi和主流搜索引擎最大的区别所在:链接对于它不是结果,答案才是。 这是因为Magi并非搜索引擎(尽管具有一些搜索引擎的功能)。它实际上是一个基于机器学习的知识引擎,能够检索和提取任何领域自然语言文本,将其中的知识提取出来,形成结构化的数据。 说得简单一点: 我们都知道,互联网上有着大量的,基于文本的信息,当中蕴藏着许多的知识。然而,计算机读不懂互联网上大部分的信息,因为这些信息往往不是以性别:男、国籍:中国这样的结构化形态,而是以自然语言的形态出现的。 比如,埃菲尔铁塔的高度是一个入门级的问题,因为早已有人整理出了正确的答案,写在维基百科和旅游网站上;但是想知道埃菲尔铁塔的第二节电梯线路有多长,就很难在搜索引擎上查到准确信息了。这是因为很少有人会把这些细节的数据,以结构化的方式记录在互联网上。 这就是Magi想要解决的问题:从开放领域的纯文本当中提取知识,并让其可解析、检索和溯源。 Magi来自中国团队PeakLabs,创始人季逸超在开发者圈子内也小有名气。2011年,还在北大附中读书期间,他就独自完成了猛犸浏览器iOS的开发。次年,他只用两天时间就完成了Rasgueado,第一个支持划动手势控制光标位置的iOS输入法 2012年,季逸超创办了自己的公司,继续推动浏览器和输入法项目。目前,PeakLabs主要精力都放在Magi项目上,专注于背后的技术,以及相关商业产品的开发。 PeakLabs并没有计划将Magi和Google、百度之类的主流搜索引擎相提并论。把Magi做成一个搜索引擎,主要是为了让公众有机会能够体验它背后的技术,感受它能够提供的价值。 即便如此,看起来很像搜索引擎的magi。com,实力还是不容小觑。事实上,为了这个示范性质的产品,PeakLabs并没有选择小聪明的方式,从其他搜索引擎抓取结果,而是从零开发了一套互联网搜索引擎。 我们的结果的摘要比一般的搜索引擎都长,是的,我们是故意为之。这足以证明我们的结果不可能来自其他搜索引擎,季逸超在官网上写道。 根据用户输入问题、关键词和表达式的不同,magi。com可以用不同的方式来呈现答案具体的呈现方式也展现了Magi系统的能力。 比如,输入打车软件公司,Magi系统可以把它知道的所有手机叫车公司,以集合的方式列在答案里。 而在百度上,得到的结果如下。可以看到百度的知识图谱也提供了类似的结果,只是看起来有四、五年没有更新过了: 再比如,如果输入八角大料,Magi系统会发现这两个关键词其实是同一个东西,它就会以断言的形式给出答案。 magi。com告诉我,八角和大料是近义项,是又称、也称的关系。 Magi系统可以24小时不间断地进行学习。它的时效性也还算不错,PeakLabs宣称实时新闻当中的知识,Magi只需要5分钟就可以掌握,而且还可以采纳新的信息源进行交叉验证,实现自动纠错。 如果你在magi。com的首页停留一会,就能看到它当前正在学习的链接: 除了自主开发的全网规模搜索引擎以外,PeakLabs还开发了基于注意力机制的神经信息提取系统,不依赖无界面浏览器的分布式抓取系统(爬虫程序MagiBot),以及支持混合处理170多种语言的自然语言管道。 这四者结合在一起,才是Magi系统的全貌。 作为EVA粉,这里不得不打断一下:Magi以及它的四个子系统,名称全部来自《新世纪福音战士》(EVA本身取材自圣经等其他西方宗教经典),而且命名里也有彩蛋: Magi(三贤者,多个系统组成的超级计算机) 搜索引擎Ramiel(雷天使,) 神经信息提取系统Ireul(恐怖天使,拥有学习和进化能力) 自然语言处理管道Arael(鸟天使) 爬虫程序Matarael(雨之天使,外貌像蜘蛛) PeakLabs在官网指出,目前的Magi技术还没有完全成熟。 确实如此。目前通过magi。com可以观察到一些问题,比如很多可以在主流搜索引擎中轻易找到的答案,magi。com给不出来(通常是因为它还没有学到); 比如搜索世界上最富有的人时,我想要的是Magi能告诉我当前谁最富有,但它只能告诉我最富有的那一群人: 比如消歧义的把控,容易导致答案混乱(这一点季逸超自己在知乎上〔1〕也有所提到): 再比如,碰到一些实在太复杂的词条,magi。com就凌乱了 不过正如前面提到,这个搜索引擎并不是PeakLabs的最终产品他们的真正目的,是借助搜索引擎背后Magi系统的力量,提供企业级的服务。 PeakLabs的官网指出,他们希望未来的Magi系统能够成为知识领域的ImageNet。它已经展示出的开放领域信息提取能力,可以应用到企业客户所在的细分领域内,变成一个更加强大的信息抽取系统,让每一个领域、每一家企业都可以轻松地打造属于自己的知识图谱。 也许在不远的未来,伴随着整个行业的进步,Magi所构建的包容万事万物的结构化网络,将成为通向可解释人工智能的基石。PeakLab的网站这样写道。 希望这个愿景能够实现。(就算实现不了也没关系啊!拿magi。com搜些奇怪的东西,还是能得到不少笑料的) 如果你对Magi的技术细节感兴趣,可以点击下方阅读原文到PeakLabs网站进一步了解。季逸超在知乎的回答也做了更加详尽的阐述。 作者:杜晨来源:硅星人