天才一秒记住【笔趣阁书吧】地址:www.ample-sg.com
隋波安抚好了左清泉之后,也答应她,等考试周之后,会让她负责一些相对轻松的工作。
比如公司现在还没有专门的行政部门。
可以让她和张轩两个人先组成ceo办公室,兼管公司内部行政综合事务,像法务、公关、后勤、文件报告汇总之类的事情。
这也是一种锻炼。
可以从这些内部的职能工作,让他们全面的熟悉和理解公司正规化运作的流程和模式。
等左清泉离开之后,隋波想了想,还是觉得应该去看看王川团队的研发进展。
随着这段时间各项目,无论是庞勇还是周枫、王川他们都觉得技术力量不够,又各自从学校里拉了一些同学进入团队,整个技术团队扩张的很快。
当时隋波在外地,就让左清泉去找了赵宁,把公司隔壁的两间办公室也都租了下来。
周枫、许朝军带领的校内网开发团队和王川带领的搜索引擎研发团队,都从原来的办公室分了出来,易趣那个办公室里只留了电商团队。
新业务的研发团队分别在两个新办公室里闭关。
一推开门,隋波有些惊讶的看到,不大的房间里,中间是一张长桌,长桌上一个紧挨一个的摆放着十几台电脑,将长桌挤得满满的。
一帮少年们头发乱糟糟,眼圈发黑,眼睛发光的盯着电脑屏幕,浑然忘我的噼里啪啦敲打着键盘。
桌上的电脑之间就算稍微有点空隙,也都摆满了方便面火腿肠之类的速食品。
要不是那些电脑屏幕上,显示的一行行代码,简直就是一个小型黑网吧的现场!
王川坐在最靠里的一台电脑前,眉头紧锁,盯着屏幕,似乎正在思索什么难题。
别看这个场面,看起来好像是一群泡吧的颓废网瘾少年。
隋波可是清楚,这帮少年们都是计算机天才!
王川直接从学校里拉了不少水木计算机国家集训队的队友来,组成项目团队攻关搜索引擎!
隋波想了想,回去找左清泉。
让她找附近的餐厅预订每天的饭菜,送到公司来,再买几箱饮料、咖啡、面包饼干之类的小食品,放到几个研发团队的办公室里。
估计不仅王川团队,庞勇、周枫他们那儿也都一样。
这帮技术男们敲起代码来,都是没日没夜的。
没有打扰其他人的工作,他悄悄把王川叫出来,在自己办公室里,和他专门交流研发情况。
目前搜索引擎项目最大的困难在于,没有可供参考的对象。
虽然可以参考一些国外的资料和论文,但因为涉及到一些核心技术,是无法通过网络查找到的,都需要自行开发。
隋波点头表示同意。
这个时候google还不存在呢,要到9月份的时候,布林和佩奇才会在加州一个车库里开始创业。
百度更是没影的事儿,老李还在搜信里混呢。
现阶段,无论是国外的lycos、altavista、infoseek(搜信),雅虎搜索引擎;还是国内搜狐推出的所谓全中文搜索引擎,都还是以人工分类目录为主的网站检索服务。
说是搜索引擎,其实更像是目录导航网站……
尽管其中一些搜索引擎已经有了网页关键词检索、用户点击量排序等一些创新,但本质上,还是需要大量的人工编辑的目录式搜索引擎(directorysearchengine)。
而隋波希望王川团队开发的,则是全新的,通过技术程序,自动在互联网上通过超链接网页进行全文检索的机器人搜索引擎(robotsearchengine)。
这样的话,就需要从头做起,开发一整套完整的技术体系。
其中包括网络爬虫(webcrawler)服务、索引服务、缓存服务、日志服务等几大模块,各模块之间互相影响,构成了整个搜索引擎体系。
从开发量上,技术难度是远远大于目录式检索技术的。
首先说网络爬虫,也称网络蜘蛛(webspider),这项技术是基于web的自动化浏览程序,通过网页链接(url),爬虫不断的通过互联网中获得新的网页数据,下载页面数据形成后台数据库。
可以说,网络爬虫抓取数据是搜索引擎工作流程的第一步。
爬虫的体系架构直接关系到搜索引擎每天数据的采集量,而抓取策略则关系到搜索结果的数据质量,数据的更新策略则关系到系统资源的利用率。
这只是第一步,采集了大量数据信息之后,还需要通过自然语言处理(nlp),将文本信息分解为结构化数据和价值性数据。
这里面就又存在一个问题,目前国外的搜索引擎都是英文分词,而中文比较特殊,最小单位是字,但具有语义的最小单位是词。
所以,在中文分词这一部分,就需要技术团队单独进行开发。
通过建立词
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!