此文为《程序员》杂志约稿,发表在2010年6月刊。

  文章以“KBI用户行为分析”的项目架构为原型,对Web商业智能平台的架构设计进行了概要介绍。实现海量数据的分析挖掘计算相对较易,如何以灵活的可扩展性框架,来便捷地应对项目开发周期中,来自众多项目干系人的需求变更,才是难点。

 点击在新窗口中浏览此图片

 点击在新窗口中浏览此图片

 点击在新窗口中浏览此图片





技术大类 » 系统架构与硬件 | 评论(827) | 引用(0) | 阅读(92051)
请教2
2010-8-10 08:50
请问数据采集存储表如何设计比较合理?所有的信息存储在同一个字段中还是?
TTT
2010-8-12 15:57
要是给个用户名和密码进去看看就好了~
zhangwenjie Homepage
2010-8-13 12:22
使用 RHEl 5.5 + nginx 0.8.36 + PHP 5.3.3(自带php-fpm),启动php-fpm时,出现如下的信息: Netfilter messages via NETLINK v0.30.ip_conntrack version 2.4 (7091 buckets, 56728 max) - 228 bytes per conntrack4gb seg fixup, process php-fpm (pid 3144), cs:ip 73:001450544gb seg fixup, process php-fpm (pid 3144), cs:ip 73:001450544gb seg fixup, process php-fpm (pid 3144), cs:ip 73:001450544gb seg fixup, process php-fpm (pid 3144), cs:ip 73:001450544gb seg fixup, process php-fpm (pid 3144), cs:ip 73:001450544gb seg fixup, process php-fpm (pid 3144), cs:ip 73:001450544gb seg fixup, process php-fpm (pid 3144), cs:ip 73:001450544gb seg fixup, process php-fpm (pid 3144), cs:ip 73:001450544gb seg fixup, process php-fpm (pid 3144), cs:ip 73:001450544gb seg fixup, process php-fpm (pid 3144), cs:ip 73:00145054能帮助分析一下是什么问题吗?谢谢!!!
杀手
2010-8-17 13:15
张老师真厉害的啊

点读机品牌
qiudakun Email Homepage
2010-8-23 18:06
能开源下吗。。。呵。
cctv lens Email Homepage
2010-8-25 11:30
非常不错,望常更新
ugg uk Email Homepage
2010-8-27 15:46
太高深了  实在看不懂!
减肥药排行榜 Email Homepage
2010-8-28 20:11
牛人啊,学习了
宁波SEO Email Homepage
2010-8-30 14:10
参加2010 数据库技术大会,很厉害啊
顶你
2010-9-1 10:28
曾经也想过做这样的,但是后来总怕因为服务器性能而使部分数据不能及时录入.之后想过用cookies和sharedobject但是怕不停的存储信息到里面怕被人说为恶意网站.我感觉我实在是太悲观.
o
2010-9-2 16:55
ouplook
搞笑 Homepage
2010-9-7 12:27
技术能有张老师这样精,也就心满意足了
nike dunks Email Homepage
2010-9-25 15:52
博主是做什么的啊,你的文章我都看不懂呀!
减肥药排行榜 Email Homepage
2010-9-28 22:27
对这个完全不懂gringrin
ycpeng
2010-10-10 22:12
真厉害,羡慕ing
hovea Email
2010-11-4 17:09
BI这个东西,主要还是关注业务复杂性,现代的系统,类似cogonos这种,基本上可以完全做到配置和 二次开发。并且可以集成到组织构架。用插件模式实现报表是以程序员为中心的开发模式,现代的系统,都是通过元数据组合进行配置这种报表的。Mysql在对于数据质量要求高和事务型的环境,是无法应用的。只有在扁平化的应用当中有一席之地。题目中的 数据仓库,BI和内容相去甚远。
ybbqy Email
2011-8-10 14:40
说的太笼统<br>个人认识 数据仓库的设计应该分为数据采集、数据存储、数据挖掘三个部分其中数据存储最为重要,也就是我们要设计一个结构,可以让任何你上面所说的挖掘插件在短时间内可分布式的遍历他所需要的数据数据挖掘与展现应该是其它系统的事,如广告系统利用仓库数据进行挖掘
DB-lewis
2011-8-23 23:59
张工写的WEB商业智能架构设计已经很详细,非常切合实际
1. 个人认为,所有的商业智能与数据仓库,最繁琐,最容易偏离业务需求的,就是ETL,也就是数据采集了。
而张工在文中提供的WEB数据采集技术,充分有了ETL的保质保量的前提
2.  在数据存储上面,也就是维度建模,传统的sql server, oracle等,无非是ROLAP,MOLAP和HOLAP,张工提到的存储利用了列式存储或者分布式存储,而且实时更新,确实在其他传统行业中,利用sql server, oracle等,解决方案都不是及时的,需要定时调度更新。我不清楚面对千百万计的实时用户,这些数据是如何实时更新的?trigger?还是shell写入?张工有时间,可以特写一篇。
3.  数据挖掘部分,张工提到了统计计算与数据挖掘,统计计算,使用SQL来运作,加以FLASH肯定是很炫的来说。但是数据挖掘部分,好像有涉及到挖掘算法与数据可视化,比如聚类,决策树,神经网络,线性回归等等,张工是不是也给另介绍一下,金山如何判断哪些用户特征会在特定页面间切换,利用了哪些特定关键字搜索以及关键字组合出现的几率?比如某用户,在搜索了5个“汽车”(关键字)页面之后,会跳到“美女”(关键字)页面?这样的用户大概会占有多少?张工在文中有所流露,但是又未说透。
hair and wigs Email Homepage
2011-9-23 09:19
羡慕嫉妒恨
blond wigs Email Homepage
2011-9-23 11:31
全是人才啊
分页: 2/42 第一页 上页 1 2 3 4 5 6 7 8 9 10 下页 最后页
发表评论
表情
emotemotemotemotemot
emotemotemotemotemot
emotemotemotemotemot
emotemotemotemotemot
emotemotemotemotemot
打开HTML
打开UBB
打开表情
隐藏
记住我
昵称   密码   游客无需密码
网址   电邮   [注册]