• mysql是一直不行啊 mysql8 相当于pg8的水平吧 不过现在pg都出11了…

  • 问一下 gitlab ci可以脱离gitlab使用吗

  • 因为mysql不好用啊

  • @ceclinux-github

    就是批量处理和离线处理。

    最简单的就是实时处理,有变化就实时计算一次相关的分数矩阵,这样并发情况会消耗太多资源。批量处理就是说,架构上,对于增量数据可以做成延时和定时的,比如新增变化的item数量达到10000才把新增的相似度矩阵更新,或每天批量跑一次新增的数据。

    离线处理是指,如果数据量再大,计算资源成为瓶颈,架构上可以把计算相似度矩阵的工作和主业务抽出来,使用独立的数据库,再通过微服务的方式给主业务。

  • 也可以试试PredictionIO:https://predictionio.apache.org/start/

  • tapd吧

    1. Postgres是一个生态系统,并不单单是Postgres数据库,数据库领域和Map Reduce匹配的概念是MPP,上面其实提到过,Greenplum、Citus、Redshift、postgres x都是可以无缝切换的,包括你上面提到的timescaledb,其实只是postgres的一个扩展而已。从SQL的角度,其实上面方案是可以迁移到Hive的,如果你认为Hive比Postgres快。
    2. 数据量多大和推荐系统关系其实并不大,海量日志当然可以占很大空间,而实际对业务产生价值的部分并不多,这一般是先ETL提取出有价值的数据。
    3. Map Reduce是大数据处理的一个解决方案,并不是唯一方案。
    4. SQL是一个通用接口,现在有哪个大数据工具不支持SQL的吗,elasticsearch?kalfka?spark?
    5. 任何技术决策都是基于你当前的状况,如果你公司不差钱,当然招一个数据团队来做那当然是很棒啦。如果你是一个小型创业公司,正巧有员工可以用一天时间用SQL搭建一个推荐系统,那么不是更好么...
  • 写这个的目的就是想消除一提到推荐系统就认为需要spark hadoop 之类的大数据工具才能做的观念。你要知道即使是京东那么大的电商网站,SKU数量14年也就4千万而已,12年不过百万。

  • SQL Style Guide at 2018年09月19日

    其实并不是CTE就一定比子查询慢,要看场景的,CTE会物化结果,对于一些重计算的查询是好事,CTE其实让Postgres有了caching功能...

    https://medium.com/@hakibenita/be-careful-with-cte-in-postgresql-fca5e24d2119

  • textql -header -sql "select name, group_concat(value) from csv group by name" csv.txt

hey!