Join GitHub today
GitHub is home to over 50 million developers working together to host and review code, manage projects, and build software together.
Sign upsome feature i think sqlflow should support #1295
Comments
|
Thank you @tujinshu for these suggestions! Would it be easier for other contributors to follow and chat if we decompose each topic into an issue? |
这个是指拆分数据为训练集和测试集,然后通过测试集来评估效果吗? |
举个可能不太恰当的例子,如果某个水果店,在7月份预测西瓜在8月的销量可能是1万个,那实际上到8月份之后,发现西瓜销量是8000个,sqlflow首先判定这个销量数据可能不准确,需要综合一些特定的key,来得出来产生不准确数据的情况,予以展示,然后方便开发人员分析原因,持续优化模型 |
明白了! Reinforcement Learning 强化学习 |
2019/12/02 和Yi Wang沟通交流考虑SQLFLOW可以支持如下的特性
一、基础功能:好用的工具需要一个更加简易友好的界面,让业务开发/分析更加简单
1)设计分析类工具,提供自动联想输入、快速语法、常见语义错误,提升用户体验
应用场景:提供IDE的自动联想功能,提高开发效率;语法和基本语义提前检查,避免提交到后台,执行较长时间后报错
2)大数据量时时间较长,建议提供任务(job)管理、允许用户了解数据执行的状态、监控进度、提供动态调试、watch能力,方便用户感知和调优
应用场景:耗时任务可以快速了解整体进度,提供一些中间的过程信息、耗时等,方便用户进行调优,优化开发
3) 安全权限、用户管理、
应用场景:增加新的数据分析人员、用户权限的管理等无需OPS运维支持
4) 数据源配置、数据导入
应用场景:增加新的数据源/导入新的数据等无需OPS运维支持
5)项目管理
应用场景:同一个数据源可能有多个分析结果,那有关系的分析可以通过项目管理集中起来,类似于文件夹管理,后续基于关联数据可以进一步挖掘,分析
6)国际化、多语言支持
应用场景:支持中文 等主流语言
7)复杂逻辑的开放接口,允许透过自定义python代码执行相关的预测
应用场景:业务逻辑较复杂时,SQL语句开发较为困难,对于高级别用户,可以输入自定义的python代码执行复杂的分析,而不是需要了解整个系统的后台代码,需要控制权限,防止安全风险
二、业务功能:业务上可以提供更多用户可能会关注的内容
应用场景:同一个数据预测,可能存在多种模型和分析思路,需要支持同一个数据源,多种分析结果并进进行
2)多个预测方案分析,对比
应用场景:同一个数据预测,有多个预测方案结果,可以进行分析对比,择优
3)预测结果分析原因,导致预测结果形成的原因,偏简易
应用场景:预测结果形成的原因,目前的展示较为简易,需要综合框架,中间计算结果等,给出预测结果出现的原因,便于用户对高层/客户澄清
4)时间轴或数据轴功能,预测结果和实际结果的对比,作为输入优化模型
应用场景:用户基于特定的数据预测产生的结果,后面需要和真实的结果进行数据对比,方便用户对模型和语句进行开发/调优
5)提供数据展示的定制能力,支持工具平台,展示给用户显示
应用场景:用户数据的预测结果、对比结果,提供开发接口,允许用户自定义开发相关的UI组件 予以显示
三、技术:云化-》共享平台,连接主流的数据商,为散落的数据建立桥梁,增加数据价值
1)更易于分享模型,模型market
应用场景:支持模型的云化风险,支持更多的公司开源相关的模型,其他用户可以快速获取到
2)更易于分享SQL语句、版本管理
应用场景:分享相关的SQL语句,可以用于review,协作
3)预测数据、原始数据的分享
应用场景:数据协同,确保数据真实价值得以体现,需要注意隐私合规
四、BI化:
应用场景:高铁、飞机、接入内网不便的场景,支持部分数据加载到本地,在桌面运行sqlflow特性,小型数据集、基于GPU运算的AI分析,便于开发调优
2)支持定制预测分析报告:
应用场景:支持预测分析报告一键生成,用于高层、客户汇报