由网友(用情浅)分享简介:我觉得这里肯定漏掉了一些明显的东西,但我似乎无法在Spark SQL中动态设置变量值。假设我有两个表tableSrc和tableBuilder,并且我正在创建tableDest。我一直在尝试上的变体SET myVar FLOAT = NULLSELECTmyVar = avg(myCol)FROM tableSrc;...![Spark SQL数据源 JDBC](https://p.xsw88.cn/allimgs/daicuo/20230903/2356.png)
我觉得这里肯定漏掉了一些明显的东西,但我似乎无法在Spark SQL中动态设置变量值。
假设我有两个表tableSrc
和tableBuilder
,并且我正在创建tableDest
。
![Spark SQL数据源 JDBC](https://p.xsw88.cn/allimgs/daicuo/20230903/2356.png)
我一直在尝试
上的变体SET myVar FLOAT = NULL
SELECT
myVar = avg(myCol)
FROM tableSrc;
CREATE TABLE tableDest(
refKey INT,
derivedValue FLOAT
);
INSERT INTO tableDest
SELECT
refKey,
neededValue * myVar AS `derivedValue`
FROM tableBuilder
在T-SQL中做到这一点是微不足道的,这对微软来说是一个令人惊讶的胜利(DECLARE
...SELECT
)。然而,火花抛出
Error in SQL statement: ParseException:
mismatched input 'SELECT' expecting <EOF>(line 53, pos 0)
但我似乎不能将派生值赋给变量以供重复使用。我尝试了一些变体,但我得到的最接近的结果是将变量赋给SELECT语句的字符串。
请注意,这是从T-SQL中的一个全功能脚本改编而来的,所以我不会拆分十几个左右的SQL变量来使用Python Spark查询来计算所有这些变量,只是为了在数百行的f字符串中插入{var1}
、{var2}
等。我知道如何做到这一点,但它将是凌乱的、困难的、更难阅读的、迁移较慢的、更难维护的,如果可能的话,我希望避免这种情况。
推荐答案
刚刚发布的SQL user defined functions,它可以在不影响性能的情况下处理类似的问题,对于您的示例,它将如下所示:
CREATE TEMP FUNCTION myVar()
RETURNS FLOAT
LANGUAGE SQL
RETURN
SELECT
avg(myCol)
FROM tableSrc;
然后使用:
SELECT
refKey,
neededValue * myVar() AS `derivedValue`
FROM tableBuilder
相关推荐
最新文章