在数据库/Spark中为SQL中的变量赋值动态值赋值、变量、中为、数据库

由网友(用情浅)分享简介:我觉得这里肯定漏掉了一些明显的东西,但我似乎无法在Spark SQL中动态设置变量值。假设我有两个表tableSrc和tableBuilder,并且我正在创建tableDest。我一直在尝试上的变体SET myVar FLOAT = NULLSELECTmyVar = avg(myCol)FROM tableSrc;...

我觉得这里肯定漏掉了一些明显的东西,但我似乎无法在Spark SQL中动态设置变量值。

假设我有两个表tableSrctableBuilder,并且我正在创建tableDest

Spark SQL数据源 JDBC

我一直在尝试

上的变体
SET myVar FLOAT = NULL

SELECT
    myVar = avg(myCol)
FROM tableSrc;

CREATE TABLE tableDest(
    refKey INT,
    derivedValue FLOAT
);


INSERT INTO tableDest
    SELECT
        refKey,
        neededValue * myVar AS `derivedValue`
    FROM tableBuilder

在T-SQL中做到这一点是微不足道的,这对微软来说是一个令人惊讶的胜利(DECLARE...SELECT)。然而,火花抛出

Error in SQL statement: ParseException: mismatched input 'SELECT' expecting <EOF>(line 53, pos 0)

但我似乎不能将派生值赋给变量以供重复使用。我尝试了一些变体,但我得到的最接近的结果是将变量赋给SELECT语句的字符串。

请注意,这是从T-SQL中的一个全功能脚本改编而来的,所以我不会拆分十几个左右的SQL变量来使用Python Spark查询来计算所有这些变量,只是为了在数百行的f字符串中插入{var1}{var2}等。我知道如何做到这一点,但它将是凌乱的、困难的、更难阅读的、迁移较慢的、更难维护的,如果可能的话,我希望避免这种情况。

推荐答案

刚刚发布的SQL user defined functions,它可以在不影响性能的情况下处理类似的问题,对于您的示例,它将如下所示:

CREATE TEMP FUNCTION myVar()
RETURNS FLOAT
LANGUAGE SQL
RETURN 
SELECT
    avg(myCol)
FROM tableSrc;

然后使用:

SELECT
      refKey,
      neededValue * myVar() AS `derivedValue`
FROM tableBuilder
阅读全文

相关推荐

最新文章