Perguntas com a tag "apache-spark-sql"

1

Como Salvar um arquivo com várias delimitador de ignição

Eu preciso salvar um arquivo delimitado por "|~" caracteres, mas eu recebo um erro quando executar o comando abaixo. Posso salvar um arquivo usando vários delimitadores em Faísca? mydf1.coalesce(1).write.option("compression","none").format("csv").mo...
0

Como obter o nome da coluna da dataframe construir por aninhadas arquivo JSON?

Eu estou tendo de dados JSON como abaixo {"nome":"Yin", "address":{"city":"Colombo","state":"Ohio"}} {"nome":"Michael", "address":{"city":"washinton", "state":"Califórnia"}} a minha exigência é para pegar a chave com o nome de cada objeto json ? e...
1

Ramo de Explodir e extrair um valor a partir de uma Seqüência de caracteres

Gente, eu estou tentando extrair valor de 'status' de baixo, a seqüência de(nome da coluna: pessoas) no ramo. O problema é que a coluna não é nem um completo JSON nem armazenada como uma Matriz. Eu tentei fazer parecer um JSON substituindo '= com':'...
2

Executar uma operação de digitalização em um grupo de registros em Pyspark Dataframe (Faísca v1.6)

Especialistas, eu tenho um requisito, se em um grupo de registros que precisam para realizar "verificar e Agir" operação em um Pyspark dataframe. Aqui é o meu pyspark dataframe (Faísca versão 1.6) com 2 campos- col1 effective_date A 2019-...
2

Exemplo de dataframe não transmitido ao fazer uma associação sem alterar Propriedades de Ignição

De acordo com a documentação, uma pequena DataFrame é transmitido por predefinição, se este é um Ramo Metastore tabela e o DataFrame tamanho é menor do que 10MB. Aqui eu estou tentando encontrar um exemplo de um "pequeno" DataFrame que é difundido n...
0

Cassandra contagem de consulta jogando ReadFailureException

Eu estou usando o spark-sql 2.4.1 , spark-cassandra-connector_2.11-2.4.1.jar e java8. Eu tenho uma situação , para a auditoria de propósito que eu preciso para calcular a tabela de contagem de linhas de C* tabela. Eu tenho em torno de 2 bilhões de re...
0

A conversão de aninhados valores nulos para seqüências de caracteres vazias dentro dataframe faísca

Eu estou olhando para converter valores nulos aninhada na Matriz de Seqüência de caracteres para cadeias de caracteres vazias no spark. Os dados estão em uma dataframe. Eu planeja executar uma função de reduzir depois de fazer o dataframe nulo seguro...
0

Faísca datafram: Como modificar colunas aninhadas valor de acordo com exterior coluna

Como posso alterar o datafram inter coluna de b.c? A exigência é, se c é nulo o conjunto c = a { "a": "1" "b": [ c: null, d: 2 ] } Obrigado
0

Faísca sortMergeJoin não está mudando para shuffleHashJoin

Eu estou tentando forçar a faísca para usar ShuffleHashJoin desativando BroadcastHashJoin e SortMergeJoin, mas a faísca está sempre usando SortMergeJoin. Eu estou usando o spark versão 2.4.3 object ShuffleHashJoin { def main(args: Array[String]): ...
0

como converter um pandas dataframe contém numpy.ndarray elementos em pyspark dataframe?

Como salvar um pandas dataframe tabela contém numpy.ndarray em pyspark dataframe? data = [['tom', [1,2,3,4]], ['nick', [1,5,4,3]], ['juli', [1,2,4,3]]] df = pd.DataFrame(data, columns = ['Name', 'Age']) Eu canso de fazer spark.cre...
2

Analisar o arquivo JSON usando o Spark Scala

Eu tenho o JSON fonte de dados de arquivo como abaixo e eu vou precisar os Resultados Esperados bastante em um formato diferente que também é mostrado abaixo, existe uma maneira que pode conseguir isso usando o Spark Scala. Aprecio sua ajuda nesta ...
2

Junte-se 2 DataFrame com base na pesquisa dentro de uma Coluna de coleções - Faísca,Scala

Eu tenho 2 dataframes como abaixo, val x = Seq((Seq(4,5),"XXX"),(Seq(7),"XYX")).toDF("X","NAME") val y = Seq((5)).toDF("Y") Eu quero juntar as duas dataframes, observando-se o valor de y e a busca Seq/Matriz em x.select("X"), se houver, em seguid...
0

Como corrigir "status de Saída: -100. Diagnóstico: Recipiente lançado em um *perdida* nó de erro" na Ignição

Eu tenho de erro quando executar uma faísca de SQL através de um enorme conjunto de dados. Alguém pode me dar alguns conselhos para corrigir este erro? val df = sc.textFile("s3a://rbs-data-mining/USHeadphoneAllASINs/requestid_20190902.txt").toDF() ...
3

Podemos definir faísca.sql.shuffle.partições no AWS Cola?

A AWS Cola documentação não mencionar nada sobre o spark.sql.shuffle.partições (que por padrão é 200) e como aumentar/diminuir? É mesmo possível no AWS cola? Ou estamos preso com 200 partições? Há alguma boa documentação de contornar isso?
0

Unpivot: Conversão de colunas para linhas dinamicamente usando o Spark ou Ramo de

Existe uma maneira de criar dinâmicas coluna ao ingressar em uma relação um-para-muitos tabelas e trazer o filho de tabela para tabela pai da granularidade? Por exemplo: tabela pai tem Identificação 1 & 2. Tabela filho tem 2 registro de Id=1 e 3...
1

A escrita de um conjunto de dados para diferentes arquivos XML

Meu objetivo é ler um arquivo de entrada em um conjunto de dados, leitura de dados de um banco de dados em um dataset, junte-se o conjunto de dados sobre os números de conta e de saída especificada informações em arquivos XML com 50 MIL registros por...
1

Faísca SQL Collect_list(struct) salvo como json

Estou tendo um ramo de tabela que precisa ser gerado como json arquivo. Para o conseguir tenho aplicado collect_list(struct(fields..))as e salva-lo como json usando spark.write.json. Mas o json está tendo um adicional de campo de índice "A" no iníc...
1

pyspark - argmax de Linha(duplo<array>) dentro de 1 coluna [RESOLVIDO]

Eu tenho a seguinte situação. +--------------------+ | p| +--------------------+ |[0.99998416412131...| |[0.99998416412131...| |[0.99998416412131...| |[0.99998416412131...| |[0.99998416412131...| +--------------------+ Esta é uma...
1

como converter 1 Coluna que é struct<ano:int,mês:int,dia:int> para um normalizado aaaa/MM/dd tipo de dados de data formato em scala

dado eu tenho uma dataframe que inclui duas colunas com a seguinte estrutura, como posso converter os dados na data_inicial e data_final para um formato aaaa/MM/dd com um tipo de dados data em sparkSQL (Scala). Também data_final estrutura também po...
0

Como posso armazenar dados particionados em arquivos separados

tem um arquivo de entrada que contém o texto abaixo: India’s football team captain Sunil Chhetri recently took to Twitter pleading fans to support his team in a four-nation tournament held in Mumbai. Virat Kohli, the captain of national cricket team...
0

Diferença entre Faísca aplicação vs trabalho vs fase vs tarefa?

Conforme meu entendimento: 1. Spark application is a whole piece of code (jar) 2. Spark job is subset of code - for each action one job will be created 3. Spark stage is subset of job - whenever data shuffle happens (wide transformation) - one stag...
0

Buscar dados do Azure EventHub apenas para uma janela de tempo em Scala utilizando o IntelliJ

Eu tenho que buscar 1 dia em dados do Azure eventhub e aplicar um pouco de lógica e copiá-lo para o cosmos DB. Eu sou capaz de buscar os dados a partir de eventhub mas os dados de transmissão em sequência. Eu preciso de obtenção de dados apenas para ...
0

Como ignorar a primeira e última linha de um arquivo dat e torná-lo para o dataframe usando fones de ouvido scala em databricks

H|*|D|*|PA|*|BJ|*|S|*|2019.05.27 08:54:24|##| H|*|AP_ATTR_ID|*|AP_ID|*|OPER_ID|*|ATTR_ID|*|ATTR_GROUP|*|LST_UPD_USR|*|LST_UPD_TSTMP|##| 779045|*|Sar|*|SUPERVISOR HIERARCHY|*|Supervisor|*|2|*|128|*|2019.05.14 16:48:16|##| 779048|*|KK|*|SUPERVISOR HIER...
0

Diferença entre SparkSQl e Scala

Qual é a diferença entre Scala e SparkSQL? Eu estou começando a aprender Faísca e optar por usar o fone de ouvido Scala por Faísca, mas agora e, em seguida, eu estou ficando redirecionado para páginas usando SparkSQl com Faísca no mesmo artigo. Eu e...
0

Faísca falha quando a filtragem de uma dataframe contendo uma udf-transformada tabela

I-m de ter um problema no pyspark (tanto nas versões 2.2.0 e 2.3.0), enquanto que a filtragem de uma dataframe por uma coluna que tenha sido previamente transformadas usando uma UDF. Aqui-s um mínimo de exemplo de código que falha. O primeiro show() ...