[B! bigdata] sh19910711のブックマーク

Apache Hive 4: 新しく追加されたUDFの紹介 - おくみん公式ブログ

Tuple Sketch UDFs 先日ついにApache Hive 4.0.0がリリースされました。おおよそ6年ぶりのメジャーアップデートということもあり、5000コミット以上もの変更をともなう大型リリースとなっています。この記事ではHive 4にて追加されるUDFを紹介します。新UDF一覧文字列操作系 HIVE-685: quote HIVE-18545: json_read 算術系 HIVE-26636: sinh, cosh, tanh 時刻系 HIVE-20768: tumbling_window HIVE-21576: cast + format 配列系統計系 HIVE-16255: percentile_cont, percentile_disc HIVE-20490: approx_distinct HIVE-22939: データスケッチUDF GeoSpatial

sh19910711 2024/06/28

"Apache Hive 4: おおよそ6年ぶりのメジャーアップデートということもあり、5000コミット以上もの変更をともなう大型リリース / Apache DataSketchesを用いたスケッチUDF群が大量に追加"

リンク

Amazon AthenaからIceberg形式のGlueテーブルの削除済みのスナップショットにタイムトラベルできないことを確認する | DevelopersIO

Amazon AthenaからIceberg形式のGlueテーブルの削除済みのスナップショットにタイムトラベルできないことを確認するデータアナリティクス事業本部インテグレーション部機械学習チームの鈴木です。今回は簡単な例ですが、Iceberg形式のGlueテーブルに対して、どのような場合にタイムトラベルができて、どうすればできなくなるのかをAmazon Athenaから確認してみました。はじめに Amazon AthenaなどでサポートされているIcebergテーブルでは、スナップショットをもとに過去のデータの状態にタイムトラベルすることが可能です。一方でスナップショットが残ってしまうことが課題となるケースもあります。例えば以下のSnowflakeの記事で紹介されているようなケースです。 GDPR：ベストプラクティス、一般的なリファレンスアーキテクチャパターンこれはEU一般デ

sh19910711 2024/06/20

"Icebergテーブルでは、スナップショットをもとに過去のデータの状態にタイムトラベルすることが可能 / 一方でスナップショットが残ってしまうことが課題となるケースもあり (GDPR)"

リンク

{sparklyr}でS3バケット上のファイルをRで扱う - Qiita

概要少し前に{sparklyr}というRからSparkを使うパッケージがRStudio社から公開されました。この{sparklyr}にはS3上のファイルも読み込めるspark_read_csvという関数が提供されており、Amazon Athenaが東京リージョンに来るまで代わりに使えないかと試してみました。今回はAWS Public Datasetsにあるデータセットを読み込んでみましたが、入力対象のS3バケットに権限があれば同じように扱えると思います。 sparklyr: R interface for Apache Spark 事前準備 {sparklyr}の活用にあたって対象パッケージのインストールと、Spark環境の設定が必要になります。後者については{sparklyr}に関数が用意されているので、今回はそれを使用してローカルに環境構築します。今回は試しませんが、ローカルでは

sh19910711 2024/06/18

"{sparklyr}: RからSparkを使うパッケージ + RStudio社から公開 / S3上のファイルも読み込めるspark_read_csvという関数が提供されており、Amazon Athenaが東京リージョンに来るまで代わりに使えないか" 2017

リンク

NumpyやPySparkで大量の確率モデルの確率密度関数を積分する - Qiita

はじめに業務で行っていたとある分析で、大量の確率モデルの確率密度関数を積分して確率を求める機会があったので、この記事ではその際に調べたことを、架空の問題設定を通して紹介していこうと思います。問題設定今回はダミーのデータセットを用いて説明しようと思います。 ECサイトのユーザの毎月の決済回数を集計して、平均と標準偏差を算出したという体で、以下のようにしてNumpyとPandasでダミーデータを作成します。 rg = np.random.default_rng() models = [] for i in range(100000): id = str(i) usage = rg.uniform(0, 30, 12) # 各ユーザの12か月の利用回数を0~30の一様分布で生成 mean = float(np.mean(usage)) std = float(np.std(usage))

sh19910711 2024/06/18

"大量の確率モデルの確率密度関数を積分して確率を求める / 平均と標準偏差をパラメータとして持つ正規分布を各ユーザの月間決済回数を表すモデルとして、そこから月間決済回数が3回以上となる確率を計算したい" 2022

リンク

pytestでSparkアプリケーションのテストを書いてみる - Qiita

Sparkで動くアプリケーションをPythonで書いたので、pytestでテストしたい！大規模データでもテストしたいので、YARNクラスタにも投げたい！ある意味 pytestに入門してみたメモの続編です。 pytestプラグインとかあるみたいですが今回は手の内が分かったうえで自分でいろいろやりたかったので、前回の復習も兼ねて自前で作ってみることにします。 spark-submitコマンドを使わずにSparkにアクセス Spark向けに書いたスクリプトを実行する時、普通はspark-submitコマンドを使うと思いますが、今回はpytest経由で実行したいので、spark-submitを使わずに普通のPythonからpysparkモジュールを呼びたいわけです。そのためには、本来spark-submitがやっている諸々の設定を自分でやればいいはず。spark-submitの処理を追い

sh19910711 2024/06/17

"大規模データでもテストしたいので、YARNクラスタにも投げたい / spark_session: conftest.pyに移して、scope="session"と変更すれば、複数のスクリプトを回すときでも全体で1回だけ初期化することになるはず" 2018

リンク

PySparkでspark-testing-baseを使ってみる - Qiita

概要 spark用のテストライブラリのspark-testing-baseをPySparkでどのように使うかを軽く調べてみた。調べたこと unittest2のTestCaseを継承しており、unittest2.main()でテスト実行できるクラス内部でspark contextを立ち上げており、テストでわざわざ自力で立ち上げる必要がない自分でspark contextを立ち上げていると、テスト実行時にエラーになる DataFrameの場合、スキーマと件数と各レコードの並びが一致するかを確認しているみたい from sparktestingbase.sqltestcase import SQLTestCase import unittest2 class DataFrameTest(SQLTestCase): def test_expected_equal(self): data =

sh19910711 2024/06/16

"spark用のテストライブラリのspark-testing-baseをPySparkでどのように使うか / unittest2のTestCaseを継承しており、unittest2.main()でテスト実行できる / クラス内部でspark contextを立ち上げ" 2019

リンク

Apache Spark 3.5で導入されたTesting APIを試す - Qiita

久しぶりのLLM以外の記事ですが、どちらかといえばこちらが本業です。導入 Apache Spark 3.5がリリースされました。下記のDatabricks公式blogでも取り上げられています。これを読んでいていると、PysparkのTesting APIというものに目が引かれました。類似のモジュールは既にあったと思うのですが、公式が出してくれると地味に捗ります。というわけで、下のドキュメントを基に、ウォークスルーしてみました。環境はいつものようにDatabricksを使います。DBRは14.0です。 Step1. ビルトイン関数を試すドキュメントの内容ほぼそのままを実行してきます。最初はデータフレーム同士の比較を行う関数assertDataFrameEqualでテストします。 import pyspark.testing from pyspark.testing.utils

sh19910711 2024/06/16

"Spark 3.5: PysparkのTesting APIというものに目が引かれました。類似のモジュールは既にあったと思うのですが、公式が出してくれると地味に捗ります / assertDataFrameEqual: データフレーム同士の比較を行う関数" 2023

リンク

pyhive + jinjasqlで、prestoに対してprepared statementを実行 - Qiita

はじめに Zenn とダブルポストです。 pythonを使って、prestoに対して、変数付きのSQL︵prepared statement︶を実行する必要があったので、そのときの経験の整理です。 prepared statementとは平たくいうと、where句の条件の値のところを変数にしたSQLです。変数の書き方にはいくつかあり、よくあるものは下記になります。

sh19910711 2024/06/16

"PEP 249: DBアクセスするpythonモジュールを作る際、同じような使い方できるように定義されたAPI / どのようなメソッドが定義されているかをおさえていれば、PEP 249を守って実装されたモジュールを同じように使えて便利" 2021

リンク

What’s Next for the Upcoming Apache Spark 4.0? (今後のApache Spark 4.0には何が期待されるのか？) - APC 技術ブログ

セッションの要約 Apache Spark 4.0のリリースが近づいており、新機能やバグ修正によりユーザーエクスペリエンスが向上します。注目点はANSIモードとデータハンドリングの改善で、SparknetGAの導入により多言語サポートが強化され、軽量なクライアントライブラリ﹁spark-connect﹂が登場します。文字列照合機能とストリーミングの強化により、データセットの操作が直感的になります。さらに、APIとUDFの改善、プロファイリングやログ記録機能の強化が開発者の効率を向上させます。 Apache Spark 4.0‥ANSIモードとデータハンドリングの強化 Apache Spark 4.0のリリースが近づいており、開発者体験が大幅に改善することが予想されています。主な焦点は、ANSIモードとデータハンドリングの顕著な改善に基づいています。 Spark ConnectがGAに

sh19910711 2024/06/14

"Spark 4.0: Go、Rust、Scala 3をはじめとする多くの言語をサポート / 新たに導入された軽量クライアントライブラリ「spark-connect」は、Pythonだけに依存し、JVMには依存していません"

リンク

Glue + Athenaのローカル開発環境をOSSで構築（MinIO + Trino + HIVE） | moritalous blog

この環境をDocker Composeを使い構築します。環境構築MinIOまずはS3を置き換えるMinIOからです。ポイントは path-styleではなくvirtual-hosted styleを使用するため、MINIO_DOMAIN環境変数をセット他のコンテナから[バケット名].minioで名前解決できるようにhostnameを指定path-styleとvirtual-hosted styleの違いはこちらを参照ください。 version: '3' services: minio: image: quay.io/minio/minio hostname: bucket001.minio restart: always volumes: - ./minio/data:/data environment: - MINIO_DOMAIN=minio command: ["server

sh19910711 2024/05/28

"MINIO_DOMAIN環境変数をセット + 他のコンテナから[バケット名].minioで名前解決できるようにhostnameを指定 / Trino: 公式イメージが用意 + 必要なのはMinIOをカタログとして使用するための設定ファイル" 2022

リンク

Apache SparkのTempViewに嵌った話 - Qiita

はじめに Databricks/Apache Sparkで開発を行っている際にTempViewを使用していたのですが、TempViewはメモリ上のデータを参照していると誤った認識をしていたため嵌りました。結論と対応方法を備忘録も兼ねてこの記事で共有させてください。実際に嵌った話処理の最初にDatabricks外部のDB から大量データをDatabricksに抽出し、TempViewに格納して、後続の処理ではTempViewを参照してデータを加工していく処理があります。このTempViewを参照している箇所の処理が軒並み遅くメモリ上に格納されているのになぜ・・・？となったのがきっかけです。誤った認識 Apache SparkのTempViewはメモリ上にデータが格納されていると思っていました。例えば下記SQLをDatabricks上で実行したときにTMP_COMMENTSはメモリ上か

sh19910711 2024/05/27

"外部のDB から大量データをDatabricksに抽出し、TempViewに格納 / TempViewはメモリ上のデータを参照していると誤った認識をしていた + RDBのViewと同様に実態を持たない / メモリ上に格納したい場合、cache()コマンドを実行" 2022

リンク

Hive on TezのEXPLAINを読み解く | DevelopersIO

こんにちは、小澤です。 RDBではおなじみのEXPLAIN、実行計画を確認しクエリを最適化したり、インデックスの貼り方を考えたりするのによく使われるかと思います。このEXPLAINですが、Hiveでも利用可能です。 HiveのEXPLAINはMapReduceやTez, Sparkのジョブに変換されるため、少々見方が特殊でこれらの知識も必要になります。実行エンジンによって表示され方が異なるため、今回はHive on Tezに限定してこのEXPLAINの見方を解説していきます。今回利用するクエリ今回は、TPC-DSというOLAPなどの分析系クエリのベンチマークで利用されるデータを利用して見ていきたいと思います。TPC-DSの詳細については解説しませんので、気になる方は公式の情報をご確認ください。TPC-DS HiveでTPC-DSを利用できる環境を整えるために、以下のスクリプトを

sh19910711 2024/05/26

"HiveのEXPLAIN: MapReduceやTez, Sparkのジョブに変換されるため、少々見方が特殊 / ジョブを実行すると、TezのWebUIからビジュアライズされたものが確認できますが、実行計画のこの部分から同じものを作成することも可能" 2017

リンク

Hadoop Streaming の Mapper と Reducer を初めて書いて感じたこと:お題目うぉっち

2010年02月02日 Hadoop Streaming の Mapper と Reducer を初めて書いて感じたこと O'reilly の Hadoop本を読んで、ますます Hadoop 熱が上昇中。ということで、社内でもともとDBで行っていて﹁重い、重い﹂と評判の分析処理を題材に、既存ロジックの Mapper、Reducerへの置き換えを体験してみた。結局、6段階のMapReduceのチェーンに置き換えられたのだが、内容はさておくとして、既存の処理を mapper、reducer に置き換えていったときに感じたこと、印象深かったことを記しておくことにする︵多分、思い違いや、もっといい方法があると思うが、初心者の過ちということで︶。 ■ Streamingの場合、Mapper, Reducerへの入力は Key, Value ではない Javaのメソッドの説明を下手に読んで私がまず混

sh19910711 2024/05/26

"よくある MapReduce の説明だと、「Mapper、Reducerには、各行の Key と Value が渡される」的なことが書かれ / 一方、Streaming の場合は InputFormat が Key と Value を Value として一緒くたにして STDIN経由で渡してくる" 2010

リンク

『Hadoopソースコードリーディング第16回』で Apache Spark の勉強をしてきました #hadoopreading - べにやまぶろぐ

今熱い視線を向けつつもそれだけで終わってしまっている Apache Spark の勉強会があるということで Hadoopソースコードリーディング第16回 Tickets, Thu, May 29, 2014 at 7:00 PM| Eventbriteに参加してきました。Hadoop じゃなかった気もするけど奇しくも初の Hadoop ソースコードリーディング参加で非常に濃密な時間を過ごすことができました。スライドもかなり濃密で前の方に早く来て座ってて良かったーと思ってたんですが素晴らしいことに全部 Slideshare で公開されました。何度も反芻しないと理解しきれない感じしていたので大変ありがたいです。ということでやや勘違いしているところもありそうですがメモを残しておきます。 Apache Spark のご紹介前半 (土橋昌さん / NTT データ) Apache Spar

sh19910711 2024/05/24

"Shark が SparkSQL に変わった / StorageLevel: useDisk, useMemory, useOffHeap, deserialized, replication などポリシーを設定できる / ASM4 というライブラリを使ってバイトコードの中をトラバース" 2014

リンク

小さなファイルが大きな問題を引き起こす

原文: https://blog.cloudera.com/blog/2019/05/small-files-big-foils-addressing-the-associated-metadata-and-application-challenges/ 著者: Shashank Naik, Bhagya Gummalla 訳注: 本稿は2019/5/9に公開されたブログ記事の翻訳です。「スモール・ファイル」はApache Hadoopの世界では一般的な課題であり、注意して扱わないと、いくつかの複雑な問題を引き起こす可能性があります。Apache Hadoop分散ファイルシステム（HDFS）は、テラバイトからペタバイトの範囲にわたる、大きなデータセットを格納して処理するために開発されました。しかしHDFSはスモール・ファイルを効率的に格納しないため、スモール・ファイルによってNameNo

sh19910711 2024/05/22

"スモール・ファイル: NameNodeのメモリ使用率とRPC呼び出しの効率が悪くなり、スキャンのスループットが低下 / Spark: 各パーティションは、デフォルトで1つのHDFSブロック / できる限りHDFSブロックサイズの倍数に近づける" 2019

リンク

並列分散処理基盤のいま～45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門～（Open Source Conference 2021 Online/Hokkaido 発表資料）

並列分散処理基盤のいま～45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門～（Open Source Conference 2021 Online/Hokkaido 発表資料） 2021年6月26日 NTTデータ技術革新統括本部システム技術本部デジタル技術部インテグレーション技術担当吉田貴哉Read less

sh19910711 2024/05/11

"従来のデータレイク: 高度化する要件に対してデータの整合性を保つのが難しい・更新の重複への対応が難しいなどの課題 / データレイクを進化させるOSSのストレージレイヤソフトウェアが登場" 2021

リンク

GlueJobからRedshiftServerlessに直接インサートするサンプルデータパイプラインのご紹介｜基幹システムのクラウド移行・構築・導入支援のBeeX

はじめにこんにちは、半田(@handy)です。 AWS上でデータパイプラインを検討する際、よく見る構成としてはS3上のファイルをGlue Jobで変換した後、再度S3に格納してAthenaやRedshiftなどから参照する方法があります。ただ、パフォーマンス要件からRedshiftにデータを取り込む必要がある場合、定期的にS3からのロードを行う必要があります。今回の構成では途中に変換後用のS3を介することなく、Glue Jobから直接Redshiftにインサートを行うデータパイプラインを構築してみましたので、その構成や具体的な設定内容などについてご紹介します。また、Glue Jobで変換する際、通常は一度S3に入れた変換前データをGlue Crawlerでクローリングし、メタデータをGlue DataCatalogに登録して、Glue DataCatalog経由でデータをロードする方

sh19910711 2024/05/04

"Redshift Serverless: これまでSecrets Managerでのパスワード管理に対応していませんでしたが、2024年3月にアップデートがあり、現在では利用できるようになりました / 「redshift![名前空間名]-[DBユーザー名]」のフォーマット"

リンク

Hive on Spark の設計指針を読んでみた

現在、DMM.comでは、1日あたり1億レコード以上の行動ログを中心に、各サービスのコンテンツ情報や、地域情報のようなオープンデータを収集し、データドリブンマーケティングやマーケティングオートメーションに活用しています。しかし、データの規模が増大し、その用途が多様化するにともなって、データ処理のレイテンシが課題となってきました。本発表では、既存のデータ処理に用いられていたHiveの処理をHive on Sparkに置き換えることで、1日あたりのバッチ処理の時間を3分の1まで削減することができた事例を紹介し、Hive on Sparkの導入方法やメリットを具体的に解説します。 Hadoop / Spark Conference Japan 2016 http://www.eventbrite.com/e/hadoop-spark-conference-japan-2016-tickets-2

sh19910711 2024/05/04

"Hive QLの意味解析によりHiveのオペレータプランがSparkで実行できるタスクプランに変換 / Operator Plan: TableScanOperator, ReduceSink, FileSink, GroupByOperatorなどの論理オペレータのグラフで構成" 2014

リンク

Apache Igniteインメモリーデータ処理プラットフォーム：特徴＆利活用

本セッションでは、Apache Igniteインメモリーデータ処理プラットフォームをご紹介し、そのインメモリ技術を採用した活用シナリオをいくつか取り上げます。

sh19910711 2024/04/30

"Apache Ignite: メモリを中心に据えた分散データベース・キャッシュ・データ処理プラットフォーム + 2014年からASF + GridGain社から寄贈 / Ignite SQL: 分散JOIN (collocation) + トランザクション (MVCC) + index in RAM/disk" 2019

リンク

Mahout使って分析しちゃいました。

EnterpriseZine（エンタープライズジン）編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

sh19910711 2024/04/30

"Mahout: Luceneの成果の中で、機械学習に関するものがMahoutというサブプロジェクトとして分離 / Hadoopも同じく、Luceneプロジェクトの中のNutchというWeb検索エンジンのサブプロジェクトから派生" 2013

リンク

はてなブックマーク

タグ

関連タグで絞り込む (67)

bigdataに関するsh19910711のブックマーク (371)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス