タグ

bigdataに関するsh19910711のブックマーク (371)

  • Apache Hive 4: 新しく追加されたUDFの紹介 - おくみん公式ブログ

    Tuple Sketch UDFs 先日ついにApache Hive 4.0.0がリリースされました。おおよそ6年ぶりのメジャーアップデートということもあり、5000コミット以上もの変更をともなう大型リリースとなっています。 この記事ではHive 4にて追加されるUDFを紹介します。 新UDF一覧 文字列操作系 HIVE-685: quote HIVE-18545: json_read 算術系 HIVE-26636: sinh, cosh, tanh 時刻系 HIVE-20768: tumbling_window HIVE-21576: cast + format 配列系 統計系 HIVE-16255: percentile_cont, percentile_disc HIVE-20490: approx_distinct HIVE-22939: データスケッチUDF GeoSpatial

    Apache Hive 4: 新しく追加されたUDFの紹介 - おくみん公式ブログ
    sh19910711
    sh19910711 2024/06/28
    "Apache Hive 4: おおよそ6年ぶりのメジャーアップデートということもあり、5000コミット以上もの変更をともなう大型リリース / Apache DataSketchesを用いたスケッチUDF群が大量に追加"
  • Amazon AthenaからIceberg形式のGlueテーブルの削除済みのスナップショットにタイムトラベルできないことを確認する | DevelopersIO

    Amazon AthenaからIceberg形式のGlueテーブルの削除済みのスナップショットにタイムトラベルできないことを確認する データアナリティクス事業部 インテグレーション部 機械学習チームの鈴木です。 今回は簡単な例ですが、Iceberg形式のGlueテーブルに対して、どのような場合にタイムトラベルができて、どうすればできなくなるのかをAmazon Athenaから確認してみました。 はじめに Amazon AthenaなどでサポートされているIcebergテーブルでは、スナップショットをもとに過去のデータの状態にタイムトラベルすることが可能です。 一方でスナップショットが残ってしまうことが課題となるケースもあります。例えば以下のSnowflakeの記事で紹介されているようなケースです。 GDPR:ベストプラクティス、一般的なリファレンスアーキテクチャパターン これはEU一般デ

    Amazon AthenaからIceberg形式のGlueテーブルの削除済みのスナップショットにタイムトラベルできないことを確認する | DevelopersIO
    sh19910711
    sh19910711 2024/06/20
    "Icebergテーブルでは、スナップショットをもとに過去のデータの状態にタイムトラベルすることが可能 / 一方でスナップショットが残ってしまうことが課題となるケースもあり (GDPR)"
  • {sparklyr}でS3バケット上のファイルをRで扱う - Qiita

    概要 少し前に{sparklyr}というRからSparkを使うパッケージがRStudio社から公開されました。この{sparklyr}にはS3上のファイルも読み込めるspark_read_csvという関数が提供されており、Amazon Athenaが東京リージョンに来るまで代わりに使えないかと試してみました。 今回はAWS Public Datasetsにあるデータセットを読み込んでみましたが、入力対象のS3バケットに権限があれば同じように扱えると思います。 sparklyr: R interface for Apache Spark 事前準備 {sparklyr}の活用にあたって対象パッケージのインストールと、Spark環境の設定が必要になります。後者については{sparklyr}に関数が用意されているので、今回はそれを使用してローカルに環境構築します。 今回は試しませんが、ローカルでは

    {sparklyr}でS3バケット上のファイルをRで扱う - Qiita
    sh19910711
    sh19910711 2024/06/18
    "{sparklyr}: RからSparkを使うパッケージ + RStudio社から公開 / S3上のファイルも読み込めるspark_read_csvという関数が提供されており、Amazon Athenaが東京リージョンに来るまで代わりに使えないか" 2017
  • NumpyやPySparkで大量の確率モデルの確率密度関数を積分する - Qiita

    はじめに 業務で行っていたとある分析で、大量の確率モデルの確率密度関数を積分して確率を求める機会があったので、この記事ではその際に調べたことを、架空の問題設定を通して紹介していこうと思います。 問題設定 今回はダミーのデータセットを用いて説明しようと思います。 ECサイトのユーザの毎月の決済回数を集計して、平均と標準偏差を算出したという体で、以下のようにしてNumpyとPandasでダミーデータを作成します。 rg = np.random.default_rng() models = [] for i in range(100000): id = str(i) usage = rg.uniform(0, 30, 12) # 各ユーザの12か月の利用回数を0~30の一様分布で生成 mean = float(np.mean(usage)) std = float(np.std(usage))

    NumpyやPySparkで大量の確率モデルの確率密度関数を積分する - Qiita
    sh19910711
    sh19910711 2024/06/18
    "大量の確率モデルの確率密度関数を積分して確率を求める / 平均と標準偏差をパラメータとして持つ正規分布を各ユーザの月間決済回数を表すモデルとして、そこから月間決済回数が3回以上となる確率を計算したい" 2022
  • pytestでSparkアプリケーションのテストを書いてみる - Qiita


    SparkPythonpytest YARN  pytest  pytest  spark-submit使Spark Sparkspark-submit使pytestspark-submit使Pythonpyspark spark-submitspark-submit
    pytestでSparkアプリケーションのテストを書いてみる - Qiita
    sh19910711
    sh19910711 2024/06/17
    "大規模データでもテストしたいので、YARNクラスタにも投げたい / spark_session: conftest.pyに移して、scope="session"と変更すれば、複数のスクリプトを回すときでも全体で1回だけ初期化することになるはず" 2018
  • PySparkでspark-testing-baseを使ってみる - Qiita

    概要 spark用のテストライブラリのspark-testing-baseをPySparkでどのように使うかを軽く調べてみた。 調べたこと unittest2のTestCaseを継承しており、unittest2.main()でテスト実行できる クラス内部でspark contextを立ち上げており、テストでわざわざ自力で立ち上げる必要がない 自分でspark contextを立ち上げていると、テスト実行時にエラーになる DataFrameの場合、スキーマと件数と各レコードの並びが一致するかを確認しているみたい from sparktestingbase.sqltestcase import SQLTestCase import unittest2 class DataFrameTest(SQLTestCase): def test_expected_equal(self): data =

    PySparkでspark-testing-baseを使ってみる - Qiita
    sh19910711
    sh19910711 2024/06/16
    "spark用のテストライブラリのspark-testing-baseをPySparkでどのように使うか / unittest2のTestCaseを継承しており、unittest2.main()でテスト実行できる / クラス内部でspark contextを立ち上げ" 2019
  • Apache Spark 3.5で導入されたTesting APIを試す - Qiita


    LLM  Apache Spark 3.5 Databricksblog PysparkTesting API   Databricks使DBR14.0 Step1.   assertDataFrameEqual import pyspark.testing from pyspark.testing.utils
    Apache Spark 3.5で導入されたTesting APIを試す - Qiita
    sh19910711
    sh19910711 2024/06/16
    "Spark 3.5: PysparkのTesting APIというものに目が引かれました。類似のモジュールは既にあったと思うのですが、公式が出してくれると地味に捗ります / assertDataFrameEqual: データフレーム同士の比較を行う関数" 2023
  • pyhive + jinjasqlで、prestoに対してprepared statementを実行 - Qiita


     Zenn  python使prestoSQLprepared statement prepared statement whereSQL 
    pyhive + jinjasqlで、prestoに対してprepared statementを実行 - Qiita
    sh19910711
    sh19910711 2024/06/16
    "PEP 249: DBアクセスするpythonモジュールを作る際、同じような使い方できるように定義されたAPI / どのようなメソッドが定義されているかをおさえていれば、PEP 249を守って実装されたモジュールを同じように使えて便利" 2021
  • What’s Next for the Upcoming Apache Spark 4.0? (今後のApache Spark 4.0には何が期待されるのか?) - APC 技術ブログ


     Apache Spark 4.0ANSISparknetGAspark-connectAPIUDF Apache Spark 4.0ANSI Apache Spark 4.0ANSI Spark ConnectGA
    What’s Next for the Upcoming Apache Spark 4.0? (今後のApache Spark 4.0には何が期待されるのか?) - APC 技術ブログ
    sh19910711
    sh19910711 2024/06/14
    "Spark 4.0: Go、Rust、Scala 3をはじめとする多くの言語をサポート / 新たに導入された軽量クライアントライブラリ「spark-connect」は、Pythonだけに依存し、JVMには依存していません"
  • Glue + Athenaのローカル開発環境をOSSで構築(MinIO + Trino + HIVE) | moritalous blog

    この環境をDocker Composeを使い構築します。 環境構築​MinIO​まずはS3を置き換えるMinIOからです。 ポイントは path-styleではなくvirtual-hosted styleを使用するため、MINIO_DOMAIN環境変数をセット他のコンテナから[バケット名].minioで名前解決できるようにhostnameを指定path-styleとvirtual-hosted styleの違いはこちらを参照ください。 version: '3' services: minio: image: quay.io/minio/minio hostname: bucket001.minio restart: always volumes: - ./minio/data:/data environment: - MINIO_DOMAIN=minio command: ["server

    Glue + Athenaのローカル開発環境をOSSで構築(MinIO + Trino + HIVE) | moritalous blog
    sh19910711
    sh19910711 2024/05/28
    "MINIO_DOMAIN環境変数をセット + 他のコンテナから[バケット名].minioで名前解決できるようにhostnameを指定 / Trino: 公式イメージが用意 + 必要なのはMinIOをカタログとして使用するための設定ファイル" 2022
  • Apache SparkのTempViewに嵌った話 - Qiita


     Databricks/Apache SparkTempView使TempView  DatabricksDB DatabricksTempViewTempView TempView  Apache SparkTempViewSQLDatabricksTMP_COMMENTS
    Apache SparkのTempViewに嵌った話 - Qiita
    sh19910711
    sh19910711 2024/05/27
    "外部のDB から大量データをDatabricksに抽出し、TempViewに格納 / TempViewはメモリ上のデータを参照していると誤った認識をしていた + RDBのViewと同様に実態を持たない / メモリ上に格納したい場合、cache()コマンドを実行" 2022
  • Hive on TezのEXPLAINを読み解く | DevelopersIO


     RDBEXPLAIN使 EXPLAINHive HiveEXPLAINMapReduceTez, Spark Hive on TezEXPLAIN  TPC-DSOLAPTPC-DSTPC-DS HiveTPC-DS
    Hive on TezのEXPLAINを読み解く | DevelopersIO
    sh19910711
    sh19910711 2024/05/26
    "HiveのEXPLAIN: MapReduceやTez, Sparkのジョブに変換されるため、少々見方が特殊 / ジョブを実行すると、TezのWebUIからビジュアライズされたものが確認できますが、実行計画のこの部分から同じものを作成することも可能" 2017
  • Hadoop Streaming の Mapper と Reducer を初めて書いて感じたこと:お題目うぉっち


    20100202 Hadoop Streaming  Mapper  Reducer  O'reilly  Hadoop Hadoop DB MapperReducer 6MapReduce mapperreducer   StreamingMapper, Reducer Key, Value  Java
    sh19910711
    sh19910711 2024/05/26
    "よくある MapReduce の説明だと、「Mapper、Reducerには、各行の Key と Value が渡される」的なことが書かれ / 一方、Streaming の場合は InputFormat が Key と Value を Value として一緒くたにして STDIN経由で渡してくる" 2010
  • 『Hadoopソースコードリーディング 第16回』で Apache Spark の勉強をしてきました #hadoopreading - べにやまぶろぐ


     Apache Spark  Hadoop 16 Tickets, Thu, May 29, 2014 at 7:00 PM| EventbriteHadoop  Hadoop   Slideshare   Apache Spark   ( / NTT ) Apache Spar
    『Hadoopソースコードリーディング 第16回』で Apache Spark の勉強をしてきました #hadoopreading - べにやまぶろぐ
    sh19910711
    sh19910711 2024/05/24
    "Shark が SparkSQL に変わった / StorageLevel: useDisk, useMemory, useOffHeap, deserialized, replication などポリシーを設定できる / ASM4 というライブラリを使ってバイトコードの中をトラバース" 2014
  • 小さなファイルが大きな問題を引き起こす

    原文: https://blog.cloudera.com/blog/2019/05/small-files-big-foils-addressing-the-associated-metadata-and-application-challenges/ 著者: Shashank Naik, Bhagya Gummalla 訳注: 稿は2019/5/9に公開されたブログ記事の翻訳です。 「スモール・ファイル」はApache Hadoopの世界では一般的な課題であり、注意して扱わないと、いくつかの複雑な問題を引き起こす可能性があります。Apache Hadoop分散ファイルシステム(HDFS)は、テラバイトからペタバイトの範囲にわたる、大きなデータセットを格納して処理するために開発されました。しかしHDFSはスモール・ファイルを効率的に格納しないため、スモール・ファイルによってNameNo

    小さなファイルが大きな問題を引き起こす
    sh19910711
    sh19910711 2024/05/22
    "スモール・ファイル: NameNodeのメモリ使用率とRPC呼び出しの効率が悪くなり、スキャンのスループットが低下 / Spark: 各パーティションは、デフォルトで1つのHDFSブロック / できる限りHDFSブロックサイズの倍数に近づける" 2019
  • 並列分散処理基盤のいま ~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~(Open Source Conference 2021 Online/Hokkaido 発表資料)

    並列分散処理基盤のいま ~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ (Open Source Conference 2021 Online/Hokkaido 発表資料) 2021年6月26日 NTTデータ 技術革新統括部 システム技術部 デジタル技術部 インテグレーション技術担当 吉田 貴哉Read less

    並列分散処理基盤のいま ~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~(Open Source Conference 2021 Online/Hokkaido 発表資料)
    sh19910711
    sh19910711 2024/05/11
    "従来のデータレイク: 高度化する要件に対してデータの整合性を保つのが難しい・更新の重複への対応が難しいなどの課題 / データレイクを進化させるOSSのストレージレイヤソフトウェアが登場" 2021
  • GlueJobからRedshiftServerlessに直接インサートするサンプルデータパイプラインのご紹介|基幹システムのクラウド移行・構築・導入支援のBeeX


    (@handy) AWSS3Glue JobS3AthenaRedshift RedshiftS3 S3Glue JobRedshift Glue JobS3Glue CrawlerGlue DataCatalogGlue DataCatalog
    GlueJobからRedshiftServerlessに直接インサートするサンプルデータパイプラインのご紹介|基幹システムのクラウド移行・構築・導入支援のBeeX
    sh19910711
    sh19910711 2024/05/04
    "Redshift Serverless: これまでSecrets Managerでのパスワード管理に対応していませんでしたが、2024年3月にアップデートがあり、現在では利用できるようになりました / 「redshift![名前空間名]-[DBユーザー名]」のフォーマット"
  • Hive on Spark の設計指針を読んでみた

    現在、DMM.comでは、1日あたり1億レコード以上の行動ログを中心に、各サービスのコンテンツ情報や、地域情報のようなオープンデータを収集し、データドリブンマーケティングやマーケティングオートメーションに活用しています。しかし、データの規模が増大し、その用途が多様化するにともなって、データ処理のレイテンシが課題となってきました。発表では、既存のデータ処理に用いられていたHiveの処理をHive on Sparkに置き換えることで、1日あたりのバッチ処理の時間を3分の1まで削減することができた事例を紹介し、Hive on Sparkの導入方法やメリットを具体的に解説します。 Hadoop / Spark Conference Japan 2016 http://www.eventbrite.com/e/hadoop-spark-conference-japan-2016-tickets-2

    Hive on Spark の設計指針を読んでみた
    sh19910711
    sh19910711 2024/05/04
    "Hive QLの意味解析によりHiveのオペレータプランがSparkで実行できるタスクプランに変換 / Operator Plan: TableScanOperator, ReduceSink, FileSink, GroupByOperatorなどの論理オペレータのグラフで構成" 2014
  • Apache Igniteインメモリーデータ処理プラットフォーム:特徴&利活用

    セッションでは、Apache Igniteインメモリーデータ処理プラットフォームをご紹介し、そのインメモリ技術を採用した活用シナリオをいくつか取り上げます。

    Apache Igniteインメモリーデータ処理プラットフォーム:特徴&利活用
    sh19910711
    sh19910711 2024/04/30
    "Apache Ignite: メモリを中心に据えた分散データベース・キャッシュ・データ処理プラットフォーム + 2014年からASF + GridGain社から寄贈 / Ignite SQL: 分散JOIN (collocation) + トランザクション (MVCC) + index in RAM/disk" 2019
  • Mahout使って分析しちゃいました。

    EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

    Mahout使って分析しちゃいました。
    sh19910711
    sh19910711 2024/04/30
    "Mahout: Luceneの成果の中で、機械学習に関するものがMahoutというサブプロジェクトとして分離 / Hadoopも同じく、Luceneプロジェクトの中のNutchというWeb検索エンジンのサブプロジェクトから派生" 2013