Table of Contents - rabbit-slide-kou-oss-forum-apache-arrow-2018.12.4.1 Documentation
Pages
- README.rd
- Rakefile
-
apache-arrow.rab
- Apache Arrow
- 自己紹介:名前
- 自己紹介:プログラミング
- 自己紹介:C/C++を書く理由
- 自己紹介:Apache Arrowの開発
- 自己紹介:仕事
- データ処理ツールの開発事業
- Apache Arrow
- 実現すること
- 効率化のポイント
- 速度向上方法
- 遅い部分
- データ交換
- データ処理システム例
- スライドプロパティー
- データ交換処理
- データ交換処理:必要なリソース
- Ruby+JSONでデータ交換
- Ruby+JSONの速度の傾向
- データ交換の高速化
- Apache Arrowのアプローチ
- Ruby+Apache Arrowでデータ交換
- Ruby+Apache Arrowの速度の傾向
- Apache Sparkでの高速化事例
- Apache Arrowフォーマットの特徴
- メモリーマップの活用
- 遅い部分の高速化まとめ
- 高速化できる部分
- 大量データの計算の高速化
- 各データの計算の高速化
- 想定ユースケース
- OLAP向きのデータの持ち方
- スライドプロパティー
- まとまったデータの計算を高速化
- スレッド活用時のポイント
- Apache Arrowとスレッド
- 高速化のまとめ
- 実装コストを下げる
- 今のApache Arrowが提供する機能
- Apache Arrowの向き不向き
- 実装コストのまとめ
- Apache Arrowが扱えるデータ
- データフレーム
- 扱える型:真偽値・数値
- 扱える型:文字列・バイト列
- 扱える型:日付・タイムスタンプ
- 扱える型:時間
- 扱える型:リスト
- 扱える型:構造体
- 扱える型:共用体
- 扱える型:辞書
- データフレームのまとめ
- 多次元配列
- 密な多次元配列
- 疎な多次元配列
- 多次元配列のまとめ
- Apache Arrowが提供する機能
- フォーマット変換機能
- 対応フォーマット:CSV
- 対応フォーマット:Apache Parquet
- 対応フォーマット:Apache ORC
- 対応フォーマット:Feather
- 対応中フォーマット:Apache Avro
- 非公式対応フォーマット:MDS
- フォーマット変換機能まとめ
- 効率的なデータ交換処理
- Plasma
- Apache Arrow Flight
- DB連携
- 効率的なデータ交換処理のまとめ
- 高速なデータ処理ロジック
- Gandiva
- Gandiva:実行時に最適化
- 高速なデータ処理ロジックのまとめ
- 対応言語
- 実装方法
- C#の実装状況
- C++の実装状況
- Goの実装状況
- Javaの実装状況
- JavaScriptの実装状況
- Juliaの実装状況
- Rustの実装状況
- C・Lua・Rubyの実装状況
- MATLABの実装状況
- Pythonの実装状況
- Rの実装状況
- 対応言語まとめ
- まとめ
- Apache Arrowの開発に参加を支援
- OSSをITに活用
- OSSの開発に参加を支援
- config.yaml
Classes and Modules
Methods
- #deserialize_arrow — Object
- #deserialize_csv — Object
- #deserialize_json — Object
- #serialize_arrow — Object
- #serialize_csv — Object
- #serialize_json — Object