1

AWSのglueサービスで下記のようなCSVファイルをクロールしデータカタログを作成しすると
分類がUNKNOWNになります.

DATE=2018-11-01

city,score
tokyo,2
osaka,3
kyoto,4
...

(最初の2行を除くと正しくデータカタログが作成されます)
データカタログを正しく作成するためにクローラで対応する方法はありますか?
lambdaなどで1行目がヘッダー列になるようにするしかありませんか?

ktym
  • 27
  • 2

1 Answers1

0

手元でちょっと試してみましたが、この形式のファイルをクローラーに自動で分類させるのは不可能かもしれません。

しかしながら、手動でテーブルを作成することで、AthenaやETLジョブで処理できる形が作れるようでした。
Serdeパラメータにskip.header.line.count: 3 を追加するとうまくいきます。
テーブル作成画面では設定できないので、いったん作ってから編集することになります。

lefb766
  • 41
  • 3
  • ありがとうございます.色々調べましたが無理そうだとわかりました.ご指摘の手動パラメタで対応したいと思います。 – ktym Nov 20 '18 at 23:20