確かにシンタックスハイライトを入れると広い利用者向けにはよさそう

4K/8K放送が始まっても別に関係ないやと考えていたが、アーカイブという観点ではこれは大きな出来事だと今更ながら。現在のHD1080pの画素数2Mが8K4320pでは33Mになり、フルスペックだと非圧縮144.3Gbpsだというから、そのまま保存すれば1時間で65TBにもなる。アーカイブに必要なストレージが桁違いに膨れ上がるわけで、当然それに対応する機材も出てはくるだろうけれど、必要な場所をシークして探すというのもどんどん困難になり、ますます詳細なメタデータが重要になるというわけだ

SPARQLエンドポイントのある文化財関係サイトを探し、IDを工夫して統合クエリの範囲を広げていく。なかなか面白い

不完全ながらもEuropeanaとの統合クエリができてちょっと感動。あちらがEntity API相当のデータをエンドポイントでも提供してくれたらもっとスムーズになるはずで、期待

5000人近くの芸術家について、典拠間でこれとこれは同じ/異なるという同定作業。本当はそれぞれの活動内容や作品を吟味して検討すべきなのだけれど、そこを大幅に簡略化して大急ぎで進め、没年を機械的に比べる中で、時々あぁ数年前までは健在でご活躍だったんだなという思いがよぎり、メタデータの業を感じたりする。同定漏れよりも誤同定の方が罪深いので、できるだけ丁寧に確認はしたいところだが、全件チェックするわけにも行かず、悩ましい

2つの典拠を照合しようとして、ツールで生没年まで取得しているのだけれど、1年ずれていたり、一方で没年が漏れていたりと、かなりの部分で個別確認が必要で、恐ろしく手間がかかる

手作業での確認はやはり限界なので、明日ツールを作って進める

デジタルアーカイブの定義は人によってかなり違いがありそう

xdebugを無効化したらプログラムの動きが劇的に速くなった。10倍とは言わないまでも、処理時間からみて7~8倍にはなる。今まで何だったのか…

何だかPCの挙動が重いのでどうしたことかとシステム情報を見たら、ディスクの残り容量が3%程度。何事かとduしたところ、xdebugのプロファイラがせっせとためこんだキャッシュがものすごい量になっていた。自動ではプロファイリングしないように設定ファイルを書き直し、過去のキャッシュを全削除。これで半分ほど空いた

2500万トリプルになったら公開サーバーのVirtuosoテキスト検索がほとんど動かなくなった。グラフ探索やDESCRIBEは問題ない。メモリのバッファ割当がデフォルト(80MB相当)のままだったので、800MBまで増やしたら正常になった。TogoWikiではTurtleのファイルサイズと同量が目安といった記述があり、現在JSON-LDで1.19GBなので、確かにそんなところかも。10億トリプルクラスでは30~40GBレベルのバッファが必要ということか

Wikidataにつなぐのはさすがに無理かなと思っていたが、DBpedia-jから辿って一括クエリすればできるかもと思いついて試したところ、かなりの割合でIDが取得できた。これは嬉しい

思いつきで、タイトル読みがあって英文がないものをローマ字変換し、schema:nameを追加。役立たつのかどうか不明だったが、「タイトルにkodomoを含む絵画」といった検索ができて、結構使える。ただしsushiのような短いフレーズだと、atsushiにもマッチしたりして、ノイズだらけ。面白いものだ

アルゴリズムでカバーできることをある程度尽くしたら、あとは辞書なんだけれど、これは本当に切りがない

「月を入力すると日を返す多項式」と中国剰余定理 tsujimotter.hatenablog.com/ent 面白いねぇ。Sageという数学ソフトで簡単に計算できると doc.sagemath.org/html/ja/tutor

neosemanticsを使って変換中のJPSearchのRDFサンプルをNeo4jに取り込んでみた。今まで試したツールの中で最もスムーズな部類。そしてこれは面白い

ShExを生成してみて、試行錯誤の結果なかなかうまく行った。データよりShape記述の誤りがよく分かる;-)

2年前の資料をうまく探し出すことができて、不完全でも何かのヒントを1箇所にまとめておくのが役立つと改めて思っているところ

昨日の続きから始めようと思ってコンソールなどそのままにしておいたのに、何やら更新で勝手に再起動している。もちろん重要なものは保存しているが、許せん:(

Virtuosoがどうやら紀元前の日付を正しく処理できないことが判明して、関連して手直ししたらあれこれ玉突きトラブルで酷い目にあってる:(

Show more
mastodon.cloud

Generalistic and moderated instance.
Everyone is welcome as long as you follow our code of conduct!