Show more

手作業での確認はやはり限界なので、明日ツールを作って進める

デジタルアーカイブの定義は人によってかなり違いがありそう

xdebugを無効化したらプログラムの動きが劇的に速くなった。10倍とは言わないまでも、処理時間からみて7~8倍にはなる。今まで何だったのか…

何だかPCの挙動が重いのでどうしたことかとシステム情報を見たら、ディスクの残り容量が3%程度。何事かとduしたところ、xdebugのプロファイラがせっせとためこんだキャッシュがものすごい量になっていた。自動ではプロファイリングしないように設定ファイルを書き直し、過去のキャッシュを全削除。これで半分ほど空いた

2500万トリプルになったら公開サーバーのVirtuosoテキスト検索がほとんど動かなくなった。グラフ探索やDESCRIBEは問題ない。メモリのバッファ割当がデフォルト(80MB相当)のままだったので、800MBまで増やしたら正常になった。TogoWikiではTurtleのファイルサイズと同量が目安といった記述があり、現在JSON-LDで1.19GBなので、確かにそんなところかも。10億トリプルクラスでは30~40GBレベルのバッファが必要ということか

Wikidataにつなぐのはさすがに無理かなと思っていたが、DBpedia-jから辿って一括クエリすればできるかもと思いついて試したところ、かなりの割合でIDが取得できた。これは嬉しい

思いつきで、タイトル読みがあって英文がないものをローマ字変換し、schema:nameを追加。役立たつのかどうか不明だったが、「タイトルにkodomoを含む絵画」といった検索ができて、結構使える。ただしsushiのような短いフレーズだと、atsushiにもマッチしたりして、ノイズだらけ。面白いものだ

アルゴリズムでカバーできることをある程度尽くしたら、あとは辞書なんだけれど、これは本当に切りがない

「月を入力すると日を返す多項式」と中国剰余定理 tsujimotter.hatenablog.com/ent 面白いねぇ。Sageという数学ソフトで簡単に計算できると doc.sagemath.org/html/ja/tutor

neosemanticsを使って変換中のJPSearchのRDFサンプルをNeo4jに取り込んでみた。今まで試したツールの中で最もスムーズな部類。そしてこれは面白い

ShExを生成してみて、試行錯誤の結果なかなかうまく行った。データよりShape記述の誤りがよく分かる;-)

2年前の資料をうまく探し出すことができて、不完全でも何かのヒントを1箇所にまとめておくのが役立つと改めて思っているところ

昨日の続きから始めようと思ってコンソールなどそのままにしておいたのに、何やら更新で勝手に再起動している。もちろん重要なものは保存しているが、許せん:(

Virtuosoがどうやら紀元前の日付を正しく処理できないことが判明して、関連して手直ししたらあれこれ玉突きトラブルで酷い目にあってる:(

没頭していたのでちょっと5分巻き戻し。まだまだ問題が出てくる

アイデアと言うか改良点が続々と出てくるが、対応が追いつかない…

新しいデータセットに取り組むことで、特定のデータに特化していた部分が顕在化して、より応用範囲の広いメソッドに強化できる。切りがないのだが

一気に進めるとドキュメントが後回しになってしまうので、ここで手順を整理してメモしたりコメントを強化したり。これが後で大きな違いになる

とりあえず記録として、昨日の報道《サマータイム見送りへ 自民研究会「五輪時の導入困難」》。当然の帰結ではあるが、オリンピック以降に「低炭素社会」とか「成長戦略の一つ」とかしっかり含みを残しているので、油断ならん。今はちょっと付き合ってる暇ない

地図サービスのURIやAPIがよく変更されるので、昔作ったツールで気づいたら地図が表示できないということがしばしば。無料サービスに文句を言える筋合いではないものの、かなり困る。とりあえず地図関係はOSMに順次変更していく

Show more
mastodon.cloud

Generalistic and moderated instance.